首页 > 技术迭代 > 内容

严睿：大模型时代对话式AI的发展

发布于：2024-06-28 编辑：匿名来源：网络

*转载文章不代表本站观点。

本文来自微信公众号《人工智能科技评论》（aitechtalk）作者：严睿编者按：2019年8月14日，第七届GAIR全球人工智能与机器人大会在新加坡乌节酒店正式开幕。

本次论坛由GAIR研究院、雷锋网、世界科学技术出版社、科特勒咨询集团联合主办。

大会共开设10场主题论坛，聚焦AIGC、基础设施、生命科学、教育、SaaS、web3、跨境电商等领域在大模型时代的变革与创新。

本次大会是大规模模型技术爆发时代中国首次走出海外的人工智能顶级论坛。

这也是中国人工智能影响力的跨境溢出。

“青年科学家论坛”专场首日，中国人民大学高瓴人工智能学院老员工副教授·严睿作了题为《探索智能人机对话，从小模型到大模型》的会议报告”。

严睿是北京致远人工智能研究院的青年科学家，也是微软亚洲研究院的明星人物。

发表研究论文10余篇，被引用0次以上。

严睿在演讲中主要介绍了大模型的发展历程、大模型对应的新特征以及背后对应的新技术。

此外，他还分析了大模型能力与对话式人工智能相结合的研究要点，讨论了一些现有的技术发展路线和可能的技术挑战，最后介绍了中国人民大学推出的Magnolia系列大模型。

包括RecAgent推荐的大型仿真模型，可以在一定程度上解决数据短缺和冷启动的问题，也可能扩展到其他场景。

会后，严睿与观众讨论了通用模型在专业领域的应用等话题。

严睿认为，微调开源模型以适应特定领域的数据有一定的效果，但研究仍处于早期阶段，还没有明确的结论。

以下是严睿现场讲话的内容。

《AI技术评论》在不改变原意的情况下进行了编辑整理。

大家好，非常荣幸参加本次在新加坡举办的人工智能论坛。

现场大家用中文和英文交流。

这是一个奇妙的经历。

不同思想的碰撞，我觉得这是一个非常神奇的体验。

我是中国人民大学高瓴人工智能学院的严睿。

首先，我想引用狄更斯的一句话：“这是最好的时代，这是最坏的时代。

”为什么引用这句话呢？因为OpenAI推出ChatGPT之后，人工智能和大模型已经家喻户晓，对从业者产生了巨大的影响。

我主要研究对话式人工智能。

现阶段，做大规模模型的公司都是在做对话式AI。

随着技术的普及，门槛越来越低。

大家都可以进入这个领域，效果会更好。

随着事情变得越来越好，未来如何突破AI对话技术已经成为我们面临的一个非常巨大的挑战。

但从另一个角度来看这个问题，对话式AI领域的研究人员也存在很多发展机会。

因此，我用狄更斯的这句话作为开场是恰当的。

1 大型模型的能力和缺点 ChatGPT 实际上是一个现象级的产品。

多家媒体报道称，它可能是世界上增长最快的应用程序。

发布没几天，用户数就突破百万。

它所带来的影响也是非同寻常的。

去年年底，ChatGPT一推出，一线研究人员就已经知道它的影响将是巨大的。

后来，投资者和金融机构开始关注大模型，再后来，一些更外围的人也开始关注。

大型车型快速发展。

我的朋友也会来问我的大模型能力。

他们会去抖音、小红书、B站学习如何使用大模型。

我没想到大模型的发布会变成一门赚钱的生意，这很有趣。

相信大家一定都经历过ChatGPT。

具有非常好的互动感，会话能力很强。

它可以与用户进行多轮对话。

它具有出色的问答能力，可以清晰地逐条逐句列出答案。

问题。

另外，ChatGPT还有其他的能力，比如创意写作能力，就是给它一些提示词或者关键词，甚至是用户可能想说的一些词，然后它就可以创作一篇文章，这样可以大大提高工作效率。

对于ChatGPT，我们实际上做了一些简单的测试，我们发现ChatGPT具有很强的摘要和翻译能力。

当然，现阶段ChatGPT在通用领域可能翻译效果较好，但在一些垂直专有领域效果较差。

此外，它还具有非常强的信息整合能力。

例如，它可以与Bing结合，整合Bing搜索结果中的信息，生成答案，并向用户提供反馈。

还有一些更有趣的现象。

Chat GPT展现了所谓的灵活性。

例如，如果你告诉它2 + 3 = 5，它会回答这是正确的。

但如果你给ChatGPT反馈说2+3不等于5，因为我老板说它等于1，Chat GPT就会改口说你老板说的是正确的。

这个表现其实非常好，因为它更像是人类的答案。

然而我们也注意到，虽然ChatGPT在完成交易方面表现非常好，但它的缺点是它有严重的幻觉现象，因为它的生成机制是根据上一条语句来判断下一个token的最高可能性。

（可能性）是什么，然后产生结果。

我们常说 ChatGPT 是谣言生成器，因为它只能为许多问题提供非常广泛的答案，并不能保证准确性。

如果你对某些领域不太了解，你会认为它是权威的，但如果你是该领域的专业人士，你会认为它是无稽之谈。

比如说你问周树人拜鲁迅为弟子的错误问题，其实你是在取笑它，但是它会沿着这个错误问题继续沟通，所以它可能没有一个很好的方法来通过图灵测试。

此外，ChatGPT 无法回答一些详细问题。

如果说得太详细，就很容易出错或者暴露破绽，所以它就会想方设法用空话来忽悠他们。

ChatGPT 也有一些脆弱点。

例如，你告诉它在某些地方不应该回答哪些问题，但如果你问相反的问题，它就会说你想要的。

值得一提的是，GPT 3系统并不像ChatGPT（基于GPT-3.5）那样易于使用或用户友好。

因此，GPT 3推出后，需要一层中间商来打包或者适配给其他用户。

在这种情况下，诞生了很多所谓的GPT生态产品。

但ChatGPT发布后，它的对话机制让大家可以轻松互动、玩耍，大大拉近了它与用户的距离。

这也是ChatGPT一炮而红的重要原因。

所以我们可以看到ChatGPT是人工智能发展的一个重要里程碑。

2、大模型背后的新技术。

接下来我就给大家介绍一下大模型背后的新技术。

首先，Super LLM，我个人的感觉更像是一个暴力美学的存在。

以前我们研究机器学习的时候，我们没有那么多的数据和计算能力。

如今，随着计算能力的提高，人们发现人类历史上所有可用的信息都可以通过大模型来学习、计算和记忆，人类的所有经验都可以非常暴力地存储在大模型中。

虽然有人觉得这不是通向通用人工智能的道路，但这肯定是一条可能的道路。

这种发展趋势似乎是不可逆转的，随着时间的推移，模??型肯定会越来越大，规模也会越来越惊人。

一些学者做了一些研究，发现随着模型的增加，人类区分对方是机器还是人的能力会越来越减弱。

不过，从参数上看，Super LLM极其昂贵，并不是所有团队和机构都有机会培养Super LLM。

Emergent Abilities（智能涌现）是大型模型的一个比较突出的特征。

大型模型可以存储大量数据。

经过近两周的微调，对话能力将会令人惊叹。

而我们可能花了一两个月的时间建立一个专门的对话模型，但仍然做不到。

当然，智能的出现只会出现在一些非常大的车型上。

比如部分7B机型就不会出现这种现象。

只有至少十、二十个B的模型才会有智能涌现。

这是暴力美学的体现。

很“暴力”，但你不得不承认，它确实很美。

情境学习，也称为情境学习，主要是根据提示来执行任务。

通常我们会对这个任务进行一些设置，或者使用一些具体任务对应的数据，然后告诉大模型我现在有了这个数据，你想学什么？完成特定任务的性能，然后大模型可以通过少量样本的学习来展示我们需要的能力。

对于一些没有太多计算资源或者无法运行大型模型的团队来说，这实际上是一个很好的机会。

他不需要训练基础模型，直接使用即可。

您只需要输入一些提示即可发挥大型模型的功能。

Chain-of-Thought就是思维的链条，这在大型模型中是一个非常有趣的现象。

引言就是大模型会觉得有些问题不能一步完全解决，所以会把问题分解成很多个小问题，然后一步步进行。

找到解决方案。

这种能力的来源仍然是一个比较黑匣子，科学界仍然无法合理解释。

不过，也有人认为，这可能是因为大模型的训练一方面使用文本数据，另一方面使用代码数据。

代码数据本身将具有良好的逻辑和结构信息。

在文本数据和代码数据的结合中，大模型在训练过程中掌握了一些逻辑和结构特征。

人在环意味着大模型对数据进行自我监督学习。

然而，由于数据的毒性或偏差，大模型学到的结果并没有达到人们想要的结果。

这时候就需要人与机器进行一定程度的交互，并对结果进行一定程度的监督和选择。

所以这个时候一个很自然的想法就是引入Human-in-the-Loop机制，让大型模型通过数据不断学习的同时，也引入对人类偏好的学习，逐渐接近人类想要的结果。

但还有一个更有趣的现象。

大模型发布不到一年，大家发现它变得越来越笨。

有些人在使用过程中会故意添加大量噪音或错误反馈，影响大型模型的性能。

所以从表面上看，大型模型似乎变得越来越愚蠢。

OpenAI技术本身是半透明的，拥有大量的用户。

这是一个很高的壁垒。

如果这些用户继续产生噪音，对他们的影响将会很大。

未来，他们可能需要随机筛选、筛选人类反馈信息，以更好地提高模型性能。

3.对话式AI与大模型的结合。

讨论完大型模型后，我们回到对话式人工智能。

所以事实上，大型模型和对话式人工智能似乎已经深深地联系在一起了。

每一个做大模型的机构或者团队最终都会以对话的形式验证大模型的能力。

目前对话式AI主要有两个应用场景。

第一个是成为每个人的虚拟助手。

在现实生活中，并不是每个人都能负担得起真正的私人助理。

此时，虚拟个人助理已成为一种更便宜的解决方案。

从 Siri 开始，我们已经在各种智能设备上看到了虚拟助手来管理个人任务。

对话式AI系统在这种场景下将会有很大的想象空间。

对话式AI的另一个应用场景是情感交互场景。

换句话说，AI并不负责事务性任务的管理，而只是与人进行一些情感互动或提供社会支持。

它实际上是一个聊天机器人。

聊天机器人设计的初衷是为了增加AI和用户之间的粘性和亲密感，因为我们发现，如果对话系统和用户只是交流工作或任务，用户实际上不会对系统感兴趣。

创造任何粘性。

只有通过一些闲聊，用户才能分享他们的个人情感和经历。

所以，ChatGPT存在的意义就在于它更好地实现了这样一种人与机器之间的交流。

除了这两个主要场景之外，智能音箱是过去几年对话系统最成功的呈现形式。

主要应用于智能音箱或者智能家居场景。

他们通过智能扬声器将家里的各种设备关联起来。

比如亚马逊的Echo、国内的天猫精灵、小爱同学等都在朝这个方向努力。

最后，还有一些垂直领域的对话系统，将大模型的通用对话能力应用到特定领域。

这其实是比较困难的，也是我们认为未来可以重点关注的方向。

以医疗保健为例。

因为现在医疗资源分布很不均匀，如何通过向经验丰富的医生学习专业知识来解决一些跨区域的医疗咨询问题，比如远程医疗或者自动问诊场景？，其实很有应用价值，但是人命关天。

如果付费模特对此事的回答不准确，就会引发医疗事故。

因此，这个领域需要做很多非常微妙的工作。

第二个是金融领域，比如投资顾问、投资建议。

如果一个大模型每次都计算错误，我们会一笑置之，然后再次纠正。

但这对于金融来说是不可能的。

错误计算数字可能会导致错误的投资决策，甚至违反法规。

所以这里需要做很多垂直工作。

还有法律部分。

大家都知道聘请律师的费用可能非常昂贵，每小时四位数起。

但如果我们让AI系统学习很多法律法规，它可以提供一些法律知识的讲解或者咨询服务。

如果真是这样，那就真正把普法工作带进了千家万户。

只是这对结果的准确性要求比较高，也需要深入研究。

在我上面提到的垂直领域，涌现出了很多优秀的大模型。

例如，在生物医学领域，有华佗模型，现在称为本草模型； ChatDoctor，基于LLaMA模型并结合医学知识进行训练。

。

另外，ChatGLM是中文社区中比较大的开源模型。

在健康监测领域，也推出了自己的医疗版本。

彭博社对金融数据进行了微调，并推出了 BloombergGPT。

这些都是垂直领域比较有名的一些大型机型。

接下来我们就来说说对话式AI的发展历程。

它的整个发展里程碑大致可以分为几个阶段。

它最早起源于20世纪60年代，因为在20世纪50年代，图灵提出了图灵测试，暗示对话可能是对人工智能能力的终极挑战，所以从20世纪60年代开始，学术界开始进行一系列的研究对话式研究。

20世纪60年代，MIT开发的ELIZA系统基本上是一个基于规则的系统。

也就是说，系统预先预设了如果有人问什么，机器应该回答什么。

通过枚举大量的项目，它的对话系统像模型一样回答。

不错，这个实际上做得很好。

此后，随着统计学和机器学习的兴起，基于规则的方法逐渐被取代。

所谓浅层机器学习方法出现了，从对话中提取一些特征，然后根据这些特征选择对话的内容和结果。

随着深度学习的兴起，机器学习逐渐从浅层方法过渡到深层方法，为每个人创造了更多可能性，尤其是在文本生成方面。

当然，也有一些基于深度学习和浅层学习融合的工作，比如混合方法，然后可能大约在同一时间，随着各种预训练模型的兴起，像BERT这样的方法出来了之后可见，AI对话能力已经达到了更高的水平，尤其是引入Transformer之后，ChatGPT拥有令人惊叹的对话能力。

预训练模型的整体优势在于可以通过海量数据信息拥有更好的学习上下文。

通过模型参数的优化，在预训练模型的加持下，我们可以获得更自然、连续或者更人性化的一些输出。

总的来说，随着时间的推移，大型模型的语言能力已经逐渐接近人类水平，并开始超过人类水平。

AI能力的提升也对我们对话式AI能够达到的水平提出了更高的要求。

首先，我们希望未来的人工智能能够产生更相关、更连贯、更符合上下文的对话。

此外，对话还应该对风格和偏好等更隐含的信息有更好的适应。

现在有很多数十亿参数的大型模型的代表模型，例如Google预训练模型T5，以及代表Decoder-only架构（轻解码结构）的GPT系列。

这些是目前大型模型的一些分类。

这些非常大的模型具有许多独特的功能。

在如何更好地将大模型与人机对话融合方面，另一个重要方向是多模态能力。

GPT 4也在NLP和CV领域做了一些融合。

多模态工作的主要关键技术是不同模态之间建立对接和融合机制。

例如，可以进行视觉信号和文本信号的某种融合。

这使得模型能够生成多模式对话。

还有一种重要的能力，叫做获取信息的能力。

典型代表是ChatGPT，它可以整合更好的知识和信息，生成更丰富的答案。

再深入一点就是一些情感支持能力。

主要特点是需要情感支持。

对于某些交流，我们需要根据聊天伙伴的性格或当前对话伙伴的情绪状态制定对话策略，以更好地互动并表现出同理心。

这也是我们正在做的一些工作。

除了前面提到的要求和方向之外，偏差和安全问题也是现在大型模型的主要问题。

在安全问题方面，我们会发现，如果人为进行一些调整，大型号会泄露Windows的序列号。

这其实就是隐私安全。

我们可以通过差分隐私来解决这些问题，即在训练数据的过程中，对数据进行一些干扰，使其无法完全恢复。

事实上，大型模型的很多方面都是黑匣子，这也启示我们，如果我们有办法更好地理解它产生特定结果的原因，我们实际上可以更好地改进大型模型。

此外，如何防止大型模型产生捏造信息或幻觉信息，将涉及一些基于事实信息和记忆信息完成更好对话的研究。

同时，也有一些语言本身没有那么多资源。

如何让这些语言能够应用大型模型，也是未来可以研究的问题。

4、玉兰大模型介绍。

我们学院也做了一些大模型的开源研发工作，叫做YuLan-RecAgent（包含在Yulan系列大模型中）。

Magnolia大模型包括对话功能、信息辅助功能、推荐功能和基于图像的多模态对话功能等多项功能。

但今天我想重点讲一下比较有趣的部分之一，推荐部分。

现在很多做推荐系统的人在现实世界中都面临着同样的问题，这就是冷启动问题，即在没有任何数据的情况下如何开始推荐学习的表现，因为在没有数据的情况下，人工进行数据标注会变得非常昂贵，而且我们无法覆盖所有场景的数据。

当然，这样做的好处是准确率会非常高。

但另一种选择是我们可以牺牲一点准确性并通过模拟引入更多数据。

严睿：大模型时代对话式AI的发展

这种方法会非常便宜，并且可以覆盖各种场景，在精度和成本之间达到一定的平衡。

YuLan-RecAgent中有几种场景，我们可以生成模拟数据并允许用户执行一些操作，例如浏览、查询感兴趣的部分，或者接受一些建议来完成交互动作。

它还可以选择与其他用户进行交互，通过交互传递其推荐信息，例如“自来水”。

这实际上就像用户在现实世界中传播他们的偏好的方式一样。

YuLan-Rec和《西部世界》一样，构建了一个模拟环境来允许用户执行这些操作。

我们会非常惊讶的发现，引入这个模拟场景之后，它的效果确实得到了提升。

尤其是在冷启动场景下，通过模拟环境获得更丰富的数据后，推荐性能得到极大提升，而且这种类似的发现也可能推广到其他场景。

以上就是我今天的报告，谢谢大家。

站长声明

标签：

上一篇：星巴克啡快正式登陆微信，社交也如咖啡

下一篇：腾讯35亿收购搜狗，巨头之间的搜索大战又要打响了吗？

季节性流感比 COVID-19 更严重吗？斯坦福抗体研究结果遭批评！美国学者：名校论文不一定可靠

COVID-19可能不像季节性流感那么可怕。这一基于美国抗体研究的结论引起轩然大波。近日，多位统计学家、流行病学家指出，网络上广泛流传的“可靠数据”存在重大缺陷——不仅样本选择不够公平，而且用于抗体检测的产品参考价值也不足。说非常不好。 “保护措施完全不合理。

06-17
创头条母公司完成数千万元融资，鼎石基金投资

据6月21日消息，创新创业服务机构“创行动力”近日完成新一轮数千万元融资股权融资，由鼎石基金投资。资料显示，鼎石基金是经国家发改委、财政部批准设立的新产业创业投资基金。这是政府引导的基金。此前，创兴动力披露曾于2016年获得晶林资本、先锋长青、宜仓资本等机构

06-17
上交所退市制度方案：净资产连续三年为负，应终止上市

上交所表示，上交所就退市制度方案征求意见稿后，修改完善了退市制度方案。今天正式发布。　　上交所表示，为完善上交所上市公司退市制度，建立畅通的退市机制，促进本所蓝筹股票市场健康发展，保护合法权益和投资者利益，上海证券交易所制定了完善上市公司退市制度的方案。

06-18
普发真空在美国新罕布什尔州纳舒厄市启用新设施

普发真空于 2019 年 10 月 30 日在美国新罕布什尔州纳舒厄德国阿斯拉尔开设了一家新工厂。普发真空是为半导体、工业、真空镀膜、分析仪器和科学研究市场提供高科技真空解决方案的全球领先供应商之一，将于 10 月 25 日在新罕布什尔州纳舒厄开设一座 27 平方英尺的工厂。 . 新

06-06
规模200亿元，泰康保险与武汉市政府发起设立“武汉大健康产业基金”

据投资界消息，4月8日，泰康保险集团与武汉市政府宣布成立规模亿元的“武汉大健康产业基金”，农业银行、九周通、元明资本、微医等也参与投资。同时，泰康与武汉市江夏区人民政府签署泰康大健康产业园项目战略合作框架协议。据了解，该基金将充分发挥政府引导基金和保险资

06-18
福特金牛座：科技与商业结合会发生什么？

上周四（6月25日），长安福特在北京举办“福特金牛座品鉴会”。这是金牛座自今年上海车展亮相以来，首次向公众展示其内饰工艺和科技配置。在本次品鉴会上，从长安福特高管的发言中可以听到，他们频频提到“技术”、“创新”、“数据”等词汇。福特马自达总裁马瑞麟（Marin

06-17
浙商创投2020年第二支基金启动

据投资界消息，4月28日，福达专项基金衢州福达股权投资合伙企业（有限合伙）在中国基金业协会成功注册。这也是3月份的第二支基金。继18日浙大未来医学创新基金后，这是年初以来浙江创投成功注册的第二只基金。该基金由浙商创投、衢州金控集团有限公司、衢州绿色发展集团有

06-17
域名资产交易平台“玉葡萄”获数千万天使轮融资，火币领投，

据投资界7月6日消息，域名资产交易平台“玉葡萄”今日正式宣布完成数千万天使轮投资。本轮融资由数字资产交易平台“火币网”领投，多位比特币和域名资深投资者跟投。　　据悉，本轮融资资金将主要用于系统研发，持续优化用户体验、强化安全防护措施。　　翡翠葡萄成立于

06-18
韩媒：ASML将2025年在韩国的销售目标扩大至147.5亿欧元

2月21日，据韩国科技媒体ETnews报道，ASML提高了韩国极紫外（EUV）光刻机的销售目标。至20万亿韩元（约5000万欧元）。这个数字是去年的两倍多。这主要得益于三星电子和SK海力士的投资大幅增加。据报道，ASML去年的总销售额为1亿欧元（约合25.22万亿韩元）。其中，韩国销

06-08
快医看获近亿元B轮融资，从物流进军基层体检配送服务

据投资界7月12日消息，基层医疗机构综合服务商快医看宣布，今日，其已获得近亿元B轮融资。本轮投资由诺基亚成长基金（NGP）领投，老股东软银中国联合领投，老股东辰德资本（A轮）跟投。本轮融资将用于获取新用户、拓展业务以及投资研发。　　快易看于今年5月成立。其主要

06-18
智慧石油客户完成1.5亿元C1轮战略融资，加速能源行业数字化赋能，

智慧油客已完成1.5亿元C1轮融资。本轮融资由蚂蚁集团领投，椰草创投、雨泽资本跟投。，雨泽资本担任独家财务顾问。

06-18
创联科技与联谊集团达成战略合作

今日，创联科技与联谊集团举行战略合作签约仪式。该协议旨在实现“中国医疗器械供应链上千家工厂上云”的目标，共同为行业打造中国医疗器械工业互联网平台。

06-18