江苏“万亿”群聊,等苏C
06-17
科技巨头时不时宣称自己在AI领域取得了突破性进展,我们对此不再感到惊讶。
当地时间1月28日,谷歌在博客中推出了一款名为Meena的开放式聊天机器人,号称“史上最强大”。
那么这个新的突破是否会让人眼前一亮呢? [图片来源:谷歌博客 所有者:谷歌博客] 在开放领域开发聊天机器人很困难。
事实上,智能聊天机器人就是为了解决信息爆炸时代存在的信息过载问题而设计的。
最初,聊天机器人是作为搜索引擎的最终形式而设计和开发的。
与现有的搜索引擎不同,聊天机器人可以自然流畅地对用户的问题给出准确的答案,节省大量时间,从而带来更好的用户体验。
根据使用场景,聊天机器人主要有两种类型:开放域型和任务型。
其中,面向任务的主要包括问答系统和对话系统聊天机器人,分别是指根据用户的问题给出答案的聊天机器人(常用于智能家居中的智能搜索、家电控制等场景)和聊天机器人与用户进行多轮对话。
(如客服机器人、销售机器人等)。
开放域聊天机器人(又称聊天机器人),顾名思义,针对的是开放域对话场景,对话题和内容没有任何限制,比如微软的小冰和苹果的Siri。
谷歌在上述博客中表示:开放领域聊天机器人的研究不仅具有学术价值,还可以激发许多有趣的应用,例如更深入的人机交互、改进的外语训练以及互动电影和游戏角色的制作。
值得一提的是,开放领域的聊天机器人更符合人们对“人工智能”的定位,开发难度自然也很大。
开放领域的聊天机器人目前面临的一个严重问题是它们表达的内容往往毫无意义且无法理解。
它与用户的问题是连贯的,但由于缺乏基本的常识和认知,无法给出有针对性的答复。
谷歌开发的Meena是一个开放领域的聊天机器人。
那么与现有的聊天机器人相比有何突破呢? 【Meena与人类对话内容图片来源:谷歌博客】26亿参数端到端神经对话模型。
谷歌在博客中介绍,Meena是一个26亿参数的端到端训练的神经对话模型,它是一个GPT-2模型。
最大版本的1.7倍(15亿个参数)。
据称,谷歌使用一亿字的数据集,通过张量处理单元(TensorProcessingUnit,谷歌专用的AI芯片)训练了30天,得到了最好的版本。
实验表明,相比聊天机器人SOTA,Meena能够更好地完成对话,而且内容更加具体、清晰。
据悉,Meena由1个Evolved Transformer编码器和13个Evolved Transformer解码器组成:编码器用于处理对话上下文,帮助Meena理解对方的话;解码器将使用该信息来生成回复。
在此过程中,谷歌表示:研究人员发现,经过超参数调整后,实现高质量对话的关键在于更强大的解码器。
【图片来源:谷歌博客 所有者:谷歌博客】雷锋网了解到,谷歌从公共领域社交媒体对话中过滤了 GB 的文本,并将文本组织在树状上下文中,用于“多轮对话”训练。
研究人员将每轮对话作为训练样本,每轮之前的7轮对话作为上下文信息,它们共同形成了一组数据。
据悉,选择7轮对话作为上下文,不仅可以保证训练过程获得足够的上下文信息,而且模型也不能超过内存限制。
毕竟,文本越长,占用的内存就越多。
新提出的人类评估指标SSA 根据博客,上述性能是谷歌根据新提出的人类评估指标“敏感性和特异性平均值(SSA)”获得的。
这次提出新指标是因为目前聊天机器人的人类评价指标相当复杂,很难形成一致的评价指标。
谷歌表示,SSA 捕获了基本但对人类对话很重要的属性。
为了计算这一指标,研究人员测试了 Meena、Mitsuku、Cleverbot、DialoGPT 和小冰等常见聊天机器人。
在测试中,对于每个聊天机器人,研究人员收集了对话中的轮流,并由人类评估者对每个聊天机器人的响应进行评分(主要根据对话的流畅性和答案的准确性),以及它们各自的表现如下所示。
【图片来源:谷歌博客 所有者:谷歌博客】不难看出,Meena的 SSA 分数比现有的 SOTA 聊天机器人更高,甚至接近人类的表现。
毫无疑问,困惑与 SSA 密切相关。
人的评价或多或少都存在问题。

因此,很多研究者希望找到一种可以自动计算的评价指标,而且这个指标必须准确对应人类的评价。
雷锋网了解到,perplexity(perplexity,指任何神经对话模型都可以轻松获得的计算指标)是一个 seq2seq 模型(雷锋网注:循环神经网络的一种变体,包括编码器和解码器是自然语言处理中的重要模型,可以作为机器翻译、对话系统、自动摘要中的通用指标来评估语言模型的不确定性,值得一提的是,谷歌已经证明了混淆度很高。
事实上,Meena接受的训练是为了最大限度地减少预测下一个标记的混乱和不确定性,因为Meena的核心是“进化的 Transformer seq2seq 架构”,这是一种通过进化神经架构搜索发现的 Transformer 架构。
谷歌在博客中表示,研究人员根据层数、注意力数量、训练步骤数、编码器和训练方法等因素测试了总共 8 个不同的模型,发现困惑度越低, SSA 分数越高。
同时,两者的相关系数非常高(R^2 = 0.93)。
【图片来源:谷歌博客 所有者:谷歌博客】同时,谷歌表示,研究人员将继续通过改进算法、架构、数据和计算量来降低这种神经对话模型的复杂性。
Meena意义重大吗?根据博客中显示的数据,我们认为Meena确实有出色的表现,但人们可能会质疑Meena何时发射以及实际发射后的表现如何。
博客提到,研究团队目前正在进一步评估这项研究的风险和收益,并可能在未来几个月内启动,旨在推动该领域的发展。
对此,VentureBeat记者Ronald Ashri在报道中表示:首先,我们必须认识到,即使谷歌开源了所有代码,也很少有人能够训练出类似于Meena的模型。
Meena可能仍在实验室中,太复杂而无法使用,尚未集成到工具中,而且谷歌不太可能很快将其作为服务提供给用户。
因此,Meena短期内恐怕很难推出。
另外,从实用性上来说,Meena作为一个开放式的聊天机器人确实可以实现多轮对话。
然而,Meena无法协助用户完成某项任务、学习一项新技能,或者为陷入困境的用户提供情感或心理支持。
与用户聊天没有明确的目的。
而在我们生活的时代背景下,把时间花在无意义的谈话上似乎并不是一个理想的产品。
与此同时,记者罗纳德·阿什里也对Meena提出了进一步的质疑。
如上所述,谷歌从公共领域社交媒体对话中过滤了数十亿字节的文本,以进行进一步的培训。
那么,数以百万计的公共领域社交媒体对话是否是所谓“有史以来最强大的聊天机器人”的正确数据集?Meena是否会说出不恰当的话或许也是我们应该关注的一点。
近年来,随着越来越多的AI聊天解决方案投入使用,我们需要专注于最有价值的东西——定义类人对话并探索此类对话在聊天机器人世界中的作用。
正如罗纳德·阿什里所说:Meena拉近了我们的距离,但尚未让我们到达那里。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-18
06-18
06-17
06-17
06-18
06-17
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态