谷歌放弃试用6年的超级宽带计划:谷歌光纤面临出售
06-17
如何制作聊天机器人?常见的方式之一是通过深度学习;另一种是利用信息论,即如何让机器人聊天并给予反馈。
利用深度学习的方法现在被广泛使用,而第二种方法目前使用较少,还处于探索阶段。
在全球人工智能与机器人峰会上,加拿大皇家科学院院士、滑铁卢大学院士、ACM、IEEE Fellow李明教授提到,利用深度学习的上下文模型制作聊天机器人,回答了机器人提出的问题。
对话中的机器人过于笼统,目前需要解决的产品痛点是让机器的回答更有针对性。
于是李明和和他的研究团队在此基础上增加了一个CNN编码器,给机器人一个上下文问题,然后对它进行上亿个问答对的训练,最后训练了40个,让答案更有针对性,而且准确率是80%以上。
它的工作方式是先连接两个Contet Model,通过不同的连接将CNN的分类结果输入到RNN中,从而更准确地理解问题并做出正确的答案。
作为一款由自然语言处理驱动的应用程序,Siri 仍然存在一定的问题。
当用户问 Siri“鱼吃什么?” Siri内部系统提取了“鱼”和“吃”这两个关键词,了解到用户的意图是吃海鲜,因此答案结果列出了很多海鲜餐厅。
。
如果使用模板匹配而不是深度学习,也会出现问题。
模板匹配不太灵活。
它可以回答“今天天气怎么样?”的问题。
但如果换成“今天天气怎么样?”就会出现问题。
最近李明做了一项研究,以确定细胞中某种物质的含量。
其过程是先给出一个细胞,将细胞破碎分离,分离后取出黑点,用质谱仪摇匀,生成谱图,这就是它的质谱。
根据质谱,李明写了一个非常简单的CNN模型,连接到LSTM来完成识别。
在这种情况下,由于噪声问题,深度学习本身就不起作用了。
另外,它还需要做动态规划,通过无数个CNN,最后用动态规划来解决。
问答机器人的主要技术挑战之一是适度的反馈系统。
AlphaGo的反馈系统,通俗地说,就是下棋输掉一分,输了则获得一分。
与AlphaGo简单的输赢反馈相比,聊天和问答不能使用简单的是非输赢反馈,所以这里需要一个合适的测量系统。
李明提出了测量系统的概念,是一种基于信息论的测量系统。
他们需要测量两个句子的相似度或者一个问题和一个答案的相似度,最终找到两者之间的语义距离。
虽然语义距离无法计算,但是语义是可以近似的,而实现近似的方式就是压缩,通过压缩来衡量语言的相似度。
李明利用深度学习从多个角度解决自然语言问题,为研究人员提供了新的视角。
以下为李明讲话实录: 大家好!我们有一家名为Boyan的初创公司,我们正在做聊天机器人。
今天我将向您介绍我们的聊天机器人。
您可以关注博言豆豆微信,可以直接与其聊天。
物理机器人是我们聊天机器人的一种实现方法,但它们不是我们的主要产品。
聊天平台是如何制作的?我们已经朝这个方向努力了近十年。
公司成立已两三年,共有员工50余人。
不做其他事,只做一件事:聊天。
今天的会议上很多人谈论了聊天项目,也有很多精彩的报告。
我想介绍一下我自己的聊天机器人平台。
我分为两个主题,一个是如何做聊天机器人,一个是深度学习,另一个是信息论,即如何聊天,如何给予反馈。
第一个主题大家已经做了很多,但是第二个主题相对较新,更具实验性和探索性。
很多人都知道深度学习就是所谓的Context Model。
我们觉得使用该技术开发的产品太笼统,无法回答问题。
我们要让问题的回答更有针对性。
所以我们添加了一个 CNN 编码器来给它一个上下文标题。
它需要数亿个问答对进行训练,目前已训练了 40 个。
然后它会告诉网络它想问的问题,网络将用它来更具体地回答问题。
经过我们训练后,它的准确率大约是80%。
C 有不同的方式来访问这两个 Contet 模型。
通过不同的连接,将CNN的分类结果输入到RNN,使其能够更准确地理解含义并做出正确的答案。
例如,让我们看一下第一个。
第一个是关于谁主演了《泰坦尼克号》。
输出结果很一般。
没关系。
都是中文的,没什么用。
回答这个问题的人有很多很多。
但当你有了一个主题时,它就会回答一个正确演员的名字。
还有第二个问题。
当没有这个话题的时候,如果你问库里和詹姆斯谁是MVP,它会说这要看情况。
有了这个话题,它的答案就是,答案是詹姆斯,由话题进入。
重要性。
每个人都在谈论深度学习如何帮助自然语言理解。
举个有代表性的例子,大家都知道Siri。
Siri 使用大量关键字处理。
假设你问它鱼吃什么?它认为,如果这里有鱼,有食物吃,那一定是海鲜了。
那我就告诉你,海鲜店很多,很不靠谱。
但您也可以进行模板匹配。

如果不做深度学习,模板匹配也很不靠谱。
刚才有艾克的例子。
艾克可以模板匹配。
相比之下,模板匹配非常不灵活。
你如果问今天天气怎么样它可以回答,但如果你问今天天气怎么样它就无法回答。
灵活性非常差。
大家看看这个。
这是我训练后做的。
如果我口渴了该怎么办?答案是喝水。
如果我感觉有点口渴怎么办?多喝水。
如果我有点渴怎么办?多喝点水,我只是补充一下废话。
多喝水,在北京有点渴怎么办?在北京喝了王老吉和蝴蝶后有点口渴怎么办?或者喝点水。
现在我把“渴”字换成了“饿”字,只是一字之差。
我说蝴蝶,我在北京有点饿了。
我在中国应该做什么?机器说吃,我又把“饿”这个词去掉了。
我说蝴蝶,北京有吗?中国该怎么办?答案是肯定的,北京。
所以深度学习给我们解决了很多问题,不是它理解了这句话的意思,而是它变得非常准确。
让我再举一个简单的例子。
只要有数据、有注释,深度学习就能表现得很好。
血液生物信息学也做得很好。
最近我们做了一个工作。
生物信息学血液意味着我需要确定细胞中存在多少特定量,或者是否存在。
那我该怎么办?先给一个细胞,然后将细胞压碎分离。
分离出几个黑点后,取出,用质谱仪摇匀。
工作完成后,就会生成这样的光谱。
该谱就是它的质谱。
根据这个质谱,我们要写出它的蛋白质等等。
所以我写了一个非常简单的模型,就是CNN,其次是LSTM。
深度学习往往根本不适合。
在这种情况下,深度学习根本不起作用,因为噪音很大,需要做所谓的动态规划。
我们使用了无数的CNN并使用动态规划来解决它。
当然这只是一个简单的说法,一张图片。
科学院之前做过对比。
这个比较并不完全公平,但是对大家来说还是有用的。
博言豆豆,这道题用了从微软找来的一千个问题。
这是2016年发布的数据。
他们用它来测试聊天机器人。
我说不公平是因为这些问题不是聊天问题,而是QA问题,所以有些比较是公平的。
比如图灵机器人是公平的,因为它这样做,然后你出去问它也这样做,小i机器人也这样做,但是对小冰和百度嘟米就不公平,因为它不这样做。
不要这样做。
但如果你想聊天,你就必须能够回答任何问题。
你不能乱说。
如果有人问你问题,你必须正常回答。
所以知识非常重要,知识就是力量。
我想谈谈下一个问题。
AlphaGo 做得非常好。
下棋输了就丢一分,赢了就得一分。
这有一个正常的反馈系统。
说话聊天的时候,怎么知道一句话是对还是错呢?因此,我们必须有一个正确的测量系统。
所以最近我们正在研究对正确测量系统的需求。
我们有一个信息论,一个基于信息论的测量系统,这和我们的LSTM类似,我们现在需要测量什么?两个句子之间的相似度或问题与答案之间的相似度。
我需要找到这些事物的语义距离。
这两个句子之间的语义距离是多少?现在的问题是,什么是语义距离?什么是语义距离?无法计算的东西没有定义,也没有人知道它是什么。
我们提出一个新的理论,就是我们不知道什么是语义距离,所以我们用一些东西来代替它。
我可以证明这一点。
语义距离没有定义,也无法计算。
信息距离有距离,无法计算,但可以近似。
大约是多少?这是压缩。
但我可以证明以下事情,数学上严格的证明。
语义距离的任何描述或者近似,不管你有什么近似,只要是可计算的,我的信息距离一定比你的距离更好。
不需要任何其他东西。
语义距离不是没有定义的吗?算了,不定义了,就用信息距离吧。
信息距离无非就是压缩。
压缩后,您可以近似语义距离。
当然我不知道怎么压缩,但是是可以做到的,因为我们很多人已经开始尝试做这个了,通过压缩来衡量这个东西,两种语言的近似。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-17
06-18
06-06
06-18
06-18
06-17
06-17
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态