首页 > 科技未来 > 内容

AIR 040丨加拿大皇家科学院院士李明：深度学习在机器人问答中的应用

发布于：2024-06-18 编辑：匿名来源：网络

如何制作聊天机器人？常见的方式之一是通过深度学习；另一种是利用信息论，即如何让机器人聊天并给予反馈。

利用深度学习的方法现在被广泛使用，而第二种方法目前使用较少，还处于探索阶段。

在全球人工智能与机器人峰会上，加拿大皇家科学院院士、滑铁卢大学院士、ACM、IEEE Fellow李明教授提到，利用深度学习的上下文模型制作聊天机器人，回答了机器人提出的问题。

对话中的机器人过于笼统，目前需要解决的产品痛点是让机器的回答更有针对性。

于是李明和和他的研究团队在此基础上增加了一个CNN编码器，给机器人一个上下文问题，然后对它进行上亿个问答对的训练，最后训练了40个，让答案更有针对性，而且准确率是80%以上。

它的工作方式是先连接两个Contet Model，通过不同的连接将CNN的分类结果输入到RNN中，从而更准确地理解问题并做出正确的答案。

作为一款由自然语言处理驱动的应用程序，Siri 仍然存在一定的问题。

当用户问 Siri“鱼吃什么？” Siri内部系统提取了“鱼”和“吃”这两个关键词，了解到用户的意图是吃海鲜，因此答案结果列出了很多海鲜餐厅。

。

如果使用模板匹配而不是深度学习，也会出现问题。

模板匹配不太灵活。

它可以回答“今天天气怎么样？”的问题。

但如果换成“今天天气怎么样？”就会出现问题。

最近李明做了一项研究，以确定细胞中某种物质的含量。

其过程是先给出一个细胞，将细胞破碎分离，分离后取出黑点，用质谱仪摇匀，生成谱图，这就是它的质谱。

根据质谱，李明写了一个非常简单的CNN模型，连接到LSTM来完成识别。

在这种情况下，由于噪声问题，深度学习本身就不起作用了。

另外，它还需要做动态规划，通过无数个CNN，最后用动态规划来解决。

问答机器人的主要技术挑战之一是适度的反馈系统。

AlphaGo的反馈系统，通俗地说，就是下棋输掉一分，输了则获得一分。

与AlphaGo简单的输赢反馈相比，聊天和问答不能使用简单的是非输赢反馈，所以这里需要一个合适的测量系统。

李明提出了测量系统的概念，是一种基于信息论的测量系统。

他们需要测量两个句子的相似度或者一个问题和一个答案的相似度，最终找到两者之间的语义距离。

虽然语义距离无法计算，但是语义是可以近似的，而实现近似的方式就是压缩，通过压缩来衡量语言的相似度。

李明利用深度学习从多个角度解决自然语言问题，为研究人员提供了新的视角。

以下为李明讲话实录：大家好！我们有一家名为Boyan的初创公司，我们正在做聊天机器人。

今天我将向您介绍我们的聊天机器人。

您可以关注博言豆豆微信，可以直接与其聊天。

物理机器人是我们聊天机器人的一种实现方法，但它们不是我们的主要产品。

聊天平台是如何制作的？我们已经朝这个方向努力了近十年。

公司成立已两三年，共有员工50余人。

不做其他事，只做一件事：聊天。

今天的会议上很多人谈论了聊天项目，也有很多精彩的报告。

我想介绍一下我自己的聊天机器人平台。

我分为两个主题，一个是如何做聊天机器人，一个是深度学习，另一个是信息论，即如何聊天，如何给予反馈。

第一个主题大家已经做了很多，但是第二个主题相对较新，更具实验性和探索性。

很多人都知道深度学习就是所谓的Context Model。

我们觉得使用该技术开发的产品太笼统，无法回答问题。

我们要让问题的回答更有针对性。

所以我们添加了一个 CNN 编码器来给它一个上下文标题。

它需要数亿个问答对进行训练，目前已训练了 40 个。

然后它会告诉网络它想问的问题，网络将用它来更具体地回答问题。

经过我们训练后，它的准确率大约是80%。

C 有不同的方式来访问这两个 Contet 模型。

通过不同的连接，将CNN的分类结果输入到RNN，使其能够更准确地理解含义并做出正确的答案。

例如，让我们看一下第一个。

第一个是关于谁主演了《泰坦尼克号》。

输出结果很一般。

没关系。

都是中文的，没什么用。

回答这个问题的人有很多很多。

但当你有了一个主题时，它就会回答一个正确演员的名字。

还有第二个问题。

当没有这个话题的时候，如果你问库里和詹姆斯谁是MVP，它会说这要看情况。

有了这个话题，它的答案就是，答案是詹姆斯，由话题进入。

重要性。

每个人都在谈论深度学习如何帮助自然语言理解。

举个有代表性的例子，大家都知道Siri。

Siri 使用大量关键字处理。

假设你问它鱼吃什么？它认为，如果这里有鱼，有食物吃，那一定是海鲜了。

那我就告诉你，海鲜店很多，很不靠谱。

但您也可以进行模板匹配。

AIR 040丨加拿大皇家科学院院士李明：深度学习在机器人问答中的应用

如果不做深度学习，模板匹配也很不靠谱。

刚才有艾克的例子。

艾克可以模板匹配。

相比之下，模板匹配非常不灵活。

你如果问今天天气怎么样它可以回答，但如果你问今天天气怎么样它就无法回答。

灵活性非常差。

大家看看这个。

这是我训练后做的。

如果我口渴了该怎么办？答案是喝水。

如果我感觉有点口渴怎么办？多喝水。

如果我有点渴怎么办？多喝点水，我只是补充一下废话。

多喝水，在北京有点渴怎么办？在北京喝了王老吉和蝴蝶后有点口渴怎么办？或者喝点水。

现在我把“渴”字换成了“饿”字，只是一字之差。

我说蝴蝶，我在北京有点饿了。

我在中国应该做什么？机器说吃，我又把“饿”这个词去掉了。

我说蝴蝶，北京有吗？中国该怎么办？答案是肯定的，北京。

所以深度学习给我们解决了很多问题，不是它理解了这句话的意思，而是它变得非常准确。

让我再举一个简单的例子。

只要有数据、有注释，深度学习就能表现得很好。

血液生物信息学也做得很好。

最近我们做了一个工作。

生物信息学血液意味着我需要确定细胞中存在多少特定量，或者是否存在。

那我该怎么办？先给一个细胞，然后将细胞压碎分离。

分离出几个黑点后，取出，用质谱仪摇匀。

工作完成后，就会生成这样的光谱。

该谱就是它的质谱。

根据这个质谱，我们要写出它的蛋白质等等。

所以我写了一个非常简单的模型，就是CNN，其次是LSTM。

深度学习往往根本不适合。

在这种情况下，深度学习根本不起作用，因为噪音很大，需要做所谓的动态规划。

我们使用了无数的CNN并使用动态规划来解决它。

当然这只是一个简单的说法，一张图片。

科学院之前做过对比。

这个比较并不完全公平，但是对大家来说还是有用的。

博言豆豆，这道题用了从微软找来的一千个问题。

这是2016年发布的数据。

他们用它来测试聊天机器人。

我说不公平是因为这些问题不是聊天问题，而是QA问题，所以有些比较是公平的。

比如图灵机器人是公平的，因为它这样做，然后你出去问它也这样做，小i机器人也这样做，但是对小冰和百度嘟米就不公平，因为它不这样做。

不要这样做。

但如果你想聊天，你就必须能够回答任何问题。

你不能乱说。

如果有人问你问题，你必须正常回答。

所以知识非常重要，知识就是力量。

我想谈谈下一个问题。

AlphaGo 做得非常好。

下棋输了就丢一分，赢了就得一分。

这有一个正常的反馈系统。

说话聊天的时候，怎么知道一句话是对还是错呢？因此，我们必须有一个正确的测量系统。

所以最近我们正在研究对正确测量系统的需求。

我们有一个信息论，一个基于信息论的测量系统，这和我们的LSTM类似，我们现在需要测量什么？两个句子之间的相似度或问题与答案之间的相似度。

我需要找到这些事物的语义距离。

这两个句子之间的语义距离是多少？现在的问题是，什么是语义距离？什么是语义距离？无法计算的东西没有定义，也没有人知道它是什么。

我们提出一个新的理论，就是我们不知道什么是语义距离，所以我们用一些东西来代替它。

我可以证明这一点。

语义距离没有定义，也无法计算。

信息距离有距离，无法计算，但可以近似。

大约是多少？这是压缩。

但我可以证明以下事情，数学上严格的证明。

语义距离的任何描述或者近似，不管你有什么近似，只要是可计算的，我的信息距离一定比你的距离更好。

不需要任何其他东西。

语义距离不是没有定义的吗？算了，不定义了，就用信息距离吧。

信息距离无非就是压缩。

压缩后，您可以近似语义距离。

当然我不知道怎么压缩，但是是可以做到的，因为我们很多人已经开始尝试做这个了，通过压缩来衡量这个东西，两种语言的近似。

站长声明

标签：

上一篇：户外教育品牌“深圳儿童周末”完成百万级Pre-A轮融资

下一篇：新闻 -机械之家获数千万元A轮融资，钟鼎创投领投

谷歌放弃试用6年的超级宽带计划：谷歌光纤面临出售

今年10月，雷锋网报道称，谷歌光纤项目负责人克雷格巴拉特在博客中宣布辞职。作为特别顾问继续支持 Google Fiber 项目。昨晚（12月28日），又有外媒报道称，谷歌很可能出售其光纤业务。作为Alphabet（谷歌母公司）负责谷歌Fiber业务的子公司，Google Access今年以来陷入了

06-17
嘉能可计划上市前引入中投或在香港、伦敦上市

据香港媒体报道，早前有报道称瑞士商品交易所耀明嘉能可（嘉能可）计划在香港和伦敦上市。据外媒昨日报道，嘉能可近期引入中国投资公司和卡塔尔投资局主权投资基金进行洽谈，吸引1亿美元（约1亿港元）作为其伦敦上市的基本投资者。如果成功上市，将成为规模前十的公司之一。

06-18
场景实验室获得IDG资本数千万元A+轮融资，吴声对未来新物种做出10个预测

据投资界8月6日消息，情景实验室创始人吴声在《新物种爆炸吴声场景课堂》召开新闻发布会，宣布已完成1000万元A+ IDG资本投资的A轮融资。此前，其于今年12月完成由盛景网联领投的万元A轮融资。 5月　　，吴声推出“新物种实验计划”。该计划是由情景实验室、洛可可设计集团

06-18
三星首款5nm芯片即将亮相

IT 10月11日，三星宣布将发布全新旗舰处理器Exynos。 Exynos是三星首款基于5nm工艺的手机芯片。据悉，Galaxy A72有望搭载这款处理器。据悉，搭载三星Exynos的vivo X系列旗舰新机将于年内推出。据报道，三星Exynos将采用三星自家的5nm LPF工艺，该工艺比Exynos使用的8nm工

06-06
探讨人工智能机遇与挑战，摩尔线程CEO张建中出席之江圆桌会议

5月9日，“之江圆桌会议”由之江实验室发起，浙江省发展基金会和杭州人工智能产业联盟联合主办。 “人工智能之争——机遇与挑战”，聚焦我国人工智能核心竞争力与国际领先水平的差距，国内算力、大模型技术等能否实现赶超和突破等，并围绕人工智能发展的协同创新、浙江实验室

06-17
前百度高管副总裁-向海龙成立新基金：完成首期募资2亿元，专注To B天使投资

投资社区（微信ID：pedaily）1月10日消息，据36氪报道，前百度副总裁高层创办的龙中信谊基金目前已完成首期人民币基金募集，规模2亿元人民币，将重点进行To B方向的天使阶段投资。向海龙表示，该基金的资金来源并非自有资金，但并未透露LP的具体构成。据悉，除一期基金外，

06-18
中国最强VC来势汹汹：一战赚千亿

“最强VC城市”合肥又出手了。据投资界消息，1月27日，零跑汽车宣布完成43亿B轮融资。除国投创益、浙大九智、永华资本外，战略投资者还包括合肥政府投资平台。据悉，零跑汽车已与合肥市签署战略合作协议，未来双方将开展更多合作。绝无巧合。同样在昨天，有消息称，珠海

06-18
唐仁深拟设立总规模10亿元产业投资基金

据投资界消息，8月14日，唐仁深与财新产业基金、湖南资管签署合作框架协议，共同设立和管理产业投资基金。运营唐仁申产业投资基金。该基金采取合伙形式，总规模暂定10亿元，其中首期投资2亿元。据悉，唐人神产业投资基金将通过合作、投资参股、并购等方式，实现在生猪生态

06-18
宁波永源投资基金有限公司（暂定名）招聘公告

宁波永源投资基金有限公司（暂定名）招聘公告 1、公司简介宁波市政府投资基金经市政府常务会议批准市政府并通过市财政预算安排设立宁波市各类政府投资基金一级母基金，重点支持宁波产业转型升级发展、创新创业、重大项目招商、基础设施建设宁波甬源投资基金有限公司（暂名）

06-17
广州瑞派医疗完成近亿元A轮融资，斯道资本领投

12月21日报道，一次性内窥镜制造商广州瑞派医疗股份有限公司完成近亿元A轮融资。本轮融资由斯道资本领投，原股东元和元典跟投。融资资金将用于进一步巩固和拓展产品研发管线、加快自动化生产线的推进、扩大品牌的市场投入。瑞派医疗成立于2007年，是一家专注于提供一次性

06-17
新疆库车：首支政府产业投资母基金成功设立

投资界（ID：pedaily）4月24日消息，近日，库车市库车产业投资基金合伙企业（有限合伙）成功设立投资中信建投证券投资基金行业协会完成注册。这标志着库车市首支政府产业投资母基金、南疆首支县级政府产业投资母基金成功设立。基金总规模为10亿元人民币，基金认购期限为20年

06-18
威马汽车再出手，全资收购北京金开宏达汽车租赁公司

据投资界消息，威马汽车近日全资收购了北京金开宏达汽车租赁公司。北京金凯宏达汽车租赁有限公司于12月成立，注册资本1万元，法定代表人刘利群。公司经营范围包括汽车租赁（不含九座以上客车）、汽车零部件销售、家政劳务等。企查查数据显示，9月26日，北京金凯宏达汽车租

06-18