中饮巴比登陆A股市场,一年卖出价值10亿的两块钱馒头
06-17
【图片来源:微软研究院博客 所有者:微软研究院博客】 雷锋网出版社:最后一次与电脑进行有意义的对话,以及你什么时候觉得它真正理解你了?如果微软技术研究员、微软语言和语音小组组长·黄学东·博士做到了,你也可以做到。
而如果他过去的研究真的达到了他所说的水平,这一天可能会比你想象的来得更快。
黄学东和教授在播客中谈论了他作为微软首席语音技术科学家的工作,为我们提供了有关语音技术最新里程碑的一些内部细节,并解释了掌握语音识别、翻译和通信将如何让机器从“感知”迈进到“语音识别”。
从“人工智能”到“认知人工智能”的转变更进一步,语音识别、翻译、沟通距离真正的人类智能有多近。
雷锋网全文编译如下。
主持人:黄学东,欢迎来到微软播客。
黄学东:谢谢。
主持人:您是微软语言和语音小组的技术研究员,您还领导了微软的口语工作,我们将对此进行深入探讨。
但首先,作为微软首席语音科学家,请告诉我们一些关于您所做的事情以及为什么这样做的信息。
是什么促使您每天起床?黄学东:嗯,我们现在所做的是确保我们拥有最好的语音和语言技术,可以应用于更广泛的领域。
我们之所以有一个团队来做这件事,是因为我认为这不仅是人类最自然的交流方式,也是我们现在面临的最困难的人工智能挑战。
这就是我们正在做的事情,试图通过云中的 Azure 服务真正突破极限,提供出色的服务,并确保我们让 Microsoft 客户和 Microsoft 以外的客户满意。
如果要概括整个事情,主要有三个方面。
首先,我们有能力驱动语音识别的准确性和合成工作的自然度。
当您将英语翻译成中文、法语和德语时,我们可以确保翻译质量准确。
所以,在决定这些准确性、自然性和潜在因素方面,幕后有很多科学家,他们是世界级的科学家。
这是第一个方面。
第二个方面是我们不仅提供技术,我们还在Azure上提供服务。
从 Office 到 Windows 和 Cortana,它们都依赖于相同的云服务。
不仅如此,我们还有边缘设备,比如我们的语音设备 SDK。
因此,我们希望确保边缘设备和云端的语音技术都以现代方式完成。
这是第二个方面:平台是现代化的。
第三个方面是对消费者的关爱,因为我们在全球有广泛的客户。
我们希望让消费者满意,并希望我们的消费者体验到他们使用的语音翻译是一流的。
这些是我实际上做的三件主要事情:提高人工智能的能力,使我们在云端和边缘设备上的平台现代化,以及热爱我们的客户。
主持人:是的。
有很多团队在这些小组中工作来解决我们称之为“支柱”的问题。
黄学东:是的,我们的团队遍布世界各地。
这些团队的多样性令人惊叹,因为我们正在努力克服语言障碍。
因此,我们在中国、德国、以色列、印度、美国都有团队。
我们在世界各地努力解决这些语言挑战。
主持人:我想引用你的话来为我们今天的谈话做准备。
您说,“语音语言技术是人工智能皇冠上的明珠。
”为我们解释一下。
黄学东:嗯,好的。
我们可以从人类进化的角度来思考它。
在某个时候,语言诞生了,它加速了人类的进化。
如果你想想这个星球上的所有动物,你知道,有很多动物跑得比人类快,视力比人类好…… 主持人:它们的牙齿也很锋利。
黄学东:尤其是在晚上。
主持人:他们非常强大。
黄学东:是的。
它们的听觉比人类更远,嗅觉比人类更灵敏,但只有人类才有语言。
我们可以很好地组织起来,我们可以用科幻小说的术语来描述它,我们可以组织自己,我们可以制定宪法。
如果你观察人类的这些方面,你就会知道,正是言语和语言将我们与其他动物区分开来。
对于人工智能来说,语音语言技术可以驱动人工智能的进化,就像驱动人类的进化一样。
这就是为什么它是人工智能皇冠上的明珠。
而且还是很难打破的。
主持人:是的。
关于这个话题有一个哲学讨论,但它提出了一些有趣的问题。
如果您在机器语言方面取得了巨大成功,那么这些机器会是什么?黄学东:让我们发挥一点想象力。
在某种程度上,我们说计算机可以理解三百种语言,并且能够流利地进行交流和对话。
我还没有见过能说三百种语言的人。
此外,机器不仅能够流利地交流和交谈,而且还能够理解、理解、学习、推理,并能够在所有学科中获得博士学位。
这种知识的获取和推理超出了任何人的个人能力。
当这一刻到来时,你可以想象人工智能将有多么聪明。
主持人:这是你想象的吗?黄学东:是的。
主持人:我们想要这样吗?黄学东:是的。
我认为这个世界可以变得更美好。
几周前我在日本,通过移动设备上的微软翻译,我能够与不会说中文或英语的日本人进行交流。
微软翻译可以说我不会说的语言,这有助于我在日本时提高工作效率。
主持人:我完全同意。
一想到这台机器我就有点害怕。
“我们不是第一个,我们不是最后一个,我们只是下一个……” 黄学东:但是,这种情报有两个层次。
第一个层次是感知智能,可以看、听、闻。
紧随其后的更高层次是认知智能。
我们今天取得的人工智能突破大多是在感知层面,比如语音识别、语音合成、计算机视觉等。
但在高级推理、知识获取等认知能力方面,人工智能与人类水平还相去甚远。
而最让我兴奋的是翻译器,它是一个介于感知智能和认知智能之间的物体。
我们能够在感知智能的基础上取得成功,并将其扩展到认知智能,这是一个相当漫长的过程。
我不知道我们什么时候才能达到那个里程碑。
但那一天即将到来,只是时间问题。
这可能还需要五十年的时间,但我认为它将会发生。
主持人:因为我们现在正在谈论一些里程碑,所以我们将在另一篇博客中详细讨论它们。
但现在,首先我想回顾一下,当 Rick Rashid 建立组织并建立第一个语音小组时,您已经在微软研究院工作了一段时间。
根据 MSR 的传说,该组织的目标是“让语音成为主流”。
请简单介绍一下 MSR 语音的历史。
这项研究是如何从早期的“不主流”、“敢于冒险、着眼未来”,发展到今天几乎出现在微软的每一款产品中的呢?黄学东:在加入微软之前,我是匹兹堡卡内基梅隆大学的一名教员。
当时,里克·拉希德是那里的教授,而我是一名初级教员。
我的演讲研究主要是在卡耐基梅隆大学进行的。
后来微软联系我,他们想成立一个语音研究小组。
于是大年初一,过完年,我就转学了。
我从匹兹堡飞往西雅图,开始了一段从未改变的旅程。
这就是微软语音研究的开始。
我们是开始为开发人员带来语音技术的研究团队。
主持人:是的。
黄学东:所以…… 主持人:所以它不再只是一个非常深刻、纯粹的理论研究。
黄学东:是的,这不是一个非常深刻、纯粹的理论研究。
我们从卡耐基梅隆大学获得了技术许可,这就是我们的起步。
我们感谢卡耐基梅隆大学在这一领域的开创性研究。
我们是一个研究团队,但我们在 Windows '95 上发布了第一个语音 API,SAPI。
作为一个研究团队,我们感到非常自豪的是,研究常常是在极其深奥和纯粹的理论研究上进行的。
我们不仅进行特别深奥的纯理论研究,不断挑战极限,不断提高认知准确性,我们还与Windows合作,将这些技术带给Windows开发者。
SAPI是业界第一个基于Windows的语音API。
主持人:哇!黄学东:这是一个非常漫长的过程。
紧接着,我和我的团队终于离开了研究部门,加入了产品团队。
我带着我的团队去了产品组,陪同我的是一支优秀的微软语音研究团队。
这是我在微软27年的美好经历。
2006年,我们发布语音服务器后,我停止了语音研究,开始做很多事情,包括开始研究孵化。
当 Satya Nadella 掌管 Bing 时,我是一名建筑师。
然后,在Harry管理研究和技术组的同时,我帮助孵化了一系列人工智能项目,例如GPU集群、Project Philly、深度学习工具包CNTK等基础项目。
大约三年前,我有幸回来管理一个将言语和语言结合起来的小组。
基本上我们能够整合所有的语音和翻译资源。
这是我的故事,我的经历,27 年的精彩岁月。
主持人:现在语音和语言研究在哪里进行?黄学东:就像我说的,我们在研究组和产品组之间来回移动了很多。
现在,我们在云和人工智能组,这是一个产品组。
我们是这些云服务的一部分,我们提供全公司和全行业的语音翻译服务。
我们还进行语音和对话研究,他们像一个研究小组一样运作。
黄学东:他们都是该小组的研究人员。
正如瑞克所说,科研成果的转化是一件需要各部门通力合作的事情。
在微软,其实不仅仅是各个部门的紧密合作,我们是一个整体。
主持人:从研究模式来看还是有前瞻性的……黄学东:既有前瞻性,又有根据。
我们必须脚踏实地地提供服务,从基础设施到服务成本,我们必须站在高处放眼未来,定义人们需要和想要什么解决方案,即使解决方案现在可能不存在,或者他们可能不存在。
还不知道它是什么。
主持人:我们具体谈谈你刚才提到的研究里程碑。
这应该是有趣的。
您刚刚触及了三个领域:会话式语音识别、机器翻译和会话式问答。
让我们从会话语音识别开始。
在 中,您领导的团队在转录对话语音方面取得了破纪录的类人性能。
告诉我们一些关于它的信息,它是由什么组成的,它是如何产生的?黄学东:在使用大量开关转录对话的任务中,我们达到了与人类相当的水平。
这项任务可能已经在研究和工业中使用了十多年。
在 中,我们重新定义了这一里程碑,达到了与人类相当的水平。
当谈到转录任务时,我们不仅仅是在与一个人竞争,我们是在与一群人竞争。
我想说,今年是一个历史性的时刻。
将 Microsoft Speech Stack 与转录同一任务的不同组的人进行比较,它的表现优于四个组的总和。
当我用它挑战我们的研究小组时,没有人认为它会赢。
但令人惊讶的是,不到两年的时间,当我们有信心、有资源、有专注的时候,奇迹真的发生了。
对于团队、科学和技术堆栈来说,这都是一个美妙的时刻。
这是我个人职业生涯中的第一个里程碑,我能够达到与人类相当的水平。
主持人:我想在这个领域做一些研究。
你刚才说的很有趣:两年的时间,没有人相信能做到这一点,但你终于成功了。
请与我们分享更多有关如何实现人类水平的语音转录技术方面的信息。
黄学东:所以,如果你回顾一下语音研究的历史,你可以发现,很多被后人反复使用的突破性成果都是我们语音研究组首创的。
以翻译为例。
在20世纪70年代初,即使在语音研究领域,语音识别也大多使用传统的人工智能,例如基于规则的方法、专家系统等。
IBM Watson在其研究中开创了统计语音识别方法,使用隐马尔可夫模型和统计语言模型来实现语音识别,极大地推动了这一领域的发展。
因此,这也成为语音领域的一个亮点时刻。
后来,IBM同一语言研究组的研究人员将这种用于语音识别的思想应用到翻译中,真正提高了翻译质量,再次改写了翻译的历史!在隐马尔可夫模型之后,语音识别领域开始使用深度学习方法,即神经语音识别。
于是,翻译再次借鉴了神经语音识别的思想,开始使用神经机器翻译方法,整个翻译领域再次取得进展。
因此,您可以看到其他领域的镜像,利用语音领域研究人员开创的技术。
事实上,语音领域的研究人员一直在引领技术的突破性进步。
例如,著名的DARPA创建的系统基础测试就采用了非常严格的评估标准,真正改变了科学和工程的评估方式。
主持人:是的。
黄学东:事实上,语音语言技术除了可以广泛应用的语音之外,还可以给其他领域带来很多经验。
因此,我们一直在培训研究团队来解决棘手问题,因此我们的研究团队实现这些历史性里程碑也就不足为奇了。
主持人:好的,我们来谈谈另一个里程碑:WMT——中英文新闻自动翻译任务达到人类水平。
对此,我也在访谈节目中与阿鲁尔·梅内塞斯聊了有关这一成就的一切。

但我仍然想知道您的想法以及您认为机器翻译现在是否可以与传统的人工翻译相媲美?为什么这是打破人与文化之间障碍的重要突破?黄学东:我的研究团队取得的第二个人类水平的突破同样令人兴奋。
正如我所说,Switchboard 会话语音转录是一个伟大的里程碑。
但它确实还处于很低的水平,处于感知人工智能的水平。
翻译是介于感知人工智能和认知人工智能之间的任务。
当然,翻译是一项艰巨得多的任务,没有人相信我们能取得这样的成果。
所以我们设定了一个目标:五年内,看看我们是否能让机器在基本的句子级翻译任务上达到人类水平的表现。
所以我真的很想在这里和大家分享这个故事。
当像你我这样的人进行翻译时,我们会查看句子的整个段落,因此我们有更广泛的上下文,并且我们可以更好地翻译。
与广义的翻译相比,WMT 由于仅针对句子级别的新闻翻译,因此在人类层面上存在一些局限性。
主持人:嗯。
黄学东:所以,我们正在做的实际上是一项广泛开放的研究——公共基准测试。
即便如此,我们认为可能需要五年时间。
所以,我们采用了同样的原则:根据总机语音识别转录的结果进行研究。
但实际上这一次,我们超越了这个范围。
由于任务是将中文翻译成英文,所以我们与微软在北京的研究团队合作。
于是,跨越太平洋的多个微软亚洲研究院团队进行了几天几夜的协同研究。
令人惊讶的是,这组研究人员让所有人都大吃一惊:我们在不到一年的时间里就实现了这个目标,让机器翻译达到了人类的水平,这也是机器翻译的历史。
根据我们科学家的评估,迄今为止最好的翻译水平在相同任务上优于专业翻译人员。
这一刻,我们真的创造了奇迹。
我为这个研究团队和这次合作感到非常自豪。
主持人:我很想谈谈你的另一个非常有趣的研究成果,就是你的问答数据挑战赛,叫做COQA。
显然,我们正在谈论可以与我们进行问答对话的计算机。
请跟我们分享一下,这个语音识别技术中最像人或者说最困难的任务,接下来要开展的工作是什么?黄学东:COQA问答数据挑战赛是由斯坦福大学研究人员发起的一项竞赛。
它更接近于认知人工智能。
它实际上是一个机器阅读任务,涵盖对话、对话和相关任务。
假设您正在阅读一篇文章,然后要求读者正确回答一系列相关问题。
例如,如果你读到一篇关于比尔·盖茨的文章,第一个问题可能是:“微软的创始人是谁?”第二个问题将与第一个问题相关:“这个人创立了微软。
他退休时多大?”接下来的问题可能是:“这个人退休时多大年纪?”因此,上下文相关性比简单的机器阅读更难,因为它要求您回答与给定上下文相关的一系列问题。
因此,我必须重点向北京研究实验室的同事们表达对这一最新突破的赞赏。
与此同时,我们一直在利用共享资源和基础设施来共同开展这项开创性的研究,这真的很棒。
与此同时,我们完成这项令人惊叹的对话测验挑战的敏捷性和速度给我留下了深刻的印象。
目前主要研究人员已在北京,他们也将为帮助微软在这项备受关注的人工智能任务上再次首次达到人类水平发挥重要的支撑作用。
没有人会相信有人可以在如此短的时间内在这项传统的问答任务上达到人类水平的表现。
所以,虽然我们最初预计这需要两年的时间,但最终,我们再次打破了历史记录。
主持人:我们讨论了一些技术话题,关于你正在做的研究工作以及如何做。
您可以使用任何其他方法或技术来完成此问答任务吗?黄学东:微软在人工智能领域积累了三十年的研究经验,不是吗?微软在北京的自然语言研究小组在过去的二十年里一直在研究问答任务。
他们在积累了很多先天优势的同时,也积累了很多经验。
同时,我们基本都是利用深度学习和迁移学习来完成问答任务。
因此,我们的成功是基于整个研究领域的成果。
主持人:是的。
黄学东:比如Google发布了一个特别伟大的技术——BERT…… 主持人:BERT是缩写吗?黄学东:这是一个缩写词,是一种嵌入式技术。
我们的研究成果基于这项技术并得到了扩展,因此它也为我们的成功做出了贡献。
这就是我们如何实现人类水平机器翻译的突破。
主持人:是的。
黄学东:这实际上是整个研究领域的反映。
我刚才讲的微软亚洲研究院团队和美国团队的合作,实际上是整个行业合作的一个例子。
(音乐响起) 主持人:您在节目中向我们描述的非常令人兴奋:一切都朝着正确的方向发展之后,一旦成功了,我们就必须解决可能走向错误方向的问题。
事情。
黄学东:是的。
主持人:你希望计算机能够听、听、说、翻译、回答问题,最重要的是,能够与人类交流。
有什么事情让你焦虑吗?黄学东:当然。
其实我担心的是,未来有一天,人类会过度依赖AI。
然而,人工智能永远不会完美,并且会有其独特的偏见。
所以我非常担心这种人类无法察觉的影响。
主持人:同意。
黄学东:那么如何应对这一担忧,实际上是我们需要认识并迫切需要解决的一个广泛的社会问题。
因为,就像我们所有人一样,一旦我们有了一个可以依赖的助手,我们就会确切地了解该助手可以对我们产生多大的影响:改变你的议程,甚至改变你的观点。
有一天,人工智能将扮演助理的角色。
我现在最担心的是如何解决人工智能的偏见问题。
主持人:是的。
黄学东:如果一切顺利的话,这个问题将真正成为我们必须处理的重要问题。
我们需要学习解决这个问题。
现在我们不知道如何解决它,因为我们还没有达到那个阶段。
主持人:所以当你创造这些能说、能听、能说的工具时,你就把设计思维带进去了,因为最重要的事情之一就是人类将人类的品质转移到非人类的事物当中。
黄学东:我只能相信现在研究人工智能的研究者有足够的责任感。
好消息是,我们还没有达到那个目标,不是吗?所以,我们还有时间共同应对这一挑战,并相信人工智能将真正朝着服务人类而不是毁灭人类的方向发展。
这是目前最大的担忧……主持人:是的。
黄学东:……这也是让我现在保持清醒的问题。
但我短期的担忧其实是:AI还不够好!至少现在还不够好!主持人:明白了。
黄学东:正如比尔·盖茨常说的那样,人们总是高估我们短期内能做的事情,而低估这些事情的长期影响。
在这种情况下,我们不能低估其长期影响。
主持人:是的。
黄学东:一个长期的里程碑。
主持人:明白了。
接下来是故事时间。
黄学东:嗯,还不错!主持人:你能分享一下你的个人故事吗?是什么让您对语音和语言技术领域的研究特别感兴趣?您能分享一下您加入微软的历程吗?黄学东:好的。
我毕业于北京清华大学,当时我的第一台电脑是Apple 2。
你可能也知道中文很难输入电脑,所以输入过程非常繁琐。
因此,我坚信语音识别是非常有必要的。
当时,作为清华大学的一名研究生,我的梦想其实就是从事人工智能领域的研究。
同时,当时清华研究生院的AI……主持人:是的。
黄学东:……一大批教授和科教人员的令人难以置信的聚集,他们都具有长远的见解,并为探索和实验创造了开创性的环境。
所以我在这里继续完成了博士学位。
自2016年考入清华大学以来,我加入了博士项目,一直从事语音识别研究。
让人类更容易地与机器进行真正的交流的梦想在我的世界里从未消失过。
到目前为止,我在语音识别方面的研究生涯已经跨越了30多年。
尽管我在微软工作期间短暂暂停了语音研究工作,但我从事的研究工作仍然与语音相关。
所以,我从心底里觉得,这是我和语音研究之间一个非常精彩的故事。
我个人在这个过程中获得了很多有趣的经历。
刚才提到,我在清华大学读书的时候,在电脑上打字还是很困难的,所以从清华博士毕业后,我去了苏格兰爱丁堡大学继续深造……主持人: 知道了。
黄学东:……并在那里获得了博士学位。
当我刚进入爱丁堡大学时,让我非常痛苦的其实是我知道了英式英语的存在,因为中国的英语大部分都是美式英语。
然而,由于英式英语不是我的母语,所以这对我来说不是很“受欢迎”。
我听来自苏格兰的教授... 主持人:哦,天哪!黄学东:……确实非常具有挑战性。
但非常感谢 BBC 关闭了字幕。
主持人:有趣。
黄学东:所以我真的是通过看BBC学会了苏格兰英语。
而且我必须提到的是,微软PPT现在可以使用自动显示字幕的技术。
那次个人的痛苦经历对于微软PPT团队在开发这个产品时所考虑的功能来说是非常引人注目的,对我个人来说也是一个很大的奖励。
主持人:是的。
黄学东:我很高兴看到我开发的技术成果能够帮助更多前往苏格兰大学学习的人。
主持人:如你所知,阿鲁尔之前也谈到过PPT……黄学东:是的。
主持人:……服务,他还提到了那些有听力障碍的人。
黄学东:是的。
主持人:现在你给它一个全新的(含义)......黄学东:它更广泛......主持人:当然!黄学东:……因为语言障碍总是存在,并不是每个人都能流利地使用该语言。
我招待过很多游客。
基本上每年我都会招待清华大学的MBA学生。
他们也在学习英语,但是他们听英语、用英语交流的能力基本上是不能和这里的当地人相比的。
所以,在PPT软件中提供字幕可以帮助他们所有人…… 主持人:是的。
黄学东:……更好地学习和理解英语。
因此,即使没有翻译,这个功能的应用场景也非常广泛。
这是一个简单的事实:当我们有字幕时,我们可以加强沟通。
主持人:确实如此。
我们之前讨论过不同的语言和方言,但并没有真正探讨过语言中的口音。
我的意思是,即使在美国,即使你是一个美国人,你在了解美国的各个地方可能会遇到很多困难。
这是因为不同地方的口音有很大不同。
黄学东:这就是为什么我的苏格兰英语能成为一个好故事!同时我希望我能保留一些苏格兰口音。
主持人:我听得出你的苏格兰口音!在每一篇博客的最后,我都会向受邀嘉宾发表最后的话。
由于您从事人类语音技术领域的工作,这句话非常适合您。
现在,您有机会向可能正在致力于让计算机与人类对话和交流的观众畅所欲言。
他们应该从哪里开始研究?黄学东:学习演讲和语言!它确实是人工智能皇冠上的宝石。
在我看来,人工智能领域没有比语音和语言研究更具挑战性的任务了。
当您想从感知人工智能转向认知人工智能时尤其如此。
让机器获得推理和理解能力,通过阅读和交流来获取知识,是改善人类生活、提高人类生产力、让世界不再有语言、交流、理解障碍的最基本的研究领域。
主持人:感谢您受邀参加我们今天的博客节目。
您与我们分享的东西真的很棒。
黄学东:我的荣幸。
雷锋网注:本文编译自微软研究院博客版权文章。
未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-21
06-17
06-17
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态