首页 > 科技未来 > 内容

科大讯飞胡郁：再过四五年，机器语音识别将达到人类水平

发布于：2024-06-18 编辑：匿名来源：网络

媒体：这是科大讯飞轮值总裁胡郁在网易科技未来峰会上发表的题为《“人工智能”以语音和语言为入口的认知革命》的演讲。

雷锋网整理，有部分删改。

刚才（BGI董事长）汪建先生说，未来的世界将是生命科技的时代。

我非常同意这一点。

人类未来的命运掌握在我们自己手中，我们可以改造自己。

人类也想扮演上帝的角色。

人类之所以能够统治地球上的整个世界，是因为我们拥有智慧。

现在我们不仅自己拥有智能，我们还希望创造新的智能。

当今世界，各种智能层出不穷，“智能”这个词甚至一度被滥用。

智能应该朝什么方向发展，智能又应该给我们带来什么？今天我们想和大家讨论一下这个问题。

今年3月，发生了一场非常著名的AlphaGo对阵李世石的大战。

在此之前，很多人都做出了预测，包括我自己。

我当时的预测是，机器人一定能打败人类。

为什么？事实上，研究界有句广为人知的说法，那就是机器人如果能在智力上打败人类，一定是用它最擅长的方法，而不是用人类的思维方式。

我们讨论的时候，一直认为下围棋是一项非常崇高的运动。

不是每个人都能下围棋，但事实上机器根本不这么认为。

打完这场比赛后，凤凰卫视《一虎一席谈》受邀与古力九段、柯洁九段讨论AlphaGo与李世石的比赛。

柯洁九段在“一虎一桌讨论”中表现得比较谦虚（注：赛前他曾表示，“即使AlphaGo赢了李世石，但它也战胜不了我”），他表示这东西还是需要仔细准备的。

AlphaGo为什么能打败人类，是因为它用的不是人类擅长的方法，而是机器擅长的方法。

AlphaGo可以同时计算出每盘棋的几十种甚至上百种走法的可能性，而且AlphaGo可以记住三千万种棋法，而这是我们人类所不擅长的。

但人工智能能否在各方面超越人类呢？我觉得这不一定是真的，因为我们看到围棋是一个开放的游戏，信息完全透明。

就像过去的国际象棋一样，机器有很大的优势。

很多人会问，人工智能到底体现在什么？我们知道人类经历过农业革命、工业革命，现在又经历了信息革命，但很多人可能不知道的是，人类在统治地球的过程中其实经历了漫长的历史发展。

有本书《人类简史》，写到：人类在地球上已经有二三百万年了，但这些人类却遍布世界各地。

他们就是我们说的猿人，欧洲的原始人类，中国的原始人类。

穴居人、元谋人和拉宁人；然而，历史学家和遗传学家的研究发现，7万年前，智人走出非洲，消灭了所有其他猿人。

现在，无论是黑人、白人还是棕色人种，黄种人、黄种人都是智人的后裔。

在这个过程中，智人仿佛突然顿悟了。

人类的智力经过两三百万年的发展突然向前迈进了一大步。

是什么让他们走到了这一步？历史学家称他们为“认知革命”，因为他们发现这些人与其他猿类最大的区别在于他们的语言得到了极大的丰富。

先是对话，然后是写作，写作产生后，有几个好处：第一个好处是可以更好地描述周围的自然世界。

例如，河边有一只狮子。

他们知道狮子有多大，有没有疾病，处于什么状态。

更重要的是，通过语言和言语，我们可以描述团队之间的关系。

如果没有语言，目前的动物物种中，一支黑猩猩的队伍不能超过50只，而且不可能管理超过50只的黑猩猩。

;但由于智人有语言，他们可以组织数千人的团队。

第二个好处是，通过语言，我们可以描述我们共同想象的内容。

一些虚构的概念，比如“公司”、“梦想”等，都是由此衍生出来的。

所以我们可以看到，现在历史学家一个非常重要的观点是，人类的认知革命把人类的智力带到了一个新的水平。

机器擅长计算智能，但在感知智能方面，机器实际上远远落后于我们。

这也是科大讯飞目前正在践行的以语音和语言为入口的计算机认知革命。

我们科大讯飞超级大脑项目要做的就是让机器通过传感器和算法来感知世界，能够认识自然的人类世界，这是我们人工智能非常重要的突破点。

如何实现这个突破，我们其实有两种不同的方式。

其中之一与我们的脑科学密切相关。

我们可以分析大脑所有的神经元结构及其工作机制，甚至基于大脑的整个工作机制。

这是一个重建一个真正与大脑相同的机制的想法，但这个想法需要很长时间；另外一个想法就是用互联网思维，用我们的机器学习算法和大数据，不是完全模仿大脑，而是用机器计算的方法可以模拟我们的感知和认知。

我们研究了鸟类的飞行并建造了一架飞机，但我们没有建造一只鸟，因为我们知道鸟类飞行时的空气动力学。

当我们研究大脑时，我们实际上并不是在复制大脑，而是希望找到大脑中的智力动态，进一步优化我们整个学习算法。

科大讯飞胡郁：再过四五年，机器语音识别将达到人类水平

从另一个角度来说，如果我们用互联网思维来解决和提高我们的人工智能，我们要感谢三个方面的进步：第一，人工神经网络。

正如我刚才所说，这个人工神经网络只学习有关大脑的一些简单的事情。

该机制不像大脑那么复杂，但已经可以很好地工作；另外，得益于互联网和移动互联网，我们可以获得大量的大数据；更重要的是，我们有上千种直达用户的算法和产品，这些产品不断地将用户的使用习惯传输到后端，我们可以利用网络效应来不断优化。

正是有了这三位的支持，我们才取得了非常好的成绩。

真正的人工智能的框架应该是什么样的？再举个例子，人的大脑皮层在工作过程中分为两个层次：一个叫做知觉层次，也就是我们所说的视觉、听觉、触觉，另一个就是认知层次。

当我们看到猫、听到猫的叫声或触摸它的皮毛时，人脑中就会有一个概念。

这些概念构成了我们语言中的单词和词汇，这就是“猫”的概念。

它们融入了我们所说的语言和词汇中。

大脑的认知皮质层用于理解。

因此，科大讯飞超脑分为两个层次：感知智能就是识别我们听到的、看到的、触摸到的东西，同时将识别结果提升到我们认知智能的层面，形成概念空间。

表示和推理。

在过去的五年里，我们陆续将深度学习网络应用到我们刚才讲的感知认知的各个方面，包括视觉、听觉、自然语言、翻译等。

（工作人员播放了三个语音片段）这是一个语音片段。

你听到的第一个好像是“rest”，第二个好像是“lounge”，但是听完完整的片段你就知道了（按：类似于大脑自动“校正失真”），它变成了得知这句话的意思是“《西游记》大闹天宫”。

人脑是如何工作的？人脑可以记录短期、中期或长期记忆，并通过递归方法识别语音。

现在最新的递归神经网络可以模拟我们大脑中的感受。

这个过程很复杂，我不同意。

一介绍。

但仅靠递归是不够的，能够存储记忆也是不够的。

现在最新的方法是利用我们说话的图像来识别语音。

当言语进入我们的耳朵时，我们耳朵里的纤毛会根据其长度的不同而有所不同。

语音中不同的频率会产生共鸣。

如果我们分析共振频率，我们可以得到频谱图。

这张图包含很多信息。

麻省理工学院有科学家可以根据这些图告诉你这句话。

其中使用了什么样的文字。

如果我们的识别系统能够读取这些图像，那么整个性能的稳定性将会大大提高。

如果你是一个盲人，你的耳朵就会特别聪明，因为它借用了我们的一些神经系统和视神经中的细胞，这样它就可以借用它的一些能力。

我们应用了一种新的卷积神经网络（最初是为图像设计的）来处理我们的语音图像，我们得到了一些非常令人惊讶的结果：即使与最新的循环神经网络相比，使用卷积神经网络 - 即使用识别图像时，我们仍然可以实现 48% 的提升。

可以说，现在我们的讲话不仅可以听到，而且可以看到。

因为这个结果，我们会越来越多地看到，在我们的各种输入法中，在我们的语音搜索中，在我们的各种语音交互系统中，语音识别的错误率每年都在下降30%。

我相信再过四五年，我们最终的语音识别系统将具有与人类完全相同的感觉。

在感知方面，我们的语音识别技术不断进步，但在认知方面，它还有几个非常核心的任务需要完成。

科大讯飞超级智能是关于语言理解和深度、知识表达和推理、自主学习。

这些技术的实现必须有两个层面的东西：第一个是解决自然语言描述的问题。

在此基础上，我们需要解决语言的理解和深度，以及我们所说的知识表示和推理的各个方面。

刚才我们提到了大脑在大脑皮层中对概念的表征。

这是一幅画。

不同的单词之间有概念空间。

我举个例子，比如“大家好”，一个传统的表达方式。

每个单词代表一个空格。

我们将每个单词出现的地方视为“1”，未出现的地方视为“0”。

这是一种传统的文字表达方式。

词与词之间，有的距离相同，有的距离不同。

现在我们使用连续的空间来表示单词。

每个字符、每个单词都可以使用“单词卷积”的方法，使用一个连续的数，相当于一个空间中的坐标系，这样就可以计算出每两个单词之间的距离。

我们可以通过将所有单词分组来看到这个结果。

比如我们可以看到新浪、网易、腾讯，这些东西是连在一起的；我们可以看到吕布、张飞、关羽、诸葛亮，他们更近了。

如果通过医学方法测量，我们还会发现，大脑皮层中存储相关词的位置也非常接近。

利用这种方法，我们建立了表达词语空间概念的表达系统。

在这个表达体系下，我们可以进一步分析词级、句子级和章节级以及各个级别之间的联系。

并计算出距离。

说到这里，我们来看看一些实用的功能。

他们可以做哪些事情？首先我们看一下语言的理解和深度。

我们先看翻译。

在翻译方面，我们知道他们需要练习句子，因为不同的语言是不同的。

这时候就用到了人脑中一个非常重要的概念，注意力模型。

例如，当我们在观看一张图片时，图像中，海边有一座灯塔。

当我们看它的时候，我们的注意力集中在灯塔上，而不是其他方面。

这张图就更有趣了。

上图是一位男司机在开车时观察各种事物。

下图是一位女司机，她的思维比较狭隘。

如果我们看一段文字，这两天恰逢欧洲杯，我们的注意力实际上集中在文字中信息量更大的部分。

这种注意力模型实际上是通过能够关注我们最关注的文本部分来发挥作用的。

输入的数量会自动找到并与我们的最终结果相对应。

我们来看一个基于机器翻译的实际例子：众所周知，不同语言之间的机器翻译有很多谓语、主语和宾语。

他们的位置不同，就会颠倒，顺序也会不同。

发生了许多变化。

事实证明，用规则来描述这些变化是非常复杂的。

通过我们现在讲的神经网络，你可以看到下面。

输入“我是谁”，“谁”和“我”，他们的位置是有差异的，但是利用注意力神经网络，他们可以自动找到对应关系。

使用新的神经网络的翻译系统相比传统系统将会有很大的改进。

我们来看下一个具体的例子。

我们都知道，科大讯飞最近在教育方面做了很多工作。

我们希望用机器人来帮助我们的老师进行试卷批改。

例如，我们写了一篇论文。

这篇文章，我们希望机器人也给它打分，给它点评。

看这个例子。

右边的94分就是这篇文章的分数。

右边有评论。

从这篇文章中你可以看到它使用了排比和引用了一些句子。

我们怎样才能让机器也能理解这些东西呢？机器的注意力如何自动落在这些关键地方呢？其实很简单。

右边是一篇范文。

刚才我们说了，我们用连续的空间来表达。

使用我们的注意力模型，这些样本论文和论文之间的向量会自动找到它们相对连接的地方。

应该说，现在我们在这方面的成果，在中考、高考作文批改中，无论是语文还是英语，都取得了非常好的成绩，比普通教师更加准确。

当然，这是一个大规模的结果。

最后，我们来看一道阅读理解题。

我们读一段话，“小鸭子看到水中摇曳的新月影子，以为是鱼，就赶紧游了过去。

”现在的话题是，我读完这段话后，把“小鸭子”剪下来，让机器自动添加。

这个地方应该填什么就填什么。

使用我们当前的系统，我们将仔细规划章节和问题。

“小鸭子”也曾出现在其他地方。

它可以计算每个地方的受欢迎程度（关注度）。

后来我们发现“小鸭子”受到的关注最多，所以我们可以在这个地方填写“小鸭子”，并正确填写。

现在阅读理解能力可以达到6岁孩子的水平。

不要小看6岁的孩子。

6岁的孩子对于常识的理解已经达到了一定的水平。

6岁以后主要学习各种知识。

众所周知，2岁、3岁、4岁形成了个体最重要的学习能力。

这一点是最一致的。

我相信，当一个6岁的孩子达到学习常识的阶段后，我们给他灌输小学、初中、高中的知识，他最终能够进入大学。

站长声明

标签：

上一篇：4月新发基金规模不足500亿

下一篇：老虎证券获6500万美元投资，小米牵头认购

晨晖浪子消费升级投资基金募资完成，晨晖携手浪子投资“浪子医美”2.45亿元

据投资界1月16日消息，晨晖资本今日正式宣布完成募资“晨晖浪子消费升级投资基金”募资力度。　　据悉，该基金成立于今年12月，由晨晖资本与上市公司浪子股份共同设立。该基金聚焦消费升级行业，重点关注医美、母婴、美容个人护理、宠物经济等细分行业。开展成长期投资和

06-18
阿里出手，投资峰瑞资本

阿里出手，投资峰瑞资本。近期，峰瑞资本发生工商变更。财联社创投通-致中数据显示，锋锐资本旗下上海锋锐睿嘉投资中心（有限合伙）已新增合伙人，包括淄博华瀚鼎盛股权投资合伙企业（有限合伙）、上海兴嘉股权投资合伙企业（有限合伙）、阿里巴巴（中国）有限公司、蚂蚁

06-18
大型AI模型的语言不平等：英语训练最便宜，中文训练比英语贵2倍

近日，X（前Twitter）用户@Dylan Patel展示了牛津大学的一项研究：通过GPT-4和大多数研究发现，与其他常见语言相比，LLM（大型语言模型）的推理成本差异很大。其中，英语的输入和输出比其他语言便宜得多，简体中文的成本约为英语的2倍，西班牙语为1.5倍，缅甸掸语为15倍。

06-21
爱博生物完成3亿美元C+轮融资，由软银愿景、五源资本领投

投资社区（ID：pedaily）11月29日消息，苏州爱博生物科技有限公司（以下简称“爱博生物”））宣布完成3亿美元C+轮融资。本轮融资由软银愿景基金和原股东五源资本联合领投，Chimera Abu Dhabi、富海成长基金、金镒资本、新风天域、IMO Ventures、未来资产集团等跟投。这是软

06-17
欧若数据网络获800万美元Pre-A轮融资

投资界6月5日获悉，据36氪报道，图数据库开发商欧若数据网络科技有限公司（以下简称“欧若数据网络”）欧若数据网”）已完成百万美元Pre-A轮融资。本轮投资方为红点创投中国基金和经纬中国。本轮融资将主要用于最新产品2.0版本的开发以及全球市场拓展。图数据库是专门为处

06-18
借壳盛宴的PE推动者：纠结的退出选择高灰色成本

IPO暂停造就了一场借壳上市盛宴。　　10月23日晚，停牌一个半月以上的梅花伞发布公告称，公司拟出售全部资产及负债，收购上海游族信息技术有限公司（以下简称“游族”）。简称“上海游族”）以发行股份的方式。％公平。　　这只是近期A股借壳热潮的一部分。各类上市公司

06-18
亿航上市新消息，最高融资4640万美元，股票代码“EH”

雷锋网消息，12月5日，中国无人机制造商亿航更新了此前向美国证券交易委员会（SEC）提交的文件F -1 招股说明书。该公司拟在美国纳斯达克上市，股票代码“EH”。招股书显示，亿航此次IPO的承销商包括摩根士丹利、瑞士信贷、Needham & Co和老虎证券；除了上述信息之外，这份更

06-18
聚美优品上市前的陈欧：从“村”里走出来的电商新贵

2019年4月11日，聚美优品向美国SEC提交招股书，拟赴美上市并拟融资通过首次公开募股。高达4亿美元的资金。招股书中披露的一些数字显示了聚美优品近年来的发展速度和规模：聚美优品2018年净营收为2.33亿美元，2018年升至4.83亿美元。然而，很多人不知道，这家公司很可能成为

06-18
上半年集成电路产品对东盟出口增长29.1%

作为全球电子制造产业链的一部分，我国与越南、马来西亚、新加坡等东盟国家产业联系密切，集成电路等相关产品进出口规模持续上升。今年上半年，我国从东盟进口集成电路1亿元，增长23.8%，占自东盟进口总额的24.2%，向东盟出口集成电路8亿元，增长29.1%，占对东盟出口总额的2

06-08
可持续发展即服务解决方案提供商“Ecolytiq”获得1350万欧元融资

6月1日消息：据TheSaaSnews报道，可持续发展即服务解决方案提供商Ecolytiq近日获得Segenea Capital的1万欧元融资。、VCM Global Asset Management 和 btov 管理的基金。据了解，本轮融资将用于进一步开发产品、拓展其运营市场。 Ecolytiq 总部位于德国柏林，由 David Lais

06-17
【投资日报】VC们纷纷退出，看看中国互联网的地下世界

【资本大事件】　　1。互联网进入阴霾期：VC们急于退出发财离开　　“天上到处都是飞东西要卖的项目”，一位大型投资机构的投资总监告诉腾讯科技。现在每天都会收到大量来自互联网创业公司甚至待上市项目的销售意向，他对市场上流传的各种并购传闻不再那么惊慌了，“FA（投

06-17
极目智能完成过亿元B轮融资，运联资本领投

据投资界2月22日消息，ADAS公司极目智能近日完成过亿元B轮融资。据了解，本轮融资由运联资本领投，现代汽车集团、辰涛资本、兆瑞资本、武汉光电产业研究院孵化基金和光谷人才基金跟投。本轮融资将主要用于公司未来的研发投入、市场运营等。此外，极目智能还宣布与韩国现代

06-17