首页 > 科技未来 > 内容

科大讯飞胡郁:再过四五年,机器语音识别将达到人类水平

发布于:2024-06-18 编辑:匿名 来源:网络

媒体:这是科大讯飞轮值总裁胡郁在网易科技未来峰会上发表的题为《“人工智能”以语音和语言为入口的认知革命》的演讲。

雷锋网整理,有部分删改。

刚才(BGI董事长)汪建先生说,未来的世界将是生命科技的时代。

我非常同意这一点。

人类未来的命运掌握在我们自己手中,我们可以改造自己。

人类也想扮演上帝的角色。

人类之所以能够统治地球上的整个世界,是因为我们拥有智慧。

现在我们不仅自己拥有智能,我们还希望创造新的智能。

当今世界,各种智能层出不穷,“智能”这个词甚至一度被滥用。

智能应该朝什么方向发展,智能又应该给我们带来什么?今天我们想和大家讨论一下这个问题。

今年3月,发生了一场非常著名的AlphaGo对阵李世石的大战。

在此之前,很多人都做出了预测,包括我自己。

我当时的预测是,机器人一定能打败人类。

为什么?事实上,研究界有句广为人知的说法,那就是机器人如果能在智力上打败人类,一定是用它最擅长的方法,而不是用人类的思维方式。

我们讨论的时候,一直认为下围棋是一项非常崇高的运动。

不是每个人都能下围棋,但事实上机器根本不这么认为。

打完这场比赛后,凤凰卫视《一虎一席谈》受邀与古力九段、柯洁九段讨论AlphaGo与李世石的比赛。

柯洁九段在“一虎一桌讨论”中表现得比较谦虚(注:赛前他曾表示,“即使AlphaGo赢了李世石,但它也战胜不了我”),他表示这东西还是需要仔细准备的。

AlphaGo为什么能打败人类,是因为它用的不是人类擅长的方法,而是机器擅长的方法。

AlphaGo可以同时计算出每盘棋的几十种甚至上百种走法的可能性,而且AlphaGo可以记住三千万种棋法,而这是我们人类所不擅长的。

但人工智能能否在各方面超越人类呢?我觉得这不一定是真的,因为我们看到围棋是一个开放的游戏,信息完全透明。

就像过去的国际象棋一样,机器有很大的优势。

很多人会问,人工智能到底体现在什么?我们知道人类经历过农业革命、工业革命,现在又经历了信息革命,但很多人可能不知道的是,人类在统治地球的过程中其实经历了漫长的历史发展。

有本书《人类简史》,写到:人类在地球上已经有二三百万年了,但这些人类却遍布世界各地。

他们就是我们说的猿人,欧洲的原始人类,中国的原始人类。

穴居人、元谋人和拉宁人;然而,历史学家和遗传学家的研究发现,7万年前,智人走出非洲,消灭了所有其他猿人。

现在,无论是黑人、白人还是棕色人种,黄种人、黄种人都是智人的后裔。

在这个过程中,智人仿佛突然顿悟了。

人类的智力经过两三百万年的发展突然向前迈进了一大步。

是什么让他们走到了这一步?历史学家称他们为“认知革命”,因为他们发现这些人与其他猿类最大的区别在于他们的语言得到了极大的丰富。

先是对话,然后是写作,写作产生后,有几个好处:第一个好处是可以更好地描述周围的自然世界。

例如,河边有一只狮子。

他们知道狮子有多大,有没有疾病,处于什么状态。

更重要的是,通过语言和言语,我们可以描述团队之间的关系。

如果没有语言,目前的动物物种中,一支黑猩猩的队伍不能超过50只,而且不可能管理超过50只的黑猩猩。

;但由于智人有语言,他们可以组织数千人的团队。

第二个好处是,通过语言,我们可以描述我们共同想象的内容。

一些虚构的概念,比如“公司”、“梦想”等,都是由此衍生出来的。

所以我们可以看到,现在历史学家一个非常重要的观点是,人类的认知革命把人类的智力带到了一个新的水平。

机器擅长计算智能,但在感知智能方面,机器实际上远远落后于我们。

这也是科大讯飞目前正在践行的以语音和语言为入口的计算机认知革命。

我们科大讯飞超级大脑项目要做的就是让机器通过传感器和算法来感知世界,能够认识自然的人类世界,这是我们人工智能非常重要的突破点。

如何实现这个突破,我们其实有两种不同的方式。

其中之一与我们的脑科学密切相关。

我们可以分析大脑所有的神经元结构及其工作机制,甚至基于大脑的整个工作机制。

这是一个重建一个真正与大脑相同的机制的想法,但这个想法需要很长时间;另外一个想法就是用互联网思维,用我们的机器学习算法和大数据,不是完全模仿大脑,而是用机器计算的方法可以模拟我们的感知和认知。

我们研究了鸟类的飞行并建造了一架飞机,但我们没有建造一只鸟,因为我们知道鸟类飞行时的空气动力学。

当我们研究大脑时,我们实际上并不是在复制大脑,而是希望找到大脑中的智力动态,进一步优化我们整个学习算法。

科大讯飞胡郁:再过四五年,机器语音识别将达到人类水平

从另一个角度来说,如果我们用互联网思维来解决和提高我们的人工智能,我们要感谢三个方面的进步:第一,人工神经网络。

正如我刚才所说,这个人工神经网络只学习有关大脑的一些简单的事情。

该机制不像大脑那么复杂,但已经可以很好地工作;另外,得益于互联网和移动互联网,我们可以获得大量的大数据;更重要的是,我们有上千种直达用户的算法和产品,这些产品不断地将用户的使用习惯传输到后端,我们可以利用网络效应来不断优化。

正是有了这三位的支持,我们才取得了非常好的成绩。

真正的人工智能的框架应该是什么样的?再举个例子,人的大脑皮层在工作过程中分为两个层次:一个叫做知觉层次,也就是我们所说的视觉、听觉、触觉,另一个就是认知层次。

当我们看到猫、听到猫的叫声或触摸它的皮毛时,人脑中就会有一个概念。

这些概念构成了我们语言中的单词和词汇,这就是“猫”的概念。

它们融入了我们所说的语言和词汇中。

大脑的认知皮质层用于理解。

因此,科大讯飞超脑分为两个层次:感知智能就是识别我们听到的、看到的、触摸到的东西,同时将识别结果提升到我们认知智能的层面,形成概念空间。

表示和推理。

在过去的五年里,我们陆续将深度学习网络应用到我们刚才讲的感知认知的各个方面,包括视觉、听觉、自然语言、翻译等。

(工作人员播放了三个语音片段)这是一个语音片段。

你听到的第一个好像是“rest”,第二个好像是“lounge”,但是听完完整的片段你就知道了(按:类似于大脑自动“校正失真”),它变成了得知这句话的意思是“《西游记》大闹天宫”。

人脑是如何工作的?人脑可以记录短期、中期或长期记忆,并通过递归方法识别语音。

现在最新的递归神经网络可以模拟我们大脑中的感受。

这个过程很复杂,我不同意。

一介绍。

但仅靠递归是不够的,能够存储记忆也是不够的。

现在最新的方法是利用我们说话的图像来识别语音。

当言语进入我们的耳朵时,我们耳朵里的纤毛会根据其长度的不同而有所不同。

语音中不同的频率会产生共鸣。

如果我们分析共振频率,我们可以得到频谱图。

这张图包含很多信息。

麻省理工学院有科学家可以根据这些图告诉你这句话。

其中使用了什么样的文字。

如果我们的识别系统能够读取这些图像,那么整个性能的稳定性将会大大提高。

如果你是一个盲人,你的耳朵就会特别聪明,因为它借用了我们的一些神经系统和视神经中的细胞,这样它就可以借用它的一些能力。

我们应用了一种新的卷积神经网络(最初是为图像设计的)来处理我们的语音图像,我们得到了一些非常令人惊讶的结果:即使与最新的循环神经网络相比,使用卷积神经网络 - 即使用识别图像时,我们仍然可以实现 48% 的提升。

可以说,现在我们的讲话不仅可以听到,而且可以看到。

因为这个结果,我们会越来越多地看到,在我们的各种输入法中,在我们的语音搜索中,在我们的各种语音交互系统中,语音识别的错误率每年都在下降30%。

我相信再过四五年,我们最终的语音识别系统将具有与人类完全相同的感觉。

在感知方面,我们的语音识别技术不断进步,但在认知方面,它还有几个非常核心的任务需要完成。

科大讯飞超级智能是关于语言理解和深度、知识表达和推理、自主学习。

这些技术的实现必须有两个层面的东西:第一个是解决自然语言描述的问题。

在此基础上,我们需要解决语言的理解和深度,以及我们所说的知识表示和推理的各个方面。

刚才我们提到了大脑在大脑皮层中对概念的表征。

这是一幅画。

不同的单词之间有概念空间。

我举个例子,比如“大家好”,一个传统的表达方式。

每个单词代表一个空格。

我们将每个单词出现的地方视为“1”,未出现的地方视为“0”。

这是一种传统的文字表达方式。

词与词之间,有的距离相同,有的距离不同。

现在我们使用连续的空间来表示单词。

每个字符、每个单词都可以使用“单词卷积”的方法,使用一个连续的数,相当于一个空间中的坐标系,这样就可以计算出每两个单词之间的距离。

我们可以通过将所有单词分组来看到这个结果。

比如我们可以看到新浪、网易、腾讯,这些东西是连在一起的;我们可以看到吕布、张飞、关羽、诸葛亮,他们更近了。

如果通过医学方法测量,我们还会发现,大脑皮层中存储相关词的位置也非常接近。

利用这种方法,我们建立了表达词语空间概念的表达系统。

在这个表达体系下,我们可以进一步分析词级、句子级和章节级以及各个级别之间的联系。

并计算出距离。

说到这里,我们来看看一些实用的功能。

他们可以做哪些事情?首先我们看一下语言的理解和深度。

我们先看翻译。

在翻译方面,我们知道他们需要练习句子,因为不同的语言是不同的。

这时候就用到了人脑中一个非常重要的概念,注意力模型。

例如,当我们在观看一张图片时,图像中,海边有一座灯塔。

当我们看它的时候,我们的注意力集中在灯塔上,而不是其他方面。

这张图就更有趣了。

上图是一位男司机在开车时观察各种事物。

下图是一位女司机,她的思维比较狭隘。

如果我们看一段文字,这两天恰逢欧洲杯,我们的注意力实际上集中在文字中信息量更大的部分。

这种注意力模型实际上是通过能够关注我们最关注的文本部分来发挥作用的。

输入的数量会自动找到并与我们的最终结果相对应。

我们来看一个基于机器翻译的实际例子:众所周知,不同语言之间的机器翻译有很多谓语、主语和宾语。

他们的位置不同,就会颠倒,顺序也会不同。

发生了许多变化。

事实证明,用规则来描述这些变化是非常复杂的。

通过我们现在讲的神经网络,你可以看到下面。

输入“我是谁”,“谁”和“我”,他们的位置是有差异的,但是利用注意力神经网络,他们可以自动找到对应关系。

使用新的神经网络的翻译系统相比传统系统将会有很大的改进。

我们来看下一个具体的例子。

我们都知道,科大讯飞最近在教育方面做了很多工作。

我们希望用机器人来帮助我们的老师进行试卷批改。

例如,我们写了一篇论文。

这篇文章,我们希望机器人也给它打分,给它点评。

看这个例子。

右边的94分就是这篇文章的分数。

右边有评论。

从这篇文章中你可以看到它使用了排比和引用了一些句子。

我们怎样才能让机器也能理解这些东西呢?机器的注意力如何自动落在这些关键地方呢?其实很简单。

右边是一篇范文。

刚才我们说了,我们用连续的空间来表达。

使用我们的注意力模型,这些样本论文和论文之间的向量会自动找到它们相对连接的地方。

应该说,现在我们在这方面的成果,在中考、高考作文批改中,无论是语文还是英语,都取得了非常好的成绩,比普通教师更加准确。

当然,这是一个大规模的结果。

最后,我们来看一道阅读理解题。

我们读一段话,“小鸭子看到水中摇曳的新月影子,以为是鱼,就赶紧游了过去。

”现在的话题是,我读完这段话后,把“小鸭子”剪下来,让机器自动添加。

这个地方应该填什么就填什么。

使用我们当前的系统,我们将仔细规划章节和问题。

“小鸭子”也曾出现在其他地方。

它可以计算每个地方的受欢迎程度(关注度)。

后来我们发现“小鸭子”受到的关注最多,所以我们可以在这个地方填写“小鸭子”,并正确填写。

现在阅读理解能力可以达到6岁孩子的水平。

不要小看6岁的孩子。

6岁的孩子对于常识的理解已经达到了一定的水平。

6岁以后主要学习各种知识。

众所周知,2岁、3岁、4岁形成了个体最重要的学习能力。

这一点是最一致的。

我相信,当一个6岁的孩子达到学习常识的阶段后,我们给他灌输小学、初中、高中的知识,他最终能够进入大学。

科大讯飞胡郁:再过四五年,机器语音识别将达到人类水平

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 谷歌放弃试用6年的超级宽带计划:谷歌光纤面临出售

    谷歌放弃试用6年的超级宽带计划:谷歌光纤面临出售

    今年10月,雷锋网报道称,谷歌光纤项目负责人克雷格巴拉特在博客中宣布辞职。 作为特别顾问继续支持 Google Fiber 项目。 昨晚(12月28日),又有外媒报道称,谷歌很可能出售其光纤业务。 作为Alphabet(谷歌母公司)负责谷歌Fiber业务的子公司,Google Access今年以来陷入了

    06-17

  • 嘉能可计划上市前引入中投或在香港、伦敦上市

    嘉能可计划上市前引入中投或在香港、伦敦上市

    据香港媒体报道,早前有报道称瑞士商品交易所耀明嘉能可(嘉能可)计划在香港和伦敦上市。 据外媒昨日报道,嘉能可近期引入中国投资公司和卡塔尔投资局主权投资基金进行洽谈,吸引1亿美元(约1亿港元)作为其伦敦上市的基本投资者。 如果成功上市,将成为规模前十的公司之一。

    06-18

  • 场景实验室获得IDG资本数千万元A+轮融资,吴声对未来新物种做出10个预测

    场景实验室获得IDG资本数千万元A+轮融资,吴声对未来新物种做出10个预测

    据投资界8月6日消息,情景实验室创始人吴声在《新物种爆炸吴声场景课堂》召开新闻发布会,宣布已完成1000万元A+ IDG资本投资的A轮融资。 此前,其于今年12月完成由盛景网联领投的万元A轮融资。 5月  ,吴声推出“新物种实验计划”。 该计划是由情景实验室、洛可可设计集团

    06-18

  • 三星首款5nm芯片即将亮相

    三星首款5nm芯片即将亮相

    IT 10月11日,三星宣布将发布全新旗舰处理器Exynos。 Exynos是三星首款基于5nm工艺的手机芯片。 据悉,Galaxy A72有望搭载这款处理器。 据悉,搭载三星Exynos的vivo X系列旗舰新机将于年内推出。 据报道,三星Exynos将采用三星自家的5nm LPF工艺,该工艺比Exynos使用的8nm工

    06-06

  • 探讨人工智能机遇与挑战,摩尔线程CEO张建中出席之江圆桌会议

    探讨人工智能机遇与挑战,摩尔线程CEO张建中出席之江圆桌会议

    5月9日,“之江圆桌会议”由之江实验室发起,浙江省发展基金会和杭州人工智能产业联盟联合主办。 “人工智能之争——机遇与挑战”,聚焦我国人工智能核心竞争力与国际领先水平的差距,国内算力、大模型技术等能否实现赶超和突破等,并围绕人工智能发展的协同创新、浙江实验室

    06-17

  • 前百度高管副总裁-向海龙成立新基金:完成首期募资2亿元,专注To B天使投资

    前百度高管副总裁-向海龙成立新基金:完成首期募资2亿元,专注To B天使投资

    投资社区(微信ID:pedaily)1月10日消息,据36氪报道,前百度副总裁高层创办的龙中信谊基金目前已完成首期人民币基金募集,规模2亿元人民币,将重点进行To B方向的天使阶段投资。 向海龙表示,该基金的资金来源并非自有资金,但并未透露LP的具体构成。 据悉,除一期基金外,

    06-18

  • 中国最强VC来势汹汹:一战赚千亿

    中国最强VC来势汹汹:一战赚千亿

    “最强VC城市”合肥又出手了。 据投资界消息,1月27日,零跑汽车宣布完成43亿B轮融资。 除国投创益、浙大九智、永华资本外,战略投资者还包括合肥政府投资平台。 据悉,零跑汽车已与合肥市签署战略合作协议,未来双方将开展更多合作。 绝无巧合。 同样在昨天,有消息称,珠海

    06-18

  • 唐仁深拟设立总规模10亿元产业投资基金

    唐仁深拟设立总规模10亿元产业投资基金

    据投资界消息,8月14日,唐仁深与财新产业基金、湖南资管签署合作框架协议,共同设立和管理产业投资基金。 运营唐仁申产业投资基金。 该基金采取合伙形式,总规模暂定10亿元,其中首期投资2亿元。 据悉,唐人神产业投资基金将通过合作、投资参股、并购等方式,实现在生猪生态

    06-18

  • 宁波永源投资基金有限公司(暂定名)招聘公告

    宁波永源投资基金有限公司(暂定名)招聘公告

    宁波永源投资基金有限公司(暂定名)招聘公告 1、公司简介 宁波市政府投资基金经市政府常务会议批准市政府并通过市财政预算安排设立宁波市各类政府投资基金一级母基金,重点支持宁波产业转型升级发展、创新创业、重大项目招商、基础设施建设宁波甬源投资基金有限公司(暂名)

    06-17

  • 广州瑞派医疗完成近亿元A轮融资,斯道资本领投

    广州瑞派医疗完成近亿元A轮融资,斯道资本领投

    12月21日报道,一次性内窥镜制造商广州瑞派医疗股份有限公司完成近亿元A轮融资。 本轮融资由斯道资本领投,原股东元和元典跟投。 融资资金将用于进一步巩固和拓展产品研发管线、加快自动化生产线的推进、扩大品牌的市场投入。 瑞派医疗成立于2007年,是一家专注于提供一次性

    06-17

  • 新疆库车:首支政府产业投资母基金成功设立

    新疆库车:首支政府产业投资母基金成功设立

    投资界(ID:pedaily)4月24日消息,近日,库车市库车产业投资基金合伙企业(有限合伙)成功设立投资中信建投证券投资基金行业协会完成注册。 这标志着库车市首支政府产业投资母基金、南疆首支县级政府产业投资母基金成功设立。 基金总规模为10亿元人民币,基金认购期限为20年

    06-18

  • 威马汽车再出手,全资收购北京金开宏达汽车租赁公司

    威马汽车再出手,全资收购北京金开宏达汽车租赁公司

    据投资界消息,威马汽车近日全资收购了北京金开宏达汽车租赁公司。 北京金凯宏达汽车租赁有限公司于12月成立,注册资本1万元,法定代表人刘利群。 公司经营范围包括汽车租赁(不含九座以上客车)、汽车零部件销售、家政劳务等。 企查查数据显示,9月26日,北京金凯宏达汽车租

    06-18