首页 > 科技未来 > 内容

科大讯飞认知智能，从场景到行业

发布于：2024-06-18 编辑：匿名来源：网络

自然语言处理（NLP）一直是人工智能渴望攻克的难题。

直到2000年，上世纪末互联网时代积累的大量电子文本数据，以及深度学习的加持，终于让机器翻译乃至自然语言处理走上了快车道。

深度学习遵循统计方法的概率传统。

不同的是，它基本上不需要特征工程，而特征工程需要大量的专业知识。

但盛志超发现，即使是十多年后的现在，在实现基于深度学习技术的NLP应用时，也必须放弃对技术的痴迷，回归行业专家知识。

这是他在科大讯飞学习NLP技术八年来最宝贵的经历。

2006年从复旦大学毕业后，盛志超在一家初创公司从事NLP研究。

经过两年多的实践经验，他希望找到一个更大的平台，用技术创造真正的社会价值。

当时，科大讯飞也凭借新发布的科大讯飞输入法和语音云在人工智能语音领域名声大噪。

由于语音合成技术中前端文本韵律预测和文本关联的机会，NLP 已经被涉足和探索，并在语音交互和机器翻译中得到了实践。

渴望用科技创造真正社会价值的人们选择了一家希望“用人工智能建设更美好世界”的公司。

一切都是那么合乎逻辑。

1、黎明前夕，转型成为唯一出路。

NLP 的历史几乎与计算机和人工智能（AI）的历史一样长。

而由于它具有利用自然语言实现人与计算机之间有效沟通的天然桥梁属性，因此也带来了一个非常有趣的现象，那就是当我们开始探索感知智能时，它总是会与认知智能一起涉及到。

这一现象在科大讯飞也得到了证明。

在语音合成技术中，前端文本韵律预测与文本密切相关。

因此，科大讯飞在成立初期开始语音探索时就涉足了NLP领域。

科大讯飞认知智能，从场景到行业

然而，在早期，它仅限于文本预测、语音识别的语言模型和文本检索。

2019年，科大讯飞成立人工智能研究院，正式以自然语言处理和语音合成、评估与识别为核心研究方向。

自此，科大讯飞在NLP落地方面的尝试开始一路坎坷。

2010年，语音评测技术基本成熟，普通话测试系统通过国家语委鉴定；语音合成技术也在2018年首次超越普通人的口语水平，并连续多年获得国际英语语音合成大赛冠军。

但在知识图谱、语义检索、文本消息分类、文本客服等多个方向，由于技术不成熟、迁移成本较高，基于文本的技术落地大多以失败告终。

“当时大家其实都是以技术为基础，思考匹配它未来可能的使用场景，慢慢发现这条路特别难走。

” 这次艰难探索经历的教训也在后来的实践中得到了印证。

也许是时候扭转这种思维模式了。

既然“用胡萝卜找陷阱”行不通，不如反其道而行之。

基于实际业务场景和需求的思考开始扭转目前的坎坷局面 2016年，基于编码器-解码器结构的神经机器翻译模型诞生，机器翻译正式进入深度学习中。

刚刚加入公司的盛志超在科技大学迎来了NLP技术发展的重要转折点。

今年年初，盛志超的NLP认知组组建了“7人团队”，拉开了科大讯飞深度学习在NLP领域的应用序幕：他们首先搜索了市场上所有相关论文，并将其分成几篇不同的“论文”。

阅读”小组分别学习不同的方向。

然后他们互相解释代码，并尝试重现论文中的模型、算法等。

就这样，“7人团队”成功地将深度学习应用于NLP技术，并迅速在全公司推广。

“探索领先于许多大学和同行。

”回忆起这段经历，盛志超表示，团队的相互信任、凝聚力和共同决心是他们成功不可或缺的因素。

时至今日，最初的七人团队成员仍然长期在团队中努力工作。

成为科大讯飞不同业务方向的核心骨干，通过应用深度学习和场景化倒逼技术，科大讯飞的NLP终于看到了曙光。

2、从场景到行业的塑造，很多优秀的演员往往都会去。

角色的真实工作或生活场景在前期“体验生活”，在表演时力求达到一种无私的状态，这种塑造方式简单而有价值，但与盛志超时的路径是一样的。

2018年9月，刚入职10天的盛志超就被派往科大讯飞北京研究院，参与中文作文审核的技术开发和实施。

作文复习分为评分和批改两个方向。

评分是给文档打分，而批改则需要根据文章中的语法是否正确、句子表达是否先进、内容是否符合主旨要求等进行综合评价。

前一种技术比较简单，而后者则涉及认知问题。

情况更复杂。

众所周知，从小学到大学的不同学习阶段，高级表达和词汇的定义标准差异很大，因此需要根据每个学习阶段的具体情况做出具体的“定义”。

正如盛志超所言，“点评技术不仅需要打分，还需要给出合理的反馈，必须基于场景知识进行模块化，层层拆解，才能给出相对科学的评分以及用户想要学习的反馈。

”结果，“当科大讯飞刚推出时，论文评审技术就失败了，”盛志超说。

这是一次他永远不会忘记的经历。

当时学校要求考试要覆盖个人，任何一个人的评价都不能出错。

但深度学习和传统机器学习都是统计模型，考虑的是整体概率，不会考虑学生个体的特征。

健康）状况。

于是，出现了一个情况。

每张英语作文试卷在开头都会有引言，要求学生继续写作。

然而，机器将介绍视为需要评估的答案内容。

其中一篇作文即使是一张白纸也能得到分数。

试卷评分是一件非常严肃的事情，老师和盛志超本人都觉得这种错误影响到的考试客观公平性是无法挽回的。

后来回想起来，这次失败的根本原因仍然是我们关注的指标和用户在实际场景中关注的指标不一致。

此后，盛志超及其团队开始长时间频繁“体验学习生活”，与教师、学生、家长等每一个与学习相关的关键角色进行沟通，试图全面、真实地了解和界定需求的每一个细节。

在教育领域。

问题。

“如果你想在教育领域真正实现你的知识，你必须首先忘记你原来的身份，成为一名学生、家长或老师。

”盛志超说的这个想法，与张三丰传授张无忌太极拳时的精髓如出一辙：“太极只重其意，不重其招式，动作全忘了，就成了太极了。

” ” 2016年，盛志超和他的团队终于将论文评审技术成功应用于高考和中考。

这也是教育评价技术首次应用于国内大规模形式考试。

如果说这只是解决了教育某个特定“场景”的问题，那么后续的“因材施教、个性化学习”则证明了科大讯飞在教育领域更深层次钻研的决心。

年初，盛志超重返教育界，开始攻克难度更大的因材施教的个性化学习方向。

盛志超承认自己曾经是一名学生，在学校度过了20多年。

即使作为学习带头人，他仍然无法总结自己的所谓经验，为其他学生提供参考。

这背后的原因或许不能用简单的“毕竟适合每个人的学习方法不同”来概括。

或许，它指向了一个源于几千年前的美好理想：“因材施教，无差别教学”。

我们几千年来一直在追逐它，现在盛志超和他的团队正在一步步接近它。

结合学习者知识水平的个性化方案，为学习者提供定制化的动态教学策略，开启了“减负增效”的使命。

以主题推荐为例。

“题海战术”受到师生们的一致好评。

这样，你就能找到“有效回答问题”的解决方案。

这背后涉及认知诊断、深度学习、知识图谱等一系列技术集合。

参考著名心理学家维果茨基提出的“最近发展区理论”，个性化提问激发学生“潜力”的逻辑很容易理解：为当前水平的学生推荐的学习问题类型是既不会太难，造成畏难情绪，也不会太容易，浪费太多时间。

用盛志超的话说，这是一种“一箭之遥”的学习资源。

然而，要准确定位每个学生一跳就能获得的学习资源并不容易。

这需要通过知识图来建模学生的认知风格。

科大讯飞长期积累知识图谱技术。

从2001年开始投入研发，并于2016年在NIST TAC（KBP）国际知识图谱构建大赛中获得第一名。

如今科大讯飞已经有7年的知识图谱技术积累。

这张图是一个学生的认知建模案例，其中红色代表掌握较差的知识点，黄色代表一般知识点，绿色代表较好的知识点。

学生以绿色知识点为基础，先学习黄色知识点，再学习红色知识点，构成了每个学生独特的学习路径。

这种循序渐进的方式不仅提高了学习效率，也真正做到了因材施教。

深入场景、深入行业的方法论在教育领域得到了最好的验证。

可以预见，人工智能对生产生活的改变将不断涌现。

即便是那些尚未找到问题解决方案的重大历史命题，也可能在人工智能领域找到新的解决方案。

解开。

3.重大历史命题的新解答。

然而，由于教育、医疗、司法等直接关系民生的重大历史命题本身就是复杂问题的集合，即使人工智能能够提供解决方案，也不再依赖于单一技术，必须由单一技术来解决。

复杂系统的综合力量。

“以教育AI学习机为例，它涉及到语音交互与评价、图像文本识别、认知理解、知识图谱、多维学术画像等一系列相关技术。

”盛志超是对的。

除了上面我们提到的个性化学习环节中的认知诊断和知识图谱之外，普通学习环节的完成远比想象的复杂：学生通过AI学习机拍照并上传完成的作业、图文识别技术可以对照片进行表面校正、图片降噪等处理，识别充满印刷品、手写甚至公式的作业；此后，NLP等技术开始自动识别问题和文本中提到的信息。

推断答案并进行更正；对于错误题型，基于知识图谱的技术可以根据其涵盖的知识点，推荐与最近发展区相关的练习题型。

创新链中的关键技术深度融合、串联，形成系统的学习环节。

回顾过去，我们会发现关键技术的深度融合还需要至关重要的底层基础设施——核心技术的单点突破和应用跨越。

我们或许可以从多语言交互的实践中印证这个结论。

目前，语音已经成为万物互联时代人机交互的关键入口。

语音输入、语音搜索、语音交互等技术已成为手机、车辆、玩具等智能产品的标配。

另一方面，“一带一路”国家战略建设依赖于语言互通，多语言翻译技术的价值凸显。

然而，将多语言智能语音语言技术带到实用层面并不是那么容易。

不同语言特有的语言现象非常复杂、小语言的语言分析研究积累和投入不足、训练数据匮乏……这些客观问题就摆在我们面前。

大家都选择了面对困难，并一一战胜。

数据方面，科大讯飞开发了基于人机协作的多语言数据标注平台；算法方面，重点关注多语言端到端统一建模框架、无监督/弱监督训练、语音/图片翻译的多任务协作。

优化等方向；在研发训练效率优化方面，搭建了多语言模型自动训练和定制优化平台，推动多语言系统批量开发，解决人工耗时问题。

这些努力终于得到了反馈。

2019年10月26日，哈尔滨工业大学科大讯飞联合实验室（HFL）团队在权威多语言理解评测XTREME（由谷歌组织，综合考察模型的多语言理解和跨语言迁移能力）中排名第一，总平均分84.1分，在四场比赛中取得三项最好成绩。

随后11月10日，国际低资源多语言语音识别大赛OpenASR落下帷幕。

科大讯飞-中国科大语音与语言信息处理国家工程实验室（USTC-NELSLIP）联合团队参加了全部15个语言限制赛道和7个语言非限制赛道，全部获得第一名。

从突破单一核心技术的效果，跨过应用门槛，再到创新链各关键技术的深度融合，“系统创新”尚未形成严格意义上的闭环。

毕竟，虽然解决问题的方法和路径已经逐渐清晰，但“应该解决什么问题”才是困扰这些科学家的问题根源。

教育、医疗、司法、城市生态，每一个字都极其厚重，不可能用三言两语概括和概括其背后问题的核心：是否是“减负、增加教育负担”？ “功效”、“因材施教”、“资源平衡”，或者说医疗的“医疗水平”、“医疗经验”……这些重大系统命题转化为科学问题，或许是回到NLP或识别。

了解智力的真正本质——一个定义问题。

“到处都是专家，如何很好地界定每个行业的问题和知识特征，如何形成一个框架，使模型能够不断复制并应用于各个行业。

”这是盛志超及其团队面临的挑战，也是科大讯飞的未来。

突破的关键。

当重大系统命题转化为科学问题的能力更强，单点核心技术不断突破进而深度融合、有机衔接时，系统创新才能真正成为重大历史命题的新解决方案。

4. 无限扩展的神经网络当我们和科大讯飞人工智能研究院CV组交谈时，我们将科大讯飞比作一个非常广泛和深度的生成神经网络。

典型的生成神经网络包括输入层、编码层和输出层。

对于AI公司来说，输入是AI的三要素：算力、数据、算法。

输出是技术和产品，编码层是公司的组织风格和技术方法论，以及企业的人才。

在这篇文章《不一样的科大讯飞，他们把计算机视觉踢进“世界杯”》中，我们了解了科大讯飞对人才的重视以及独特的组织方式。

研究院设立的三个研究方向——CV方向、认知方向、言语方向，相互独立却又深度融合，为优秀人才提供平等、开放的交流平台，让他们锻炼自我、发挥潜力、学习别人的长处。

。

但这仅仅解开了科大讯飞神经网络编码层的一半秘密。

另一半秘密或许可以从盛志超及其团队实施NLP的路径中了解到：无论是一开始势在必行的转型路径，还是后来在教育、医疗等场景领域的打磨，一切的核心就是做好一件事，就是对不同行业的定义和建立真正的理解。

对行业和定义问题的认知，让科大讯飞在选择方向时不被自身行动能力所限制，从而无限拓宽科大讯飞神经网络的宽度。

关键技术顶尖，行业认可有根基。

打破实验室与现实的壁垒后，技术不再局限于自身，而是与广泛的外部场景相关。

最终，科大讯飞AI技术能够快速从研发到实现规模化落地的能力。

我们有理由相信，“用人工智能建设更美好的世界”的使命绝不是纸上谈兵。

站长声明

标签：

上一篇：真和科技完成超10亿元战略融资，国企结构调整基金领投

下一篇：安徽省智能家电（家居）产业发展基金募集GP

清流十月，静水深流

产品性能啦啦啦：“平安运”计划升级，提升司机体验。近日，货拉拉升级了“平安运”司机保障计划，更新订单偏好、浮动窗口、受理订单检测等功能，让平台司机在接受订单方面更加自由。今年下半年以来，货拉拉在广东东莞、浙江杭州、湖北武汉等近50个城市推出升级版订单优惠产

06-18
投资界新闻 -松禾资本成立10亿规模海创基金，支持海外华人、科学家在深圳创业

投资圈（ID：pedaily）1月16日消息，松禾资本、松禾创新孵化器、松禾创新科技转移研究院在深圳湾软件产业基地举行“松鹤海外华人-科学家回国创业预孵化基地”启动仪式，并宣布设立10亿松鹤海创基金，支持海外华人-科学家返回深圳创业创业。　　松鹤资本创始人合伙人厉伟表示

06-18
新茶饮“卖水人”混战：谁能“滚”出新故事？

春节将至，新茶饮品牌将迎来一年中的销售旺季。新茶饮料供应商德馨食品于2019年9月30日终止IPO；椰叶创新股份有限公司（以下简称“椰叶股份”，23.BJ），一家原果汁和速冻果块生产商，于2018年2月2日在北京创业板上市股票交易;同年7月15日，复合调味品公司宝利食品（70.SH）

06-18
武汉飞恩微电子完成超亿元战略融资，海尔资本领投

据投资界6月22日消息，武汉飞恩微电子股份有限公司（以下简称“飞恩”）近日完成战略融资融资超亿元。本轮融资由海尔资本领投，三花宏道、长石资本跟投。武汉飞恩微电子成立于2017年，专注于提供MEMS传感器和系统产品以及ODM/OEM服务。基于独特的工艺应力模型封装技术和高

06-17
应用材料公司实现了用于物联网和云计算的新型存储器的批量生产

加利福尼亚州圣克拉拉，7 月 9 日 - 应用材料公司今天宣布推出可实现大批量生产的创新解决方案。加速物联网、云计算新型存储器的产业应用进程。几十年前开发并批量生产的内存技术，包括 DRAM、SRAM 和闪存，现在广泛用于各种数字设备和系统。虽然以MRAM、ReRAM和PCRAM为代

06-06
苹果设计，走下“神”的神坛丨硬哲学

没有一家公司比苹果有更好的产品介绍页面。以2年前发布的AirPods Pro产品页面为例。当我们进入www.apple.com.cn/airpods-pro时，我们只能看到AirPods Pro在阴影中，半被琵琶遮住；当我们滑动屏幕或滚动鼠标时，光线就会流动，从阴影中走出来，展现出丰满的曲线和全景。是什

06-21
林和气候科技完成数千万Pre-A轮融资，中信资本领投，

投资圈（ID：pedaily）8月3日消息，林和气候科技北京有限公司（以下简称“林和气候科技”）2日宣布完成数千万元融资在Pre-A轮融资中。本轮融资由中信建设资本领投，新材资本跟投。本轮融资将用于加大重点领域的产品开发迭代和产业化示范项目建设、加快团队扩张、市场开拓等

06-18
【创业24小时】2023年4月18日

投融资昨天，国内市场共发生11起投资披露事件，其中汽车交通3起（飞牛出行、云科安心、云创智行）、先进制造3起（云皇新材料、俐玛精密、融科集团），医疗健康案例3个（N1生命、泽慧生物、芯医疗），企业服务案例1个（火银科技），娱乐媒体案例1个（微信擎科技）。精选软件开

06-17
我们调查了100家独角兽创始人的背景，有人当警察，有人造卫星

我们调查了 100 名独角兽创始人的背景。有些是警察并拥有卫星。职业基础和创业成功率真的有联系吗？昆仑万维的周亚辉曾根据公司估值对当前创始人的职业背景做了简单的分类：BD和销售的创始人可以打造一家估值1亿美元的公司；具有产品和技术背景的创始人可以创建一家估值10亿

06-18
Cree与ABB宣布SiC合作，提供汽车和工业解决方案

将帮助Cree扩大客户群，为电网、火车、牵引和电动交通等高功率应用提供碳化硅（SiC）基础。解决方案将帮助 ABB 电网加速进入高增长的电动汽车 (EV) 市场全球碳化硅 (SiC) 技术领导者 Cree Inc.（纳斯达克股票代码：CREE）与 ABB 电网宣布合作扩大规模SiC 在快速增长的高功

06-06
中产阶级锯断钢钢琴

电影《钢的琴》讲述了20世纪90年代初中国东北某工业城市一群落魄工人受下岗潮影响，在一座破旧的工厂。的故事。 “钢琴”代表了时代巨变下人们的希望、奋斗和救赎。在那个时代，钢琴不仅仅是一种乐器，更代表着对美好生活的向往。它具有不同于其他乐器的特殊价值。如今，

06-18
《元件星球》先后完成数千万美元B1、B2轮融资，戈壁湾区、愉悦资本、蔚来资本纷纷行动

投资圈（ID：pedaily）9月21日消息，国内汽车再生龙头公司“元为星球”宣布完成数千万B1、B2轮融资。本轮融资由戈壁大湾区、愉悦资本、蔚来资本等机构共同参与。该资金主要用于拆解厂的业务拓展和技术改造。研发投资，易凯资本担任Sourceware Planet本系列交易的独家代理。

06-18