MIUI 13 Pad稳定版已上线!与苹果相比,您的体验如何?
06-21
自然语言处理(NLP)一直是人工智能渴望攻克的难题。
直到2000年,上世纪末互联网时代积累的大量电子文本数据,以及深度学习的加持,终于让机器翻译乃至自然语言处理走上了快车道。
深度学习遵循统计方法的概率传统。
不同的是,它基本上不需要特征工程,而特征工程需要大量的专业知识。
但盛志超发现,即使是十多年后的现在,在实现基于深度学习技术的NLP应用时,也必须放弃对技术的痴迷,回归行业专家知识。
这是他在科大讯飞学习NLP技术八年来最宝贵的经历。
2006年从复旦大学毕业后,盛志超在一家初创公司从事NLP研究。
经过两年多的实践经验,他希望找到一个更大的平台,用技术创造真正的社会价值。
当时,科大讯飞也凭借新发布的科大讯飞输入法和语音云在人工智能语音领域名声大噪。
由于语音合成技术中前端文本韵律预测和文本关联的机会,NLP 已经被涉足和探索,并在语音交互和机器翻译中得到了实践。
渴望用科技创造真正社会价值的人们选择了一家希望“用人工智能建设更美好世界”的公司。
一切都是那么合乎逻辑。
1、黎明前夕,转型成为唯一出路。
NLP 的历史几乎与计算机和人工智能(AI)的历史一样长。
而由于它具有利用自然语言实现人与计算机之间有效沟通的天然桥梁属性,因此也带来了一个非常有趣的现象,那就是当我们开始探索感知智能时,它总是会与认知智能一起涉及到。
这一现象在科大讯飞也得到了证明。
在语音合成技术中,前端文本韵律预测与文本密切相关。
因此,科大讯飞在成立初期开始语音探索时就涉足了NLP领域。

然而,在早期,它仅限于文本预测、语音识别的语言模型和文本检索。
2019年,科大讯飞成立人工智能研究院,正式以自然语言处理和语音合成、评估与识别为核心研究方向。
自此,科大讯飞在NLP落地方面的尝试开始一路坎坷。
2010年,语音评测技术基本成熟,普通话测试系统通过国家语委鉴定;语音合成技术也在2018年首次超越普通人的口语水平,并连续多年获得国际英语语音合成大赛冠军。
但在知识图谱、语义检索、文本消息分类、文本客服等多个方向,由于技术不成熟、迁移成本较高,基于文本的技术落地大多以失败告终。
“当时大家其实都是以技术为基础,思考匹配它未来可能的使用场景,慢慢发现这条路特别难走。
” 这次艰难探索经历的教训也在后来的实践中得到了印证。
也许是时候扭转这种思维模式了。
既然“用胡萝卜找陷阱”行不通,不如反其道而行之。
基于实际业务场景和需求的思考开始扭转目前的坎坷局面 2016年,基于编码器-解码器结构的神经机器翻译模型诞生,机器翻译正式进入深度学习中。
刚刚加入公司的盛志超在科技大学迎来了NLP技术发展的重要转折点。
今年年初,盛志超的NLP认知组组建了“7人团队”,拉开了科大讯飞深度学习在NLP领域的应用序幕:他们首先搜索了市场上所有相关论文,并将其分成几篇不同的“论文”。
阅读”小组分别学习不同的方向。
然后他们互相解释代码,并尝试重现论文中的模型、算法等。
就这样,“7人团队”成功地将深度学习应用于NLP技术,并迅速在全公司推广。
“探索领先于许多大学和同行。
”回忆起这段经历,盛志超表示,团队的相互信任、凝聚力和共同决心是他们成功不可或缺的因素。
时至今日,最初的七人团队成员仍然长期在团队中努力工作。
成为科大讯飞不同业务方向的核心骨干,通过应用深度学习和场景化倒逼技术,科大讯飞的NLP终于看到了曙光。
2、从场景到行业的塑造,很多优秀的演员往往都会去。
角色的真实工作或生活场景在前期“体验生活”,在表演时力求达到一种无私的状态,这种塑造方式简单而有价值,但与盛志超时的路径是一样的。
2018年9月,刚入职10天的盛志超就被派往科大讯飞北京研究院,参与中文作文审核的技术开发和实施。
作文复习分为评分和批改两个方向。
评分是给文档打分,而批改则需要根据文章中的语法是否正确、句子表达是否先进、内容是否符合主旨要求等进行综合评价。
前一种技术比较简单,而后者则涉及认知问题。
情况更复杂。
众所周知,从小学到大学的不同学习阶段,高级表达和词汇的定义标准差异很大,因此需要根据每个学习阶段的具体情况做出具体的“定义”。
正如盛志超所言,“点评技术不仅需要打分,还需要给出合理的反馈,必须基于场景知识进行模块化,层层拆解,才能给出相对科学的评分以及用户想要学习的反馈。
”结果,“当科大讯飞刚推出时,论文评审技术就失败了,”盛志超说。
这是一次他永远不会忘记的经历。
当时学校要求考试要覆盖个人,任何一个人的评价都不能出错。
但深度学习和传统机器学习都是统计模型,考虑的是整体概率,不会考虑学生个体的特征。
健康)状况。
于是,出现了一个情况。
每张英语作文试卷在开头都会有引言,要求学生继续写作。
然而,机器将介绍视为需要评估的答案内容。
其中一篇作文即使是一张白纸也能得到分数。
试卷评分是一件非常严肃的事情,老师和盛志超本人都觉得这种错误影响到的考试客观公平性是无法挽回的。
后来回想起来,这次失败的根本原因仍然是我们关注的指标和用户在实际场景中关注的指标不一致。
此后,盛志超及其团队开始长时间频繁“体验学习生活”,与教师、学生、家长等每一个与学习相关的关键角色进行沟通,试图全面、真实地了解和界定需求的每一个细节。
在教育领域。
问题。
“如果你想在教育领域真正实现你的知识,你必须首先忘记你原来的身份,成为一名学生、家长或老师。
”盛志超说的这个想法,与张三丰传授张无忌太极拳时的精髓如出一辙:“太极只重其意,不重其招式,动作全忘了,就成了太极了。
” ” 2016年,盛志超和他的团队终于将论文评审技术成功应用于高考和中考。
这也是教育评价技术首次应用于国内大规模形式考试。
如果说这只是解决了教育某个特定“场景”的问题,那么后续的“因材施教、个性化学习”则证明了科大讯飞在教育领域更深层次钻研的决心。
年初,盛志超重返教育界,开始攻克难度更大的因材施教的个性化学习方向。
盛志超承认自己曾经是一名学生,在学校度过了20多年。
即使作为学习带头人,他仍然无法总结自己的所谓经验,为其他学生提供参考。
这背后的原因或许不能用简单的“毕竟适合每个人的学习方法不同”来概括。
或许,它指向了一个源于几千年前的美好理想:“因材施教,无差别教学”。
我们几千年来一直在追逐它,现在盛志超和他的团队正在一步步接近它。
结合学习者知识水平的个性化方案,为学习者提供定制化的动态教学策略,开启了“减负增效”的使命。
以主题推荐为例。
“题海战术”受到师生们的一致好评。
这样,你就能找到“有效回答问题”的解决方案。
这背后涉及认知诊断、深度学习、知识图谱等一系列技术集合。
参考著名心理学家维果茨基提出的“最近发展区理论”,个性化提问激发学生“潜力”的逻辑很容易理解:为当前水平的学生推荐的学习问题类型是既不会太难,造成畏难情绪,也不会太容易,浪费太多时间。
用盛志超的话说,这是一种“一箭之遥”的学习资源。
然而,要准确定位每个学生一跳就能获得的学习资源并不容易。
这需要通过知识图来建模学生的认知风格。
科大讯飞长期积累知识图谱技术。
从2001年开始投入研发,并于2016年在NIST TAC(KBP)国际知识图谱构建大赛中获得第一名。
如今科大讯飞已经有7年的知识图谱技术积累。
这张图是一个学生的认知建模案例,其中红色代表掌握较差的知识点,黄色代表一般知识点,绿色代表较好的知识点。
学生以绿色知识点为基础,先学习黄色知识点,再学习红色知识点,构成了每个学生独特的学习路径。
这种循序渐进的方式不仅提高了学习效率,也真正做到了因材施教。
深入场景、深入行业的方法论在教育领域得到了最好的验证。
可以预见,人工智能对生产生活的改变将不断涌现。
即便是那些尚未找到问题解决方案的重大历史命题,也可能在人工智能领域找到新的解决方案。
解开。
3.重大历史命题的新解答。
然而,由于教育、医疗、司法等直接关系民生的重大历史命题本身就是复杂问题的集合,即使人工智能能够提供解决方案,也不再依赖于单一技术,必须由单一技术来解决。
复杂系统的综合力量。
“以教育AI学习机为例,它涉及到语音交互与评价、图像文本识别、认知理解、知识图谱、多维学术画像等一系列相关技术。
”盛志超是对的。
除了上面我们提到的个性化学习环节中的认知诊断和知识图谱之外,普通学习环节的完成远比想象的复杂:学生通过AI学习机拍照并上传完成的作业、图文识别技术可以对照片进行表面校正、图片降噪等处理,识别充满印刷品、手写甚至公式的作业;此后,NLP等技术开始自动识别问题和文本中提到的信息。
推断答案并进行更正;对于错误题型,基于知识图谱的技术可以根据其涵盖的知识点,推荐与最近发展区相关的练习题型。
创新链中的关键技术深度融合、串联,形成系统的学习环节。
回顾过去,我们会发现关键技术的深度融合还需要至关重要的底层基础设施——核心技术的单点突破和应用跨越。
我们或许可以从多语言交互的实践中印证这个结论。
目前,语音已经成为万物互联时代人机交互的关键入口。
语音输入、语音搜索、语音交互等技术已成为手机、车辆、玩具等智能产品的标配。
另一方面,“一带一路”国家战略建设依赖于语言互通,多语言翻译技术的价值凸显。
然而,将多语言智能语音语言技术带到实用层面并不是那么容易。
不同语言特有的语言现象非常复杂、小语言的语言分析研究积累和投入不足、训练数据匮乏……这些客观问题就摆在我们面前。
大家都选择了面对困难,并一一战胜。
数据方面,科大讯飞开发了基于人机协作的多语言数据标注平台;算法方面,重点关注多语言端到端统一建模框架、无监督/弱监督训练、语音/图片翻译的多任务协作。
优化等方向;在研发训练效率优化方面,搭建了多语言模型自动训练和定制优化平台,推动多语言系统批量开发,解决人工耗时问题。
这些努力终于得到了反馈。
2019年10月26日,哈尔滨工业大学科大讯飞联合实验室(HFL)团队在权威多语言理解评测XTREME(由谷歌组织,综合考察模型的多语言理解和跨语言迁移能力)中排名第一,总平均分84.1分,在四场比赛中取得三项最好成绩。
随后11月10日,国际低资源多语言语音识别大赛OpenASR落下帷幕。
科大讯飞-中国科大语音与语言信息处理国家工程实验室(USTC-NELSLIP)联合团队参加了全部15个语言限制赛道和7个语言非限制赛道,全部获得第一名。
从突破单一核心技术的效果,跨过应用门槛,再到创新链各关键技术的深度融合,“系统创新”尚未形成严格意义上的闭环。
毕竟,虽然解决问题的方法和路径已经逐渐清晰,但“应该解决什么问题”才是困扰这些科学家的问题根源。
教育、医疗、司法、城市生态,每一个字都极其厚重,不可能用三言两语概括和概括其背后问题的核心:是否是“减负、增加教育负担”? “功效”、“因材施教”、“资源平衡”,或者说医疗的“医疗水平”、“医疗经验”……这些重大系统命题转化为科学问题,或许是回到NLP或识别。
了解智力的真正本质——一个定义问题。
“到处都是专家,如何很好地界定每个行业的问题和知识特征,如何形成一个框架,使模型能够不断复制并应用于各个行业。
”这是盛志超及其团队面临的挑战,也是科大讯飞的未来。
突破的关键。
当重大系统命题转化为科学问题的能力更强,单点核心技术不断突破进而深度融合、有机衔接时,系统创新才能真正成为重大历史命题的新解决方案。
4. 无限扩展的神经网络 当我们和科大讯飞人工智能研究院CV组交谈时,我们将科大讯飞比作一个非常广泛和深度的生成神经网络。
典型的生成神经网络包括输入层、编码层和输出层。
对于AI公司来说,输入是AI的三要素:算力、数据、算法。
输出是技术和产品,编码层是公司的组织风格和技术方法论,以及企业的人才。
在这篇文章《不一样的科大讯飞,他们把计算机视觉踢进“世界杯”》中,我们了解了科大讯飞对人才的重视以及独特的组织方式。
研究院设立的三个研究方向——CV方向、认知方向、言语方向,相互独立却又深度融合,为优秀人才提供平等、开放的交流平台,让他们锻炼自我、发挥潜力、学习别人的长处。
。
但这仅仅解开了科大讯飞神经网络编码层的一半秘密。
另一半秘密或许可以从盛志超及其团队实施NLP的路径中了解到:无论是一开始势在必行的转型路径,还是后来在教育、医疗等场景领域的打磨,一切的核心就是做好一件事,就是对不同行业的定义和建立真正的理解。
对行业和定义问题的认知,让科大讯飞在选择方向时不被自身行动能力所限制,从而无限拓宽科大讯飞神经网络的宽度。
关键技术顶尖,行业认可有根基。
打破实验室与现实的壁垒后,技术不再局限于自身,而是与广泛的外部场景相关。
最终,科大讯飞AI技术能够快速从研发到实现规模化落地的能力。
我们有理由相信,“用人工智能建设更美好的世界”的使命绝不是纸上谈兵。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态