神州租车:北汽集团将收购不超过21.26%股份
06-18
李世石与AlphGO的“人机大战”已经过去三年了。
似乎没有人再怀疑“下棋”人类确实输给了人工智能。
人类与人工智能的下一场战斗将在哪里?同声传译(同声传译)将很可能是下一个具有挑战性的应用场景。
12月21日,基于上下文引擎的搜狗同声传译3.0以多模态和自主学习为核心,加入视觉和思维能力。
这是AI同声传译在加入视觉AI、知识图谱等能力后的又一次进化。
从人上机:困于行业知识的AI同声传译解决定制化问题多模态同声传译,顾名思义,聚合多种交互形式,实现同声传译能力。

据雷锋网了解,搜狗已经在多模态领域进行了探索和应用,包括之前在AI合成主播上的应用,结合了语音、唇语、面部表情等交互形式。
最终AI合成主播参与了2019年的两会报道,甚至还出国与阿布扎比媒体集团合作,推出全球首个阿拉伯语AI合成主播。
搜狗去年12月发布的搜狗同声传译3.0,在基本语音交互能力的基础上,还增加了文字和图像两种交互能力。
通过在嘉宾PPT中融入演讲相关内容,语音识别准确率进一步提升21.7%。
翻译准确率提升40.3%。
搜狗为何在历经两代迭代后,将图像识别能力引入同声传译系统中?这要从搜狗前两代同声传译系统以及支持数千场会议同声传译的惨痛经历说起。
2017年,搜狗在“第三届乌镇互联网大会”上发布了业界首款商用人工智能同传产品——搜狗同声传译1.0。
这是搜狗第一代同声传译产品,也是搜狗进军同声传译领域的首次商业尝试。
“在1.0阶段,我们提供通用同声传译能力,实际应用中遇到的最大问题是:每个演讲者演讲时的背景信息和语义信息都是不同的。
也许今天我们需要支持医学会议,我们需要支持明天的航空会议,我们很难获得此类专业会议的‘语义词’。
”回顾最初的搜狗同声传译1.0,搜狗AI交互技术部总经理陈伟认为,当时在实际应用中遇到的最大问题。
问题在于各个专业领域的“语义词”很难获取,这也影响了该产品初步识别和翻译的准确性。
如何获取这些专业的“语义词”来训练专用模型并改进通用版本1.0?这是搜狗同声传译研发团队当时迭代版本时考虑的主要问题,也是搜狗同声传译2.0最终试图解决的问题。
这也引发了2018年发布的搜狗同声传译2.0的几项重要能力的升级:通过行业深度定制和专属模型训练(如提前上传语音脚本或给出关键词汇进行训练),输出行业解决方案。
“迭代到2.0版本后,我们通常会聘请很多人来优化演讲者的内容,但我们往往很难拿到演讲稿,所以只能在网上查找与此人相关的背景知识。
过去我们谈到“2.0版本虽然考虑到了专业内容的优化,但在会前很难获取到实际演讲者的演讲内容,因此无法利用这些专业内容进行定制。
模型优化。
事实上,在这样的升级迭代过程中,搜狗同声传译的通用能力从2018年的搜狗同声传译1.0到2018年的搜狗同声传译2.0都有了显着的提升。
嘉宾演讲中,PPT内容的识别和翻译还有很大的提升空间。
“肯定还有改进的空间。
”因此,搜狗还在继续优化其个性化能力,也就是搜狗同声传译的定制能力。
“我们希望让机器能够自我定制。
”一个很好的背景。
”这一能力最终在搜狗同声传译3.0中得以实现。
搜狗同声传译3.0:引入视觉能力、知识图谱,构建语境引擎。
12月21日,基于上下文引擎的搜狗同声传译3.0以多模态和自主学习为核心,加入视觉和思维能力。
这是AI同声传译3.0。
据称,在加入了视觉AI、知识图谱等能力后,它再次进化。
陈薇介绍,搜狗同声传译3.0相比上一代产品主要有三点改进:一是从感知角度,获取的信息由之前的单模态信息变成了现在,并引入了视觉能力能够获取多模态信息。
其次,从认知角度来看,演讲者的PPT内容是通过OCR识别或者视觉能力获得的。
借助上下文引擎,提取出这些专业知识的核心,并通过知识图谱对内容进行分析。
进一步扩展,形成整个说话人的相关上下文信息,并与演讲内容关联起来;第三,我们获得个性化信息后,进行实时语音识别、机器翻译,生成个性化实时定制引擎。
在搜狗同声传译3.0系统的整个工作过程中,专门增加了视觉能力并引入了语境引擎,这也成为解决上述具体化、个性化同声传译需求的关键。
“上下文引擎能够真正理解和推理PPT内容。
”陈薇指出了搜狗同声传译3.0的核心能力。
搜狗同声传译3.0的具体技术框图如下图所示: 从搜狗同声传译3.0的技术框图可以看出,上下文引擎主要由“PPT文本理解”和“搜狗知识”两部分组成图形”。
上下文引擎的整个工作流程可以具体理解为:在会议现场,通过OCR(比如笔记本播放PPT),将演讲者PPT的全部内容转换为文本信息,以及与作者相关的个性化内容。
字段是从此文本信息中提取的。
和知识;基于这些知识,结合搜狗之前基于搜狗百科构建的知识图谱,扩展了一些知识,将语音识别的内容融入到语料训练模型中,形成了搜狗同声传译3.0的识别和翻译模型。
其中,搜狗还在同声传译系统中加入了识别翻译协作模块,优化翻译模型的输入文本。
在两次迭代中,这个模块的作用从最初最基础的标点、分句逐渐升级为完整的标点、分句、文本流畅、语义单元三大能力。
在这个过程中,搜狗的机器翻译模块也从1.0系统的RNN模型和2.0系统的Transformer模型升级到3.0多模态翻译系统。
3.0系统基于Transformer模型,结合了搜狗百科知识图谱和翻译历史。
集成到翻译系统中并实现流式解码。
根据搜狗官方公布的信息,通过构建语境引擎升级后的搜狗同声传译3.0系统实测数据如下图所示:搜狗百度百科知识图谱,上下文引擎搭建,计算是否正确,对功耗和硬件有什么特殊要求吗?陈伟解释,现场做PPT内容识别时,可以直接通过截图(本地播放PPT)或者笔记本电脑上的摄像头来完成。
语音训练用NVIDIA常规的P40或者V来完成,训练推理没有额外的负担。
。
人工智能同声传译仍难以取代人类同声传译。
多模态已成趋势,搜狗同声传译3.0引入视觉能力、加入知识图谱。
它能完全替代人类同声传译吗?据搜狗在发布会上发布的官方信息:在实际评测中,搜狗同声传译3.0的评测分数为3.82分,手动同声传译的评测分数为4.08分。
显然,目前来看,人工智能同声传译还不能完全取代人类同声传译。
对此,陈薇还指出,机器的感知能力越来越强,因为机器不断学习(搜狗输入法的语音识别总次数每天超过8亿次)。
但机器和人类之间最大的差距是翻译。
就翻译的“信、达、雅”而言,机器在某些场景下几乎可以做到“信”“达”,而人类却可以做到“雅”。
就翻译而言,人工智能同声传译面临着直译的问题。
例如,讲笑话时,它能否理解说话者的意思并进行翻译?当谈论一句谚语时,它能被理解吗?人类和机器最大的差距仍然是语言理解能力。
所以搜狗一直在做语言AI,我们想把重点回归到语言本身。
回到语言本身,传感器的种类越来越多,设备可以收集的数据和数据类型也越来越多。
也就是说,越来越多的多模态数据逐渐可用。
当多模态数据有了之后,相关的模型和算法逐渐开始引起业界的关注。
“但大家一开始还是把多模态想得太简单了。
实现多模态的过程并不是简单地将模态融合在一起。
从我们多年来的认识来看,这是一个相当复杂的过程。
”在谈到搜狗在多模态语音的技术发展时,陈薇表示:“我们是第一个倡导多模态技术的公司,这次搜狗同声传译3.0也是从语音跨越到多模态,通过融入我们的理解当知识和言语融入这种多模态时,我们的同声传译员将开始具备一定的认知能力。
“我们公司的最终目标是成为一名 VPA。
即软件形式的AI助手可以基于硬件,也可以放在搜狗输入法和搜狗搜索引擎上。
搜狗VPA的形式是任务导向的,中间你会看到一个对话导向的图像。
在这个场景中,我认为搜狗同声传译是VPA的一种形式。
它是具有同声传译功能的 VPA。
它可以同时与人互动。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-17
06-17
06-06
06-17
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态