首页 > 科技未来 > 内容

搜狗同声传译3.0：引入视觉能力+知识图谱，打造语境引擎

发布于：2024-06-18 编辑：匿名来源：网络

李世石与AlphGO的“人机大战”已经过去三年了。

似乎没有人再怀疑“下棋”人类确实输给了人工智能。

人类与人工智能的下一场战斗将在哪里？同声传译（同声传译）将很可能是下一个具有挑战性的应用场景。

12月21日，基于上下文引擎的搜狗同声传译3.0以多模态和自主学习为核心，加入视觉和思维能力。

这是AI同声传译在加入视觉AI、知识图谱等能力后的又一次进化。

从人上机：困于行业知识的AI同声传译解决定制化问题多模态同声传译，顾名思义，聚合多种交互形式，实现同声传译能力。

搜狗同声传译3.0：引入视觉能力+知识图谱，打造语境引擎

据雷锋网了解，搜狗已经在多模态领域进行了探索和应用，包括之前在AI合成主播上的应用，结合了语音、唇语、面部表情等交互形式。

最终AI合成主播参与了2019年的两会报道，甚至还出国与阿布扎比媒体集团合作，推出全球首个阿拉伯语AI合成主播。

搜狗去年12月发布的搜狗同声传译3.0，在基本语音交互能力的基础上，还增加了文字和图像两种交互能力。

通过在嘉宾PPT中融入演讲相关内容，语音识别准确率进一步提升21.7%。

翻译准确率提升40.3%。

搜狗为何在历经两代迭代后，将图像识别能力引入同声传译系统中？这要从搜狗前两代同声传译系统以及支持数千场会议同声传译的惨痛经历说起。

2017年，搜狗在“第三届乌镇互联网大会”上发布了业界首款商用人工智能同传产品——搜狗同声传译1.0。

这是搜狗第一代同声传译产品，也是搜狗进军同声传译领域的首次商业尝试。

“在1.0阶段，我们提供通用同声传译能力，实际应用中遇到的最大问题是：每个演讲者演讲时的背景信息和语义信息都是不同的。

也许今天我们需要支持医学会议，我们需要支持明天的航空会议，我们很难获得此类专业会议的‘语义词’。

”回顾最初的搜狗同声传译1.0，搜狗AI交互技术部总经理陈伟认为，当时在实际应用中遇到的最大问题。

问题在于各个专业领域的“语义词”很难获取，这也影响了该产品初步识别和翻译的准确性。

如何获取这些专业的“语义词”来训练专用模型并改进通用版本1.0？这是搜狗同声传译研发团队当时迭代版本时考虑的主要问题，也是搜狗同声传译2.0最终试图解决的问题。

这也引发了2018年发布的搜狗同声传译2.0的几项重要能力的升级：通过行业深度定制和专属模型训练（如提前上传语音脚本或给出关键词汇进行训练），输出行业解决方案。

“迭代到2.0版本后，我们通常会聘请很多人来优化演讲者的内容，但我们往往很难拿到演讲稿，所以只能在网上查找与此人相关的背景知识。

过去我们谈到“2.0版本虽然考虑到了专业内容的优化，但在会前很难获取到实际演讲者的演讲内容，因此无法利用这些专业内容进行定制。

模型优化。

事实上，在这样的升级迭代过程中，搜狗同声传译的通用能力从2018年的搜狗同声传译1.0到2018年的搜狗同声传译2.0都有了显着的提升。

嘉宾演讲中，PPT内容的识别和翻译还有很大的提升空间。

“肯定还有改进的空间。

”因此，搜狗还在继续优化其个性化能力，也就是搜狗同声传译的定制能力。

“我们希望让机器能够自我定制。

”一个很好的背景。

”这一能力最终在搜狗同声传译3.0中得以实现。

搜狗同声传译3.0：引入视觉能力、知识图谱，构建语境引擎。

12月21日，基于上下文引擎的搜狗同声传译3.0以多模态和自主学习为核心，加入视觉和思维能力。

这是AI同声传译3.0。

据称，在加入了视觉AI、知识图谱等能力后，它再次进化。

陈薇介绍，搜狗同声传译3.0相比上一代产品主要有三点改进：一是从感知角度，获取的信息由之前的单模态信息变成了现在，并引入了视觉能力能够获取多模态信息。

其次，从认知角度来看，演讲者的PPT内容是通过OCR识别或者视觉能力获得的。

借助上下文引擎，提取出这些专业知识的核心，并通过知识图谱对内容进行分析。

进一步扩展，形成整个说话人的相关上下文信息，并与演讲内容关联起来；第三，我们获得个性化信息后，进行实时语音识别、机器翻译，生成个性化实时定制引擎。

在搜狗同声传译3.0系统的整个工作过程中，专门增加了视觉能力并引入了语境引擎，这也成为解决上述具体化、个性化同声传译需求的关键。

“上下文引擎能够真正理解和推理PPT内容。

”陈薇指出了搜狗同声传译3.0的核心能力。

搜狗同声传译3.0的具体技术框图如下图所示：从搜狗同声传译3.0的技术框图可以看出，上下文引擎主要由“PPT文本理解”和“搜狗知识”两部分组成图形”。

上下文引擎的整个工作流程可以具体理解为：在会议现场，通过OCR（比如笔记本播放PPT），将演讲者PPT的全部内容转换为文本信息，以及与作者相关的个性化内容。

字段是从此文本信息中提取的。

和知识；基于这些知识，结合搜狗之前基于搜狗百科构建的知识图谱，扩展了一些知识，将语音识别的内容融入到语料训练模型中，形成了搜狗同声传译3.0的识别和翻译模型。

其中，搜狗还在同声传译系统中加入了识别翻译协作模块，优化翻译模型的输入文本。

在两次迭代中，这个模块的作用从最初最基础的标点、分句逐渐升级为完整的标点、分句、文本流畅、语义单元三大能力。

在这个过程中，搜狗的机器翻译模块也从1.0系统的RNN模型和2.0系统的Transformer模型升级到3.0多模态翻译系统。

3.0系统基于Transformer模型，结合了搜狗百科知识图谱和翻译历史。

集成到翻译系统中并实现流式解码。

根据搜狗官方公布的信息，通过构建语境引擎升级后的搜狗同声传译3.0系统实测数据如下图所示：搜狗百度百科知识图谱，上下文引擎搭建，计算是否正确，对功耗和硬件有什么特殊要求吗？陈伟解释，现场做PPT内容识别时，可以直接通过截图（本地播放PPT）或者笔记本电脑上的摄像头来完成。

语音训练用NVIDIA常规的P40或者V来完成，训练推理没有额外的负担。

。

人工智能同声传译仍难以取代人类同声传译。

多模态已成趋势，搜狗同声传译3.0引入视觉能力、加入知识图谱。

它能完全替代人类同声传译吗？据搜狗在发布会上发布的官方信息：在实际评测中，搜狗同声传译3.0的评测分数为3.82分，手动同声传译的评测分数为4.08分。

显然，目前来看，人工智能同声传译还不能完全取代人类同声传译。

对此，陈薇还指出，机器的感知能力越来越强，因为机器不断学习（搜狗输入法的语音识别总次数每天超过8亿次）。

但机器和人类之间最大的差距是翻译。

就翻译的“信、达、雅”而言，机器在某些场景下几乎可以做到“信”“达”，而人类却可以做到“雅”。

就翻译而言，人工智能同声传译面临着直译的问题。

例如，讲笑话时，它能否理解说话者的意思并进行翻译？当谈论一句谚语时，它能被理解吗？人类和机器最大的差距仍然是语言理解能力。

所以搜狗一直在做语言AI，我们想把重点回归到语言本身。

回到语言本身，传感器的种类越来越多，设备可以收集的数据和数据类型也越来越多。

也就是说，越来越多的多模态数据逐渐可用。

当多模态数据有了之后，相关的模型和算法逐渐开始引起业界的关注。

“但大家一开始还是把多模态想得太简单了。

实现多模态的过程并不是简单地将模态融合在一起。

从我们多年来的认识来看，这是一个相当复杂的过程。

”在谈到搜狗在多模态语音的技术发展时，陈薇表示：“我们是第一个倡导多模态技术的公司，这次搜狗同声传译3.0也是从语音跨越到多模态，通过融入我们的理解当知识和言语融入这种多模态时，我们的同声传译员将开始具备一定的认知能力。

“我们公司的最终目标是成为一名 VPA。

即软件形式的AI助手可以基于硬件，也可以放在搜狗输入法和搜狗搜索引擎上。

搜狗VPA的形式是任务导向的，中间你会看到一个对话导向的图像。

在这个场景中，我认为搜狗同声传译是VPA的一种形式。

它是具有同声传译功能的 VPA。

它可以同时与人互动。

站长声明

标签：

上一篇：【柚子健康】获数千万美元投资

下一篇：产品抢装、政策补贴退坡，让日丰电气冲刺科创板IPO面临哪些挑战？

神州租车：北汽集团将收购不超过21.26%股份

投资界6月1日获悉，神州租车在港交所宣布，神州优车已与神州租车签订无法律约束力战略北京汽车集团有限公司合作协议。根据战略合作协议，北汽集团将收购神州优车不超过4.5亿股股份，相当于公司截至本公告日期已发行股本总额约21.26%。神州优车与北汽集团的合作细节及条款仍

06-18
北京：拟实现共享单车一车一标总量调控

北京：拟实现共享单车一车一标总量控制。根据新规，共享单车一标一车，实现总量控制；同时实施电子围栏，加强日常调度。

06-18
都2024年了，谁还在为光腿神器买单

入冬以来，为了保持温暖和优雅，女生买了几件光腿神器，成了衣柜必备。冬天喜欢穿裙子的小文说：“我喜欢穿裙子，但又不想感觉臃肿，每年冬天我都会买多件‘露腿神器’，来实现冬天穿短裙的愿望。 ” ”沃伦茉寻、小野和 Zi Brands 等新来者正在吸引更年轻的人??群。以以茉

06-17
专注AI超声辅助诊断，深知科技获数千万元战略融资

据投资界8月26日消息，据动脉网报道，上海深知信息技术有限公司完成数十项融资战略融资数百万元。本轮融资由美年健康独家投资。据悉，本轮融资将主要用于两个方面。一方面，深圳将继续加强研发能力，进行产品形态规划，探索产品新的使用领域。另一方面，深圳将不断提升产

06-17
满眼都是AI+，霍金甚至说，我要创业

“这个世界上没有出路，但当更多人传开的话，自然就会发生。 ”首都寒冬的空调没持续多久，人工智能之风就吹来了，春天已经绽放。在北京举行的小型会议上，人们交换名片并添加微信。打破陌生人之间的隔阂的不再是老北京的“吃饭了吗？你在哪里？”而是被替换为“朋友，你是

06-17
中微：12英寸高端刻蚀设备已应用于5nm先进产线

据《科创板日报》，中微董事长兼总经理尹志耀表示，公司等离子刻蚀设备已被国际首创采用线客户。 65纳米至14纳米、7纳米和5纳米等先进集成电路加工制造生产线和先进封装生产线。其中，公司研发的12英寸高端刻蚀设备已应用于国际知名客户最先进的生产线，用于5纳米及5纳米以下

06-06
创始人少年班毕业，装配式建筑一站式云平台“大乐装”获过亿元Pre-A轮融资

据投资界（ID：pedaily）8月30日消息近日，大乐庄完成超亿元Pre-A轮融资，由BAI资本领投，腾讯、招商创投、钟鼎资本以及东方富海管理的中小企业发展基金跟投。本轮融资将主要用于大乐庄预制软件体系及供应链建设。这是大乐庄成立不到一年完成的第三轮融资。此前，大乐庄分

06-18
疫苗一哥改变命运

10月9日，智飞生物宣布与葛兰素史克签署经销及联合推广协议。 GSK将指定智飞生物作为重组带状疱疹疫苗在合作地区的首家经销商和分销商。该协议将延长至今年年底；同时，葛兰素史克将优先成为智飞生物在合作地区（中国大陆）联合开发和商业化任何RSV老年疫苗的首个合作伙伴。

06-17
阿里云创新中心星云计划合作伙伴系列专场“2022 NVIDIA Startup Showcase”报名已开启

阿里云创新中心星云计划合作伙伴系列专场是阿里云创新中心与生态合作伙伴为中小微企业提供的一系列支持计划微型企业。在本次计划中，创新中心将优质合作伙伴的产品和服务权益纳入星云计划，形成星云联权。联合福利包括但不限于技术支持、产品折扣、免费试用、1对1咨询服务、

06-18
中国电信70亿激励基金推动终端升级 OPPO手机积极参与其中

中国电信70亿激励基金推动终端升级，OPPO手机积极参与。 2019年12月17日，中国电信召开终端产业合作战略发布会。终端厂商、芯片厂商、解决方案提供商、代理商、零售商、连锁企业、电商企业等合作伙伴以及全国多家媒体等数万人参加了会议。作为中国电信重要的战略合作伙伴，

06-18
一口气拿出5款新手机，诺基亚2018年要爆款了

雷锋网：诺基亚似乎开了个好头。转眼间，“诺基亚”回来已经一年多了，陆续发布了多款定位不同的产品，但在整体市场上偏向于“中产”。转眼间，又到了一年一度的全球移动通信盛会——MWC，其中自然也有诺基亚的表现。至少诺基亚这次没有像去年那么尴尬了。因为这次诺基亚

06-18
东莞战略新兴产业引导基金顺利通过中国基金管理协会注册，规模100亿元

6月10日消息，近日，东莞金控集团全资子公司东莞金控基金公司担任基金管理人的市新兴战略产业投资合伙企业（有限合伙）（以下简称市战略基金）已在中国证券投资基金业协会注册，标志着市战略基金正式启动运营。接到市政府委托后，东莞金控集团迅速组织专业团队负责该基金的实

06-18