首页 > 科技未来 > 内容

搜狗同声传译3.0:引入视觉能力+知识图谱,打造语境引擎

发布于:2024-06-18 编辑:匿名 来源:网络

李世石与AlphGO的“人机大战”已经过去三年了。

似乎没有人再怀疑“下棋”人类确实输给了人工智能。

人类与人工智能的下一场战斗将在哪里?同声传译(同声传译)将很可能是下一个具有挑战性的应用场景。

12月21日,基于上下文引擎的搜狗同声传译3.0以多模态和自主学习为核心,加入视觉和思维能力。

这是AI同声传译在加入视觉AI、知识图谱等能力后的又一次进化。

从人上机:困于行业知识的AI同声传译解决定制化问题多模态同声传译,顾名思义,聚合多种交互形式,实现同声传译能力。

搜狗同声传译3.0:引入视觉能力+知识图谱,打造语境引擎

据雷锋网了解,搜狗已经在多模态领域进行了探索和应用,包括之前在AI合成主播上的应用,结合了语音、唇语、面部表情等交互形式。

最终AI合成主播参与了2019年的两会报道,甚至还出国与阿布扎比媒体集团合作,推出全球首个阿拉伯语AI合成主播。

搜狗去年12月发布的搜狗同声传译3.0,在基本语音交互能力的基础上,还增加了文字和图像两种交互能力。

通过在嘉宾PPT中融入演讲相关内容,语音识别准确率进一步提升21.7%。

翻译准确率提升40.3%。

搜狗为何在历经两代迭代后,将图像识别能力引入同声传译系统中?这要从搜狗前两代同声传译系统以及支持数千场会议同声传译的惨痛经历说起。

2017年,搜狗在“第三届乌镇互联网大会”上发布了业界首款商用人工智能同传产品——搜狗同声传译1.0。

这是搜狗第一代同声传译产品,也是搜狗进军同声传译领域的首次商业尝试。

“在1.0阶段,我们提供通用同声传译能力,实际应用中遇到的最大问题是:每个演讲者演讲时的背景信息和语义信息都是不同的。

也许今天我们需要支持医学会议,我们需要支持明天的航空会议,我们很难获得此类专业会议的‘语义词’。

”回顾最初的搜狗同声传译1.0,搜狗AI交互技术部总经理陈伟认为,当时在实际应用中遇到的最大问题。

问题在于各个专业领域的“语义词”很难获取,这也影响了该产品初步识别和翻译的准确性。

如何获取这些专业的“语义词”来训练专用模型并改进通用版本1.0?这是搜狗同声传译研发团队当时迭代版本时考虑的主要问题,也是搜狗同声传译2.0最终试图解决的问题。

这也引发了2018年发布的搜狗同声传译2.0的几项重要能力的升级:通过行业深度定制和专属模型训练(如提前上传语音脚本或给出关键词汇进行训练),输出行业解决方案。

“迭代到2.0版本后,我们通常会聘请很多人来优化演讲者的内容,但我们往往很难拿到演讲稿,所以只能在网上查找与此人相关的背景知识。

过去我们谈到“2.0版本虽然考虑到了专业内容的优化,但在会前很难获取到实际演讲者的演讲内容,因此无法利用这些专业内容进行定制。

模型优化。

事实上,在这样的升级迭代过程中,搜狗同声传译的通用能力从2018年的搜狗同声传译1.0到2018年的搜狗同声传译2.0都有了显着的提升。

嘉宾演讲中,PPT内容的识别和翻译还有很大的提升空间。

“肯定还有改进的空间。

”因此,搜狗还在继续优化其个性化能力,也就是搜狗同声传译的定制能力。

“我们希望让机器能够自我定制。

”一个很好的背景。

”这一能力最终在搜狗同声传译3.0中得以实现。

搜狗同声传译3.0:引入视觉能力、知识图谱,构建语境引擎。

12月21日,基于上下文引擎的搜狗同声传译3.0以多模态和自主学习为核心,加入视觉和思维能力。

这是AI同声传译3.0。

据称,在加入了视觉AI、知识图谱等能力后,它再次进化。

陈薇介绍,搜狗同声传译3.0相比上一代产品主要有三点改进:一是从感知角度,获取的信息由之前的单模态信息变成了现在,并引入了视觉能力能够获取多模态信息。

其次,从认知角度来看,演讲者的PPT内容是通过OCR识别或者视觉能力获得的。

借助上下文引擎,提取出这些专业知识的核心,并通过知识图谱对内容进行分析。

进一步扩展,形成整个说话人的相关上下文信息,并与演讲内容关联起来;第三,我们获得个性化信息后,进行实时语音识别、机器翻译,生成个性化实时定制引擎。

在搜狗同声传译3.0系统的整个工作过程中,专门增加了视觉能力并引入了语境引擎,这也成为解决上述具体化、个性化同声传译需求的关键。

“上下文引擎能够真正理解和推理PPT内容。

”陈薇指出了搜狗同声传译3.0的核心能力。

搜狗同声传译3.0的具体技术框图如下图所示: 从搜狗同声传译3.0的技术框图可以看出,上下文引擎主要由“PPT文本理解”和“搜狗知识”两部分组成图形”。

上下文引擎的整个工作流程可以具体理解为:在会议现场,通过OCR(比如笔记本播放PPT),将演讲者PPT的全部内容转换为文本信息,以及与作者相关的个性化内容。

字段是从此文本信息中提取的。

和知识;基于这些知识,结合搜狗之前基于搜狗百科构建的知识图谱,扩展了一些知识,将语音识别的内容融入到语料训练模型中,形成了搜狗同声传译3.0的识别和翻译模型。

其中,搜狗还在同声传译系统中加入了识别翻译协作模块,优化翻译模型的输入文本。

在两次迭代中,这个模块的作用从最初最基础的标点、分句逐渐升级为完整的标点、分句、文本流畅、语义单元三大能力。

在这个过程中,搜狗的机器翻译模块也从1.0系统的RNN模型和2.0系统的Transformer模型升级到3.0多模态翻译系统。

3.0系统基于Transformer模型,结合了搜狗百科知识图谱和翻译历史。

集成到翻译系统中并实现流式解码。

根据搜狗官方公布的信息,通过构建语境引擎升级后的搜狗同声传译3.0系统实测数据如下图所示:搜狗百度百科知识图谱,上下文引擎搭建,计算是否正确,对功耗和硬件有什么特殊要求吗?陈伟解释,现场做PPT内容识别时,可以直接通过截图(本地播放PPT)或者笔记本电脑上的摄像头来完成。

语音训练用NVIDIA常规的P40或者V来完成,训练推理没有额外的负担。

人工智能同声传译仍难以取代人类同声传译。

多模态已成趋势,搜狗同声传译3.0引入视觉能力、加入知识图谱。

它能完全替代人类同声传译吗?据搜狗在发布会上发布的官方信息:在实际评测中,搜狗同声传译3.0的评测分数为3.82分,手动同声传译的评测分数为4.08分。

显然,目前来看,人工智能同声传译还不能完全取代人类同声传译。

对此,陈薇还指出,机器的感知能力越来越强,因为机器不断学习(搜狗输入法的语音识别总次数每天超过8亿次)。

但机器和人类之间最大的差距是翻译。

就翻译的“信、达、雅”而言,机器在某些场景下几乎可以做到“信”“达”,而人类却可以做到“雅”。

就翻译而言,人工智能同声传译面临着直译的问题。

例如,讲笑话时,它能否理解说话者的意思并进行翻译?当谈论一句谚语时,它能被理解吗?人类和机器最大的差距仍然是语言理解能力。

所以搜狗一直在做语言AI,我们想把重点回归到语言本身。

回到语言本身,传感器的种类越来越多,设备可以收集的数据和数据类型也越来越多。

也就是说,越来越多的多模态数据逐渐可用。

当多模态数据有了之后,相关的模型和算法逐渐开始引起业界的关注。

“但大家一开始还是把多模态想得太简单了。

实现多模态的过程并不是简单地将模态融合在一起。

从我们多年来的认识来看,这是一个相当复杂的过程。

”在谈到搜狗在多模态语音的技术发展时,陈薇表示:“我们是第一个倡导多模态技术的公司,这次搜狗同声传译3.0也是从语音跨越到多模态,通过融入我们的理解当知识和言语融入这种多模态时,我们的同声传译员将开始具备一定的认知能力。

“我们公司的最终目标是成为一名 VPA。

即软件形式的AI助手可以基于硬件,也可以放在搜狗输入法和搜狗搜索引擎上。

搜狗VPA的形式是任务导向的,中间你会看到一个对话导向的图像。

在这个场景中,我认为搜狗同声传译是VPA的一种形式。

它是具有同声传译功能的 VPA。

它可以同时与人互动。

搜狗同声传译3.0:引入视觉能力+知识图谱,打造语境引擎

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 华尔街遭遇中国企业IPO估值问题,发展越快越难估值

    华尔街遭遇中国企业IPO估值问题,发展越快越难估值

    路透社发表分析文章称,中国企业发展迅速,但上市规模不大,市场对这些企业的IPO估值差异较大。 华尔街主要银行在估值方面也面临困难。   以下为文章内容:   华尔街公司有兴趣担任在美上市的中国公司的承销商,但他们必须找到对中国公司进行准确估值的方法。   估值存

    06-18

  • 【35岁以下最有前途的创投明星】戈壁创投王国栋:选择VC职业就是选择一种人生信念和态度,投资职业就是一个和自己赛跑的过程

    【35岁以下最有前途的创投明星】戈壁创投王国栋:选择VC职业就是选择一种人生信念和态度,投资职业就是一个和自己赛跑的过程

    【编者按】 2008年,沈南鹏离开携程,加入刚刚进入中国的红杉资本。 熊晓鸽带领IDG完成了初步的互联网投资布局。 许鑫离开霸菱投资,创立今日资本……  十年后,继承衣钵的新一代80后投资人开始逐渐大展身手。 他们有的创办了自己的基金,有的成为机构的骨干。 在投资行业,

    06-18

  • 东方精选首笔投资农产品上游企业:1752万元扩建河南焦作自营产品工厂

    东方精选首笔投资农产品上游企业:1752万元扩建河南焦作自营产品工厂

    投资圈(ID:pedaily)据1月31日消息,东方精选今日宣布,东方精选投资1万元自营烤肠工厂扩建位于河南焦作,占地面积14000平方米。 这也是继数月前东方精选宣布加大农业投资力度后,首个农产品产业链具体投资案例。 东方精选表示,已与东方精选自营香肠生产商签署协议,双方拟

    06-18

  • 标准机器人完成数亿元C轮融资,由小米产业投资

    标准机器人完成数亿元C轮融资,由小米产业投资

    投资圈领投(ID:pedaily)3月9日消息,标准机器人近日完成C轮融资。 本轮融资金额数亿元,由小米产业投资领投,中信建投跟投。 本次融资将进一步巩固Stander作为工业移动机器人领先企业的影响力。 标准机器人成立于2006年,应用全球领先的无人驾驶、机器人和人工智能技术,打

    06-18

  • 海昌控股上市 欧力士投资和弘毅投资获得退出

    海昌控股上市 欧力士投资和弘毅投资获得退出

    海昌控股于2019年3月13日在香港主板上市,欧力士投资、弘毅投资退出。 海昌控股股份有限公司成立于2007年,是主题公园及配套商业物业的开发商和运营商。 海昌控股有限公司主题公园可通过园内游乐项目及主题公园周边配套商业物业提供的配套服务,提供综合性的海洋主题公园、休

    06-18

  • 2030年光伏装机预计将达到140-200GW!德国新政府出台支持光伏发电政策!

    2030年光伏装机预计将达到140-200GW!德国新政府出台支持光伏发电政策!

    罗伯特哈贝克自 12 月起领导新成立的联邦经济事务和气候保护部 (BMWK)。 周二,这位绿党政客公布了他的“气候保护资产负债表”,并制定了未来几个月的计划。 他在新闻发布会上表示:“我们一开始就存在严重赤字。 此前各部门的气候保护措施都不够充分,可以预见,2019年和202

    06-08

  • 康瑞创业基金已完成工商注册,总规模5500万元

    康瑞创业基金已完成工商注册,总规模5500万元

    据投资界(ID:pedaily)8月5日消息,康瑞创业基金已完成工商注册数日前,由上市公司方生药业投资设立,认缴出资额为2万元,占总规模的43.64%。 截至目前,康瑞创业基金尚未开展任何投资活动,也无具体投资计划。 据了解,今年7月17日,方盛药业召开第五届??董事会第八次临时

    06-17

  • 丰凯医疗完成B轮融资,致力于为患者严重心脏病提供负担得起的解决方案

    丰凯医疗完成B轮融资,致力于为患者严重心脏病提供负担得起的解决方案

    据投资界(ID:pedaily)9月30日消息,近日,位于上海张江国际医疗中心的微创医疗中心循环辅助设备平台公司 Park 丰凯 Medical 完成 B 轮融资。 本轮融资由君联资本领投,辰德资本、赛富基金、程创资本、凯风创投等跟投。 老股东礼来亚洲基金、开泰投资持续增资。 点石资本担

    06-18

  • 三大LED厂商发布最新财报!其中两家半年净利润已超过2020年全年

    三大LED厂商发布最新财报!其中两家半年净利润已超过2020年全年

    近期,国内企业开始披露半年报,海外企业也纷纷披露业绩。 各家公司的业绩表现可圈可点,释放出市场环境向好的积极消息。 信号方面,以三大厂商首尔半导体、首尔伟傲世、amsOSRAM为例。 首尔半导体 8月5日,首尔半导体发布了第二季度和上半年财务报告。 其中,第二季度营收创

    06-08

  • 清科Fund of Fund再获国际大奖,成为唯一上榜的Fund of Funds管理机构

    清科Fund of Fund再获国际大奖,成为唯一上榜的Fund of Funds管理机构

    近日,国际权威媒体《财资》(The ASSET)“年度3A投资机构、ETF供应商及资产管理”奖项评选结果揭晓,清科母基金(清科母基金)凭借长期的行业渗透力和出色的表现,荣获“中国内地最佳资产管理机构——年度私募股权投资母基金”奖项。 也是唯一入围3A奖项榜单的母基金管理公

    06-17

  • 看谷歌和OpenAI如何联合发布五项AI法则打霍金脸

    看谷歌和OpenAI如何联合发布五项AI法则打霍金脸

    近日,谷歌和OpenAI的博客宣布了一项由谷歌、OpenAI、伯克利和斯坦福的学者联合进行的研究,其目的是为AI提供有效的行为约束,使其不会有意无意地做出危害人类的事情。 阿西莫夫的律法已经成为过去。 人工智能的担忧和局限性甚至在人工智能概念诞生之前就已经存在。 在那个人

    06-18

  • 云鲸智智能再获C轮融资,由红杉资本中国基金领投

    云鲸智智能再获C轮融资,由红杉资本中国基金领投

    据投资界6月22日消息,清洁机器人公司云鲸智智能再获C轮融资,由红杉资本中国基金领投,源码Capital、高瓴创投和字节跳动也参与了投资,Momentum Capital将继续担任独家投资者。 耀明智智能成立于2006年,是一家清洁机器人领域的创新型公司。 耀明智智能是一家立足于清洁机器

    06-17