首页 > 科技动态 > 内容

解读AI手语翻译机的技术核心

发布于:2024-06-17 编辑:匿名 来源:网络

雷锋网记者:根据世界卫生组织今年3月发布的最新数据,全球超过5%的人口(约4.66亿人)患有残疾听力受损。

预计到今年这个数字将达到9亿。

同时,手语是听力障碍者常用的语言,但身体健全的人士能够正确理解手语的却很少。

5月16日,腾讯优图实验室联合深圳市信息无障碍研究会发布了“优图AI手语翻译机”。

据官方介绍,用户可以通过面对翻译机摄像头来表达手语,翻译机屏幕界面可以快速将手语转换为文本。

公开资料显示,腾讯优图实验室成立于2006年,是腾讯三大人工智能实验室之一。

去年,腾讯优图实验室升级为腾讯计算机视觉研发中心。

此外,还与国际期刊《科学》达成战略合作,共享计算机视觉领域的资源和信息。

手语识别技术已被隐藏多年。

任何技术的发展都不是一朝一夕就能实现的。

尤其是近年来,优图AI手语翻译机并不是第一个针对手语应用的产品。

在此之前,手语识别技术已经发展多年。

包括国内IT企业级科研机构都针对这项技术进行了研究,并推出了这样的成果和产品:今年7月,微软团队与中科院计算技术研究所合作,创建了通过Kinect For Windows进行手语识别软件,可以将手语动作跟踪和识别转换为正常人可以理解的内容; 2018年2月,中国科学技术大学发布手语识别论文被人工智能顶级学术会议AAAI收录;论文提出了一种新型连续手语识别框架LS-HAN,无需时间分割;根据 3 月份的一项新专利申请,Magic Leap 的头戴式设备可以识别手语和文本“感官眼镜”。

相关资料概述了利用头戴式设备检测和翻译手语的方法,并介绍了如何识别标牌和店面上的文字; 2020 年 7 月,软件开发者 Abhishek Singh 演示了一款可以理解手语手势的 MOD,让 Amazon Alexa 通过摄像头捕捉和深度学习来响应手语手势。

2020年12月,爱奇艺研发的AI手语主播在中国在线视听大会上首次亮相。

它可以识别用户的语音并将其转换为文本。

它还可以理解听力正常的人的自然语言,并将其智能地翻译成手语表达。

手语识别技术的困境与突破传统的手语识别方法通常针对特定的数据集设计合理的特征,然后利用这些特征对动作和手势进行分类。

受人工特征设计和数据量的限制,这些方法在适应性、泛化性和鲁棒性方面都非常有限。

近年来,得益于大数据和深度学习技术的不断进步,人工智能算法的发展也随之加大,特别是在计算机视觉、音频处理、自然语言处理等方面,促进了人工智能的应用算法在许多应用和场景中的应用。

实施后,研究人员开始尝试应用深度学习和数据驱动的算法来解决手语识别中的问题。

然而,与大多数计算机问题不同,手语独特的地域性、复杂性和多样性给人工智能算法带来了困难。

不仅增加了数据收集和清理的成本,也使得该技术的实施非常具有挑战性,难以在实践中应用。

目前,解决听障人士沟通问题的研究多集中在将文本转化为手语;反之,将听障人士的手语转化为文字则更加困难。

据公开资料,雷锋网获悉,腾讯优图实验室的手语识别数据集涵盖了近千个日常用语和10个常用词汇。

此外,优图AI手语翻译机可以实现整句话的识别和翻译。

用户表达时,无需设定特定的结束或开始动作,就可以连贯地表达整个句子,也无需刻意在句子中停顿或停顿。

速度慢。

优图AI手语识别技术的实现方法 据官方资料显示,优图AI手语翻译机的核心技术是与听障人士手语表达高度一致的数据集和手语识别算法。

关于AI手语翻译机的手语识别数据集、特征提取器等关键技术能力,雷锋网根据官方资料整理如下: 手语识别数据集 目前,AI手语翻译机的数据集??手语翻译涵盖近千种日常用语和常用词汇。

此外,收集的数据集还考虑了手语表达的地域性和多样性,包括不同的表达习惯和速度。

该特征提取器结合了普通2D卷积网络和3D卷积网络的优点。

它利用2D卷积网络提取手语中的手势、身体姿势等静态信息,同时利用3D卷积网络提取手语中细微的、共同的特征。

快速变换动作的动态信息,最后将两种信息结合起来生成最终的特征表达。

通过结合应用视频中的动态和静态信息,可以使用简单的RGB视频图像进行手语识别。

挖掘句子表达式中的词级信息。

该算法在视频帧和最终输出之间添加了词级信息提取单元。

词级信息提取单元利用长短期网络充分考虑特征提取器提取的信息,并结合视频中的相邻信息计算词级特征表达。

该单元使得算法能够更好地找到句子中单词表达的边界,提高总结各种区域表达的能力。

分割单个句子并充分考虑句子中上下文信息的算法会在提取词级信息的基础上充分考虑整个句子中的上下文信息,然后输出最终的识别结果。

同时,为了减少用户在使用过程中的限制,技术团队在手语识别之前添加了人脸检测和动作检测模块,通过人脸检测来确定手语表达者的位置,然后通过动作检测来判断是否是手语表达者。

用户正在表达手语。

解读AI手语翻译机的技术核心

目前,优图AI手语翻译机的AI手语识别技术虽然受限于计算机性能、语??料丰富度等因素,但随着人工智能和图像识别技术不断受到关注,目前包括旷世音响等国内独角兽公司而商汤科技,以及国内的BAT和国外的谷歌、微软、亚马逊,都投入了大量资金在这项技术的研究上。

智能语音技术带来智能音箱之后,AI视觉技术能否带来类似的热销硬件产品,此前大家更关注受众群体更大的智能摄像头。

腾讯优图此次发布的“优图”“AI手语翻译机”虽然难免有些“古怪”,但仍算得上是一次更加场景化的应用和尝试。

至于能否给特殊群体带来真正的便利,还需要通过真实应用场景中的用户反馈数据来呈现。

解读AI手语翻译机的技术核心

站长声明

版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

标签:

相关文章

  • 交出“最差”季报后,特斯拉股价暴涨700亿美元

    交出“最差”季报后,特斯拉股价暴涨700亿美元

    美国东部时间7月20日下午5点30分,特斯拉如期发布第二季度财报。 正如预期,特斯拉本季度财务业绩受二季度上海疫情影响出现波动,但总体好于市场预期。 财报发布次日,特斯拉股价大涨9.78%,创5月10日以来新高。 财报显示,第二季度特斯拉总营收为1亿美元,环比下降9.7%从上

    06-18

  • 祸不单行!苹果股价大出血,被罚11亿欧元,蒂姆·库克也会被感染吗?

    祸不单行!苹果股价大出血,被罚11亿欧元,蒂姆·库克也会被感染吗?

    疫情之下,现实显得有些神奇。 当地时间3月16日,美国股市开盘后再次出现熔断。 这是疫情发生以来美股第三次熔断,也是美股历史上第四次熔断。 与此同时,在股市整体下跌的趋势下,美国股市几大科技公司的市值也大幅蒸发。 在这些巨头中,日子最难过的恐怕就是苹果了。 先是股

    06-17

  • 他挖过煤,也卖过馒头, 33个个位数涨停后,他的公司市值仍缩水逾300亿

    他挖过煤,也卖过馒头, 33个个位数涨停后,他的公司市值仍缩水逾300亿

    市值缩水逾300亿后,暴风集团仍停牌。 冯鑫再也坐不住了,刚刚解除了誓言。 该股权尚未预热,已不间断地用于质押融资。   忆往昔,风波38个交易日中,只有1条阴线,37条阳线中,有35条收于涨停,其中33条收于涨停。 这样的神话在暴风上不断重演,以至于冯鑫可以自豪地告诉记

    06-17

  • 国家首批数字时尚领域国家标准发布,Style3D参与制定|远景家族

    国家首批数字时尚领域国家标准发布,Style3D参与制定|远景家族

    4月,国家市场监督管理总局、国家标准化管理委员会联合发布公告,Style3D参与制定在起草GB/T 9-、GB/T 1-两项数字试衣/虚拟人体、虚拟服装相关国家标准正式发布,将于2020年11月1日正式实施。 这两项标准是国家首个标准我国在服装领域发布的数字服装标准,对于数字时尚的发展

    06-18

  • 快手启动“篮球光合作用计划”,宣布50亿流量支持篮球视频创作者

    快手启动“篮球光合作用计划”,宣布50亿流量支持篮球视频创作者

    10月29日消息,在北京举办的“国民篮球生态论坛”上,快手科技创始人与CEO宿华与中国篮协主席、CBA联盟董事长姚明共同启动快手篮球光合作用项目。 快手宣布将与CBA在内容生产者激励、青少年选拔培养等多维度合作,帮助CBA在中国更广泛传播,帮助篮球运动员获得关注、信心和体

    06-18

  • 盼盼食品孵化公司“加纳食品”完成首轮融资,黑蚁资本、内向基金

    盼盼食品孵化公司“加纳食品”完成首轮融资,黑蚁资本、内向基金

    投资圈投资(ID:pedaily)2月14日消息,盼盼食品集团孵化公司福建加纳食品科技有限公司,嘉纳食品有限公司(以下简称“嘉纳食品”)已完成首轮融资,由黑蚂蚁资本领投,资金跟投。 “Gana Food”成立于今年1月,拥有椰子品牌“Coconut Beating”。 主要针对鲜茶、咖啡等品牌

    06-17

  • 极度完成近4亿美元A轮融资,2023年将推出量产车型

    极度完成近4亿美元A轮融资,2023年将推出量产车型

    投资圈(ID:pedaily)据1月26日消息,百度旗下智能汽车品牌极度宣布已完成近美国融资4亿美元A轮融资,本轮融资由百度与战略合作伙伴吉利联合增资。 融资完成后,极度将继续加速研发和量产进程。 首款汽车机器人概念车将于今年4月在北京车展发布,量产车型将于2020年推出。 今

    06-18

  • 为什么暴力美学电影如此迷人?

    为什么暴力美学电影如此迷人?

    一大波暴力题材作品来袭:近日,漫威最大电影《暗夜狼人》上线,人性与兽性交织,断肢血流飞扬。 上月底,Netflix 剧集《怪物:杰夫瑞达莫的故事》上线。 该剧根据真实事件改编,讲述了一个专门针对男性的连环杀手的恐怖故事。 《弥留之国的爱丽丝》第二季将于12月全球上线,

    06-21

  • 盲人的好消息!智能导览设备解决盲人的出行难题

    盲人的好消息!智能导览设备解决盲人的出行难题

    数字化浪潮加速了各行各业的融合发展,有效带动了技术创新和场景创新。 正在进行的“阿里巴巴众神之战山东站暨智汇谷创新创业大赛”涌现出许多优秀的创业团队和具有发展潜力的科技创新项目。 我们对优秀参会企业进行了系列报道。 本文是系列报告中的一篇。 科技改变生活,也应

    06-17

  • 激动人心的一幕:世界各地组团包机出国赚钱

    激动人心的一幕:世界各地组团包机出国赚钱

    激动人心的一幕终于到来了——连日来,随着防疫政策的优化调整,各地政府纷纷带头团队大踏步——组团包机、远赴海外抢订单。 最先引起轰动的浙江发起了“千集团千企业拓展市场抢订单行动”。 政府出面联系相关部门,帮助企业组织联系包机、合乘航班等多种出境方式,亲自出面为

    06-17

  • 软银Vision 2首次融资20亿美元

    软银Vision 2首次融资20亿美元

    投资社区(微信ID:pedaily)11月18日消息,据彭博社报道,软银集团悄然完成了第二只科技基金的初始募资,仅达到其1亿美元目标的一小部分。 两位知情人士表示,这家日本公司已为第二支愿景基金筹集了约 20 亿美元,以便开始支持初创企业。 本阶段融资为首轮融资,软银将继续融

    06-17

  • 蒋晓冬:医疗产业的关键在于人才,戴上“放大镜”寻找投资机会

    蒋晓冬:医疗产业的关键在于人才,戴上“放大镜”寻找投资机会

    近年来,医疗健康行业越来越受到VC/PE机构的青睐。 据清科数据库统计,2010年至2016年中国医疗健康行业共披露VC/PE投资案例,涉及金额总计83.99亿美元。 从年度变化趋势来看,今年以来投资案例数量和金额逐年增加。 与大多数全方位风险投资不同,NEA始终专注于医疗健康行业,

    06-17