8月18日,谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎。
该公司希望这能让任何开发者为长时间对话提供字幕,减少因网络延迟、断线等问题造成的沟通障碍。
源代码现已在 GitHub 上提供。
这意味着无论您是出国旅行还是结识新朋友,Live Transcribe 都可以帮助您进行沟通。
通讯可以实时流畅(只要有互联网连接)。
谷歌于今年 2 月发布了 Live Transcribe。
该工具使用机器学习算法将音频转换为实时字幕。
与 Android 即将推出的实时字幕功能不同,实时转录是一种全屏体验,使用智能手机的麦克风(或外部麦克风)并依赖于 Google Cloud Speech API。
Live Transcribe 可以用 70 多种语言和方言实时朗读标题。
另一个主要区别是 Live Transcribe 可在 18 亿台 Android 设备上使用(当 Live Caption 在今年晚些时候推出时,它将仅在部分 Android Q 设备上可用)。
在云端工作 Google 的 Cloud Speech API 目前不支持发送无限长的音频流。
此外,依赖云意味着网络连接、数据成本和延迟方面的潜在问题。
因此,语音引擎会在超时之前关闭并重新启动流请求,包括在长时间静默期间重新启动会话,以及在检测到语音暂停时关闭。
语音引擎还在会话之间本地缓冲音频,然后在重新连接时发送它。
因此,Google 避免了句子或单词被截断,并减少了会话中丢失的文本量。
从 70 多种语言和方言中进行选择 为了降低带宽要求和成本,Google 还评估了不同的音频编解码器:FLAC、AMR-WB 和 Opus。
FLAC(无损编解码器)可保持准确性,不会保存太多数据,并且具有明显的编解码器延迟。
AMR-WB可以保存大量数据,但在噪声环境下准确性较差。
同时,Opus 允许的数据速率比大多数音乐流媒体服务低许多倍,同时仍然保留音频信号的重要细节。
谷歌还使用语音检测来在长时间静音时关闭网络连接。
总体而言,该团队能够“在不影响准确性的情况下将数据使用量减少 10 倍”。
为了比 Cloud Speech API 进一步减少延迟,Live Transcribe 使用自定义 Opus 编码器。
编码器将比特率提高到足以使“延迟在视觉上与发送未压缩的音频无法区分”。
Live Transcribe 语音引擎功能 Google 列出了语音引擎的以下功能(不包括说话人识别): 无限流媒体。
支持 70 多种语言。
可以简化网络丢失(在网络和 Wi-Fi 之间切换时)。
文本并没有丢失,只是延迟了。
强大的扩展网络损耗。
即使网络中断几个小时,也会重新连接。
当然,如果没有连接,语音识别是不可能的。
Opus、AMR-WB 和 FLAC 编码可以轻松启用和配置。
包含用于可视化 ASR 置信度、说话者 ID 等的文本格式库。
离线模型可扩展性。

内置对语音检测器的支持,可用于在长时间静音期间停止 ASR,以节省资金和数据。
内置支持说话者识别、根据说话者号码标记或着色文本。
字幕会随着对话的进展而调整。
文档指出,这些库与生产应用程序 Live Transcribe 中运行的库“几乎相同”。
谷歌已经对其进行了“广泛的现场和单元测试”,但测试本身并不是开源的。
但谷歌确实提供了一个 APK,因此开发人员可以在不构建任何代码的情况下试用该库。
站长声明
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件
举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
相关文章
-
今年10月,雷锋网报道称,谷歌光纤项目负责人克雷格巴拉特在博客中宣布辞职。 作为特别顾问继续支持 Google Fiber 项目。 昨晚(12月28日),又有外媒报道称,谷歌很可能出售其光纤业务。 作为Alphabet(谷歌母公司)负责谷歌Fiber业务的子公司,Google Access今年以来陷入了
06-17
-
据香港媒体报道,早前有报道称瑞士商品交易所耀明嘉能可(嘉能可)计划在香港和伦敦上市。 据外媒昨日报道,嘉能可近期引入中国投资公司和卡塔尔投资局主权投资基金进行洽谈,吸引1亿美元(约1亿港元)作为其伦敦上市的基本投资者。 如果成功上市,将成为规模前十的公司之一。
06-18
-
据投资界8月6日消息,情景实验室创始人吴声在《新物种爆炸吴声场景课堂》召开新闻发布会,宣布已完成1000万元A+ IDG资本投资的A轮融资。 此前,其于今年12月完成由盛景网联领投的万元A轮融资。 5月 ,吴声推出“新物种实验计划”。 该计划是由情景实验室、洛可可设计集团
06-18
-
IT 10月11日,三星宣布将发布全新旗舰处理器Exynos。 Exynos是三星首款基于5nm工艺的手机芯片。 据悉,Galaxy A72有望搭载这款处理器。 据悉,搭载三星Exynos的vivo X系列旗舰新机将于年内推出。 据报道,三星Exynos将采用三星自家的5nm LPF工艺,该工艺比Exynos使用的8nm工
06-06
-
5月9日,“之江圆桌会议”由之江实验室发起,浙江省发展基金会和杭州人工智能产业联盟联合主办。 “人工智能之争——机遇与挑战”,聚焦我国人工智能核心竞争力与国际领先水平的差距,国内算力、大模型技术等能否实现赶超和突破等,并围绕人工智能发展的协同创新、浙江实验室
06-17
-
投资社区(微信ID:pedaily)1月10日消息,据36氪报道,前百度副总裁高层创办的龙中信谊基金目前已完成首期人民币基金募集,规模2亿元人民币,将重点进行To B方向的天使阶段投资。 向海龙表示,该基金的资金来源并非自有资金,但并未透露LP的具体构成。 据悉,除一期基金外,
06-18
-
“最强VC城市”合肥又出手了。 据投资界消息,1月27日,零跑汽车宣布完成43亿B轮融资。 除国投创益、浙大九智、永华资本外,战略投资者还包括合肥政府投资平台。 据悉,零跑汽车已与合肥市签署战略合作协议,未来双方将开展更多合作。 绝无巧合。 同样在昨天,有消息称,珠海
06-18
-
据投资界消息,8月14日,唐仁深与财新产业基金、湖南资管签署合作框架协议,共同设立和管理产业投资基金。 运营唐仁申产业投资基金。 该基金采取合伙形式,总规模暂定10亿元,其中首期投资2亿元。 据悉,唐人神产业投资基金将通过合作、投资参股、并购等方式,实现在生猪生态
06-18
-
宁波永源投资基金有限公司(暂定名)招聘公告 1、公司简介 宁波市政府投资基金经市政府常务会议批准市政府并通过市财政预算安排设立宁波市各类政府投资基金一级母基金,重点支持宁波产业转型升级发展、创新创业、重大项目招商、基础设施建设宁波甬源投资基金有限公司(暂名)
06-17
-
12月21日报道,一次性内窥镜制造商广州瑞派医疗股份有限公司完成近亿元A轮融资。 本轮融资由斯道资本领投,原股东元和元典跟投。 融资资金将用于进一步巩固和拓展产品研发管线、加快自动化生产线的推进、扩大品牌的市场投入。 瑞派医疗成立于2007年,是一家专注于提供一次性
06-17
-
投资界(ID:pedaily)4月24日消息,近日,库车市库车产业投资基金合伙企业(有限合伙)成功设立投资中信建投证券投资基金行业协会完成注册。 这标志着库车市首支政府产业投资母基金、南疆首支县级政府产业投资母基金成功设立。 基金总规模为10亿元人民币,基金认购期限为20年
06-18
-
据投资界消息,威马汽车近日全资收购了北京金开宏达汽车租赁公司。 北京金凯宏达汽车租赁有限公司于12月成立,注册资本1万元,法定代表人刘利群。 公司经营范围包括汽车租赁(不含九座以上客车)、汽车零部件销售、家政劳务等。 企查查数据显示,9月26日,北京金凯宏达汽车租
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态