室内地图数据服务商Mapxus获300万美元融资,Sky Ventures领投
06-18
8月18日,谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎。
该公司希望这能让任何开发者为长时间对话提供字幕,减少因网络延迟、断线等问题造成的沟通障碍。
源代码现已在 GitHub 上提供。
这意味着无论您是出国旅行还是结识新朋友,Live Transcribe 都可以帮助您进行沟通。
通讯可以实时流畅(只要有互联网连接)。
谷歌于今年 2 月发布了 Live Transcribe。
该工具使用机器学习算法将音频转换为实时字幕。
与 Android 即将推出的实时字幕功能不同,实时转录是一种全屏体验,使用智能手机的麦克风(或外部麦克风)并依赖于 Google Cloud Speech API。
Live Transcribe 可以用 70 多种语言和方言实时朗读标题。
另一个主要区别是 Live Transcribe 可在 18 亿台 Android 设备上使用(当 Live Caption 在今年晚些时候推出时,它将仅在部分 Android Q 设备上可用)。
在云端工作 Google 的 Cloud Speech API 目前不支持发送无限长的音频流。
此外,依赖云意味着网络连接、数据成本和延迟方面的潜在问题。
因此,语音引擎会在超时之前关闭并重新启动流请求,包括在长时间静默期间重新启动会话,以及在检测到语音暂停时关闭。
语音引擎还在会话之间本地缓冲音频,然后在重新连接时发送它。
因此,Google 避免了句子或单词被截断,并减少了会话中丢失的文本量。
从 70 多种语言和方言中进行选择 为了降低带宽要求和成本,Google 还评估了不同的音频编解码器:FLAC、AMR-WB 和 Opus。
FLAC(无损编解码器)可保持准确性,不会保存太多数据,并且具有明显的编解码器延迟。
AMR-WB可以保存大量数据,但在噪声环境下准确性较差。
同时,Opus 允许的数据速率比大多数音乐流媒体服务低许多倍,同时仍然保留音频信号的重要细节。
谷歌还使用语音检测来在长时间静音时关闭网络连接。
总体而言,该团队能够“在不影响准确性的情况下将数据使用量减少 10 倍”。
为了比 Cloud Speech API 进一步减少延迟,Live Transcribe 使用自定义 Opus 编码器。
编码器将比特率提高到足以使“延迟在视觉上与发送未压缩的音频无法区分”。
Live Transcribe 语音引擎功能 Google 列出了语音引擎的以下功能(不包括说话人识别): 无限流媒体。
支持 70 多种语言。
可以简化网络丢失(在网络和 Wi-Fi 之间切换时)。
文本并没有丢失,只是延迟了。
强大的扩展网络损耗。
即使网络中断几个小时,也会重新连接。
当然,如果没有连接,语音识别是不可能的。
Opus、AMR-WB 和 FLAC 编码可以轻松启用和配置。
包含用于可视化 ASR 置信度、说话者 ID 等的文本格式库。
离线模型可扩展性。

内置对语音检测器的支持,可用于在长时间静音期间停止 ASR,以节省资金和数据。
内置支持说话者识别、根据说话者号码标记或着色文本。
字幕会随着对话的进展而调整。
文档指出,这些库与生产应用程序 Live Transcribe 中运行的库“几乎相同”。
谷歌已经对其进行了“广泛的现场和单元测试”,但测试本身并不是开源的。
但谷歌确实提供了一个 APK,因此开发人员可以在不构建任何代码的情况下试用该库。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-17
06-18
06-21
06-06
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态