首页 > 科技未来 > 内容

谷歌开源Live Transcribe语音引擎，为长时间对话提供字幕

发布于：2024-06-18 编辑：匿名来源：网络

8月18日，谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

该公司希望这能让任何开发者为长时间对话提供字幕，减少因网络延迟、断线等问题造成的沟通障碍。

源代码现已在 GitHub 上提供。

这意味着无论您是出国旅行还是结识新朋友，Live Transcribe 都可以帮助您进行沟通。

通讯可以实时流畅（只要有互联网连接）。

谷歌于今年 2 月发布了 Live Transcribe。

该工具使用机器学习算法将音频转换为实时字幕。

与 Android 即将推出的实时字幕功能不同，实时转录是一种全屏体验，使用智能手机的麦克风（或外部麦克风）并依赖于 Google Cloud Speech API。

Live Transcribe 可以用 70 多种语言和方言实时朗读标题。

另一个主要区别是 Live Transcribe 可在 18 亿台 Android 设备上使用（当 Live Caption 在今年晚些时候推出时，它将仅在部分 Android Q 设备上可用）。

在云端工作 Google 的 Cloud Speech API 目前不支持发送无限长的音频流。

此外，依赖云意味着网络连接、数据成本和延迟方面的潜在问题。

因此，语音引擎会在超时之前关闭并重新启动流请求，包括在长时间静默期间重新启动会话，以及在检测到语音暂停时关闭。

语音引擎还在会话之间本地缓冲音频，然后在重新连接时发送它。

因此，Google 避免了句子或单词被截断，并减少了会话中丢失的文本量。

从 70 多种语言和方言中进行选择为了降低带宽要求和成本，Google 还评估了不同的音频编解码器：FLAC、AMR-WB 和 Opus。

FLAC（无损编解码器）可保持准确性，不会保存太多数据，并且具有明显的编解码器延迟。

AMR-WB可以保存大量数据，但在噪声环境下准确性较差。

同时，Opus 允许的数据速率比大多数音乐流媒体服务低许多倍，同时仍然保留音频信号的重要细节。

谷歌还使用语音检测来在长时间静音时关闭网络连接。

总体而言，该团队能够“在不影响准确性的情况下将数据使用量减少 10 倍”。

为了比 Cloud Speech API 进一步减少延迟，Live Transcribe 使用自定义 Opus 编码器。

编码器将比特率提高到足以使“延迟在视觉上与发送未压缩的音频无法区分”。

Live Transcribe 语音引擎功能 Google 列出了语音引擎的以下功能（不包括说话人识别）：无限流媒体。

支持 70 多种语言。

可以简化网络丢失（在网络和 Wi-Fi 之间切换时）。

文本并没有丢失，只是延迟了。

强大的扩展网络损耗。

即使网络中断几个小时，也会重新连接。

当然，如果没有连接，语音识别是不可能的。

Opus、AMR-WB 和 FLAC 编码可以轻松启用和配置。

包含用于可视化 ASR 置信度、说话者 ID 等的文本格式库。

离线模型可扩展性。

谷歌开源Live Transcribe语音引擎，为长时间对话提供字幕

内置对语音检测器的支持，可用于在长时间静音期间停止 ASR，以节省资金和数据。

内置支持说话者识别、根据说话者号码标记或着色文本。

字幕会随着对话的进展而调整。

文档指出，这些库与生产应用程序 Live Transcribe 中运行的库“几乎相同”。

谷歌已经对其进行了“广泛的现场和单元测试”，但测试本身并不是开源的。

但谷歌确实提供了一个 APK，因此开发人员可以在不构建任何代码的情况下试用该库。

站长声明

标签：

上一篇：成立不到半年，就获得软银中国领投的超亿元A轮融资，据说这个团队在科技金融领域先后创业成功

下一篇：印尼最大电商平台Tokopedia网获得阿里领投的新一轮11亿美元融资，阿里加大力度东南亚市场

室内地图数据服务商Mapxus获300万美元融资，Sky Ventures领投

据投资界11月13日消息，香港领投风险投资基金Sky Ventures领投牵头为苹果室内地图数据格式平台之一提供服务的提供商Mapxus投资了 10,000 美元。此轮资金将用于初创公司的研发、销售、营销和运营，并将协助公司从香港扩展到新加坡、日本、台湾、泰国、马来西亚和菲律宾。 Ma

06-18
感谢今年与科技创新者同行，硬创新公开课第100期

截至12月19日，也就是今天，雷锋网旗下的技术分享沙龙——硬创新公开课正式结束。今年3月2日开始，从第一期到第二期，首先也是最重要的要感谢的就是为我们精心准备了一场技术盛宴的嘉宾。在严格看来，难以打造的开放课程源于雷锋网年中开始的实验。当时，雷锋网正全力报道

06-18
无人机购买指南来了！新推出的DJI Mini 3 Pro值得购买吗？

我站在海印桥上，看着珠江上的夕阳，突然我的脑海里浮现出一个想法：如果我有一架无人机，是不是可以换个角度，记录下这美丽的景色呢？产生这样的想法是有自然理由的。大约半个月前，我看到了大疆无人机Mini 3 Pro的信息。尺寸如手掌大，画质超越上一代。作为一个飞翔的小

06-21
黄炎详解鼎晖创投新格局

今年5月广为人知的王功权“私奔”事件终于落下帷幕，鼎晖创投的工作重回正轨。尽管王功权本人以及卷入这起事件的鼎晖创投已经成为圈内外的热门话题，但对于鼎晖创投来说，此事已经尘埃落定，也标志着一个新时代的开始。近日，在鼎晖投资办公室，鼎晖投资合伙人黄炎接受了清

06-17
京东“跑鸡”猖獗，是在试探“生鲜电商”更大的未来吗？

5月25日，刘强东发布了“京东跑鸡”扶贫项目介绍，该项目将为贫困农民提供贷款。每户饲养100只脚上装有计步器的鸡，全部散养。一旦达到100万步，京东将以当地价格三倍的价格收购。事实上，京东此前已向北京、上海、广州销售两期跑鸡。刘强东也不遗余力地造势。他十多天前

06-18
【融资24小时】2022年7月15日

2020年7月15日投融资事件摘要及明细。今日国内市场共发生投资披露事件32起，其中医疗健康行业7起（诺宇制药、微创脑科学、中博瑞康、百曲）生物科技、麦迪科、指数臻生物、华科润生物），汽车交通案例5个（哪吒汽车、一鼎丰、聚维保、世纪宇南、长兴智家），先进制造案例4个

06-18
为什么只有iQOO使用“作弊”的游戏插帧算法？

这个世界上能抵挡游戏魅力的人大概不多。在多巴胺的刺激下，幸福来得如此之快。 “笑着玩游戏”这句名言是对的。不能让玩家知道怎么做。让你微笑的游戏可能根本不值得玩。当然，影响玩家在游戏过程中心情的因素有很多，比如游戏难度、画面质量、流畅度等等，我最看重的是

06-21
中国“互联网+”峰会将于6月16日召开，四大亮点值得关注

由腾讯主办的中国“互联网+”峰会将于6月16日在北京隆重举行。届时，除了多位在“互联网+”领域具有丰富实践经验的政府嘉宾和学术精英，腾讯董事长兼首席执行官马化腾、京东集团首席执行官刘强东、美团点评首席执行官王兴、58集团首席执行官姚劲波、滴滴出行、携程网高管、艺

06-17
新一代94GHz高频高性能超距毫米波雷达发布

新华网?2月7日，《支撑智慧交通——‘中国芯’新一代高频高频雷达高性能超距毫米波雷达新技术新成果“新闻发布会”在北京召开河北交通投资集团公司联合发布新一代高频高性能超距毫米波雷达。据介绍，由北京理工大学、中国公路学会科技成果转化中心联合发布的新一代高频高性

06-06
辛米尔视觉获Atom Ventures数千万天使轮融资

据投资界（ID：pedaily）8月3日消息，国内唯一一家国际领先的“工业AI事件摄像机开发商”辛米尔视觉整合软硬件，近期已完成原子创投数千万天使轮融资。独创并自主研发了一整套芯片架构和核心算子。端到端响应时延小于50ms，识别准确率高达99.9%，易于快速部署。极大提升了

06-17
美食社区电商“十荟团”获得1亿元投资，真格基金、启明创投等机构投资

美食社区电商“食灰团”获得1亿元投资，真格基金、启明创投等机构投资。据投资界8月21日消息，近日，在华北、华东地区快速成长的社区团购公司“惠团”获得1亿元投资。投资方包括国际知名创投机构真格基金、启明创投、愉悦资本，以及精品社交电商公司又好食。　　食荟团专注

06-18
字节游戏：4年突飞猛进，发生了翻天覆地的变化

曾经寄予厚望的字节游戏踩刹车了。 11月27日，字节跳动透露，其游戏业务将进行大规模业务收缩。对于已经上线且表现良好的游戏，在保证运营的同时寻求剥离；对于尚未上线的游戏，除少数创新项目和相关技术项目外，所有项目都将被关闭。对于上述变化，字节跳动向Tech星球回应

06-18