首页 > 科技未来 > 内容

会话转录可以实时完成吗？微软新研究进展告诉你答案

发布于：2024-06-18 编辑：匿名来源：网络

雷锋网报：对话转录能实时进行吗？并且还支持多人、远场语音转录？是的，这些新的转录功能都是微软研究院最近在口语处理方面取得的新进展。

雷锋网将文章全文整理如下。

在强大的云计算基础设施和大量训练数据的支持下，深度学习算法现已成为人工智能进化之旅中最重要的驱动力。

以下任务是语音和语言社区中广泛使用的公共基准，并且在过去三年中，微软首次在这些任务上实现了与人类相当的性能。

：语音识别：会话语音转录任务（总机）：机器翻译：汉英新闻翻译任务（WMT17）：会话问答：斯坦福会话问答任务（CoQA）这些突破对众多口语应用程序产生了深远的影响，从翻译应用程序到智能音箱的影响。

尽管市场上已经有智能音箱，但大多数智能音箱一次只能处理一个人的语音命令，并且在发出此类命令之前需要唤醒词。

微软研究院为其 Azure 语音服务添加了一些重大技术突破，新的对话转录功能将于今天推出预览版。

通过 Microsoft 引用的设备 SDK (DDK)，纯音频或视听麦克风阵列设备的可用性增强了此功能。

这是人工智能发展的重要一步，因为数十年来环境远场多人语音转录一直是科幻小说的主要内容。

新的对话转录功能扩展了微软现有的 Azure 语音服务，以支持实时、多人、远场语音转录和说话人归因。

与语音 DDK 相结合，对话转录可以有效识别房间内一小群人的对话语音，并生成处理常见但具有挑战性的场景（例如“串扰”）的转录。

对于有兴趣尝试具有视频功能的端到端转录解决方案的客户，Microsoft 正在与 Accenture、Avanade 和 Roobo 等精选客户和系统集成合作伙伴合作，分别在美国和中国定制和集成对话转录解决方案。

这种高级功能类似于微软在去年的构建中首次展示的功能。

感兴趣的企业可以向 Microsoft 请求预览，体验 AI 支持的对话转录如何提高协作和生产力。

对话转录功能能够利用多通道数据，包括来自代号为 Princeton Tower 的 Speech DDK 的音频和视频信号。

会话转录可以实时完成吗？微软新研究进展告诉你答案

边缘设备构建在 Microsoft 音频麦克风阵列或鱼眼摄像头参考设计之上，以通过视听融合支持更好的转录。

边缘设备将信号发送到 Azure 云以进行神经信号处理和语音识别。

纯音频麦克风阵列DD??K 查看Vision Keynote 的最新研究进展和演示。

[图片来源：微软研究院博客所有者：微软研究院博客] 最后，当存在缩写等专业词时，准确的音标是非常困难的。

为了解决这个问题，微软正在扩展 Azure 的自定义语音识别功能，并允许组织使用 Office 数据轻松创建自定义语音模型。

对于选择使用该服务的 Office 企业客户，Azure 可以自动生成自定义模型，以完全隔离、安全且合规的方式利用 Office 中的数据，例如联系人、电子邮件和文档。

针对特定组织的方言（例如技术术语和人员姓名）提供更准确的语音转录。

对于有兴趣尝试此新功能的客户，Microsoft 正在为您的组织提供私人预览版，使您能够从专用且优化的语音服务中受益。

【图片来源：微软研究院博客作者：微软研究院博客】微软的Azure语音服务一直支持微软自己的M解决方案以及许多使用相同统一语音平台的第三方客户。

从Allstate到小米，大家都开始使用Azure语音服务来加速自己的数字化转型。

微软可以利用NLP技术进一步增强最终的自动会议记录和Azure会话转录，例如机器翻译和QA，帮助客户实现更多目标。

雷锋网注：本文编译自微软研究院博客版权文章。

未经授权禁止转载。

详情请参阅转载说明。

站长声明

标签：

上一篇：自动驾驶公司“几何合伙人”获得近4亿元Pre-A轮融资，经纬创投、小米、百度等注资

下一篇：【全球财经24小时】2023年11月8日投融资事件汇总及详情

美媒爆料：美国三大芯片巨头CEO将前往华盛顿游说拜登放弃对华新出口限制

环球网彭博社15日援引知情人士的话称，首席执行官(美国三大芯片巨头的首席执行官）将于下周前往华盛顿与美国政府官员和议员举行会谈，游说拜登放弃对中国芯片出口实行新的限制。报道称，据知情人士透露，三大芯片巨头分别是英特尔、高通和英伟达。尽管他们并不期望阻止美国

06-06
八个月的时间，我筹集了3亿

的政府引导基金，堪称VC/PE的生死之年。随着“融资难”的持续，LP市场出现了许多鲜为人知的新变化。为此，投资界推出《解码LP》计划，密切关注募资市场的最新动态。 “3亿元的筹款不容易，我们的筹款团队花了8个月的时间，办理了相关部门的一整套手续。 ”说到这里，王娟松

06-18
紫阅汉语已完成多轮融资，月营收已突破百万元，

据投资界6月18日消息，紫阅汉语言文学首次宣布三轮融资。公司已完成数千万元Pre-A轮融资。由元璟资本领投，九合创投跟投。此前，子曰语言已完成由九合创投领投，蓝象资本、北塔资本跟投的数百万天使轮融资，以及蓝象资本、北塔资本跟投的种子轮融资。子阅汉语专注于汉语辅

06-17
Snap推出Spectacles 3摄影眼镜，未来主打AR

据雷锋网报道，2020年8月13日，Snapchat母公司Snap宣布推出第三代摄影眼镜Spectacles 3售价1美元，将于今年11月推出。发售中。与前两代产品不同的是，佩戴Spectacles 3后，用户可以使用两个摄像头进行拍摄；而且，Spectacles3采用了钢制框架，而不是之前型号笨重的塑料框架

06-18
今天，三位工程师敲响了IPO的钟声：这个隐性市场正在爆发

今天，第一只混合云股票正式诞生。投资界获悉，3月16日，北京青云科技股份有限公司（简称：青云科技）正式登陆科创板。发行价63.7元，开盘价76元，最新市值突破40亿元。青云科技的掌门人黄允松对云计算有着深深的痴迷。黄允松从南京工业大学毕业后，进入IBM工作。 2006年

06-17
主打社交，微博是红人的一张“名片”

从盛夏到初冬，2019微博红人节已安排了三期。受疫情影响，最终的重启日期显得有些紧迫和仓促。这也导致原定的红人嘉宾因为种种原因无法来到会场。不过，今年的超级红人节仍然在最后一个月内成功举办，官方也选择了“免费购票”。向外界开放的方式。微博红人节其实就是大

06-21
数字化工厂服务商“信合云”获数千万元B轮融资，投资方为北极光创投

据投资界9月10日消息，数字化工厂服务商“信合云”获数千万元B轮融资。融资方面，投资方包括北极光创投、福田资本、青蓝资本（中软国际）。本轮融资将重点用于技术研发和产品打磨。此前，新芯云于今年11月获得北极光创投A轮投资。信合云成立于2016年，为离散制造企业提供

06-17
中文短视频平台的免费优势还能保持吗？

深耕网络视频行业十多年，爱优腾终于开创了三国格局。本以为会稳定一段时间，没想到短视频后浪重磅来袭，疫情带来新机遇：芒果TV第四席争夺激烈，亏损巨大整个游戏只有一场盈利； B站、西瓜视频在长视频上的野心逐渐凸显，积极采购正版内容；就连总是另辟蹊径的快手，也不容

06-18
朗鑫科技拟参与投资规模2亿元的产业投资基金

据投资界4月3日消息，朗鑫科技公告称，公司拟担任南京的有限合伙人和普通合伙人亿达股权投资管理公司（有限合伙）等有限合伙人江苏高新技术投资集团有限公司、无锡太湖金融投资创新创业产业投资公司（有限合伙）、无锡丰润投资有限公司、上海超茶晚酒投资合伙企业（有限合伙）

06-18
安徽省拟超千亿设立汽车产业链投资基金

投资界-解码LP消息，5月28日《安徽省新能源汽车和智能网联汽车产业生态建设方案》发布，提出创新、智能制造、服务、人才、文化、资本七大生态建设，到2020年将安徽建成具有全球知名度和影响力的“智能汽车强省”。为全力保障七大生态建设，安徽省将成立汽车办公室负责推进项

06-17
“下一代搜索引擎”Vurb，为何被低价卖给Snapchat

今天凌晨，英特尔在美国旧金山举办了IDF16开发者大会。在大会上，我们再次看到了科再奇熟悉的面孔，但与以往的大会不同的是，PC在大会上所占比重越来越少，可以说是被擦肩而过，取而代之的是虚拟现实、无线人类驾驶等新兴话题和计算机视觉。科再奇对此直言不讳：英特尔的战

06-17
【招募】世界那么大，我想去看看

在现实面前，改变世界的热情往往不如一瓶汽水那么有吸引力。但你只活一次。你会如何选择？我们希望遇见什么样的你？雷锋网硅谷新闻中心招聘编辑/记者。我们希望找到那些愿意和我们一起看看世界是什么样子的人。工作方面，简单来说就是做内容，所以你必须对科技行业感兴趣

06-18