联明股份拟以5.82亿元收购联明包装100%股权
06-18
雷锋网报:对话转录能实时进行吗?并且还支持多人、远场语音转录?是的,这些新的转录功能都是微软研究院最近在口语处理方面取得的新进展。
雷锋网将文章全文整理如下。
在强大的云计算基础设施和大量训练数据的支持下,深度学习算法现已成为人工智能进化之旅中最重要的驱动力。
以下任务是语音和语言社区中广泛使用的公共基准,并且在过去三年中,微软首次在这些任务上实现了与人类相当的性能。
: 语音识别: 会话语音转录任务(总机): 机器翻译: 汉英新闻翻译任务(WMT17): 会话问答: 斯坦福会话问答任务(CoQA) 这些突破对众多口语应用程序产生了深远的影响,从翻译应用程序到智能音箱的影响。
尽管市场上已经有智能音箱,但大多数智能音箱一次只能处理一个人的语音命令,并且在发出此类命令之前需要唤醒词。
微软研究院为其 Azure 语音服务添加了一些重大技术突破,新的对话转录功能将于今天推出预览版。
通过 Microsoft 引用的设备 SDK (DDK),纯音频或视听麦克风阵列设备的可用性增强了此功能。
这是人工智能发展的重要一步,因为数十年来环境远场多人语音转录一直是科幻小说的主要内容。
新的对话转录功能扩展了微软现有的 Azure 语音服务,以支持实时、多人、远场语音转录和说话人归因。
与语音 DDK 相结合,对话转录可以有效识别房间内一小群人的对话语音,并生成处理常见但具有挑战性的场景(例如“串扰”)的转录。
对于有兴趣尝试具有视频功能的端到端转录解决方案的客户,Microsoft 正在与 Accenture、Avanade 和 Roobo 等精选客户和系统集成合作伙伴合作,分别在美国和中国定制和集成对话转录解决方案。
这种高级功能类似于微软在去年的构建中首次展示的功能。
感兴趣的企业可以向 Microsoft 请求预览,体验 AI 支持的对话转录如何提高协作和生产力。
对话转录功能能够利用多通道数据,包括来自代号为 Princeton Tower 的 Speech DDK 的音频和视频信号。

边缘设备构建在 Microsoft 音频麦克风阵列或鱼眼摄像头参考设计之上,以通过视听融合支持更好的转录。
边缘设备将信号发送到 Azure 云以进行神经信号处理和语音识别。
纯音频麦克风阵列DD??K 查看Vision Keynote 的最新研究进展和演示。
[图片来源:微软研究院博客 所有者:微软研究院博客] 最后,当存在缩写等专业词时,准确的音标是非常困难的。
为了解决这个问题,微软正在扩展 Azure 的自定义语音识别功能,并允许组织使用 Office 数据轻松创建自定义语音模型。
对于选择使用该服务的 Office 企业客户,Azure 可以自动生成自定义模型,以完全隔离、安全且合规的方式利用 Office 中的数据,例如联系人、电子邮件和文档。
针对特定组织的方言(例如技术术语和人员姓名)提供更准确的语音转录。
对于有兴趣尝试此新功能的客户,Microsoft 正在为您的组织提供私人预览版,使您能够从专用且优化的语音服务中受益。
【图片来源:微软研究院博客 作者:微软研究院博客】微软的Azure语音服务一直支持微软自己的M解决方案以及许多使用相同统一语音平台的第三方客户。
从Allstate到小米,大家都开始使用Azure语音服务来加速自己的数字化转型。
微软可以利用NLP技术进一步增强最终的自动会议记录和Azure会话转录,例如机器翻译和QA,帮助客户实现更多目标。
雷锋网注:本文编译自微软研究院博客版权文章。
未经授权禁止转载。
详情请参阅转载说明。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件 举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。
标签:
相关文章
06-18
06-18
06-17
06-18
06-17
06-06
06-18
06-18
06-06
06-06
06-18
最新文章
Android旗舰之王的过去与未来
智能手表不被开发、AR眼镜被推迟,Meta的产品经历了一波三折
为什么Cybertruck是特斯拉史上最难造的车?
更新鸿蒙3后,文杰允许你在车里做PPT了
新起亚K3试驾体验:追求“性价比”,韩系汽车仍不想放弃
阿维塔15登场!汽车配备了增程动力,理想情况下会迎来新的对手吗?
马斯克宣布创建 ChatGPT 竞争对手! OpenAI的CEO给他泼了冷水, GPT-5可能会发生巨大变化
骁龙无处不在,是平台也是生态