[发明专利]语音到文本转换有效
申请号: | 201480026549.6 | 申请日: | 2014-05-09 |
公开(公告)号: | CN105324811B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | D·麦克洛克;A·L·李;A·B·史密斯-基普尼斯;J·W·普鲁姆;A·戴维;M·O·黑尔;J·科尔;H·M·朗格拉克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F1/16 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 顾嘉运 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 公开了涉及将来自环境的音频输入转换成文本的各实施例。例如,在一个公开的实施例中,语音转换程序接收来自头戴式显示设备的话筒阵列的音频输入。从环境中捕捉图像数据,并且从图像数据中检测一个或多个可能的脸。眼睛跟踪数据被用于确定用户聚焦于的目标脸。波束成形技术被应用于音频输入的至少一部分以标识与目标脸相关联的目标音频输入。这些目标音频输入被转换成通过头戴式显示设备的透明显示器来显示的文本。 | ||
搜索关键词: | 语音 文本 转换 | ||
【主权项】:
一种语音转换系统,包括:操作上连接到计算设备的头戴式显示设备,所述头戴式显示设备包括:包括透明显示器的显示系统;用于跟踪用户的眼睛的注视的眼睛跟踪系统;包括被刚性安置在所述头戴式显示设备上以接收音频输入的多个话筒的话筒阵列;以及用于捕捉图像数据的一个或多个图像传感器;由所述计算设备的处理器执行的脸部检测程序,所述脸部检测程序被配置为从所述图像数据检测一个或多个可能的脸;由所述计算设备的处理器执行的用户聚焦程序,所述用户聚焦程序被配置为使用来自所述眼睛跟踪系统的眼睛跟踪数据来确定用户聚焦于的目标脸;以及由所述计算设备的处理器执行的语音转换程序,所述语音转换程序被配置为使用应用于来自所述话筒阵列的音频输入的至少一部分的波束成形技术来标识与所述目标脸相关联的目标音频输入以供用于语音到文本转换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201480026549.6/,转载请声明来源钻瓜专利网。
- 上一篇:音频信号解码器中的改进的频带扩展
- 下一篇:颗粒检测系统及相关方法