[发明专利]语音到文本转换有效
申请号: | 201480026549.6 | 申请日: | 2014-05-09 |
公开(公告)号: | CN105324811B | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | D·麦克洛克;A·L·李;A·B·史密斯-基普尼斯;J·W·普鲁姆;A·戴维;M·O·黑尔;J·科尔;H·M·朗格拉克 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G06F1/16 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 顾嘉运 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 文本 转换 | ||
1.一种用于将来自环境的音频输入转换成文本的语音转换系统,包括:
操作上连接到计算设备的头戴式显示设备,所述头戴式显示设备包括:
包括透明显示器的显示系统;
用于跟踪用户的眼睛的注视的眼睛跟踪系统;
包括被刚性安置在所述头戴式显示设备上以接收音频输入的多个话筒的话筒阵列;以及
用于捕捉图像数据的一个或多个图像传感器;
由所述计算设备的处理器执行的脸部检测程序,所述脸部检测程序被配置为从所述图像数据检测一个或多个可能的脸;
由所述计算设备的处理器执行的用户聚焦程序,所述用户聚焦程序被配置为使用来自所述眼睛跟踪系统的眼睛跟踪数据来确定用户聚焦于的目标脸;以及
由所述计算设备的处理器执行的语音转换程序,所述语音转换程序被配置为:
使用应用于来自所述话筒阵列的音频输入的至少一部分的波束成形技术来标识与所述目标脸相关联的目标音频输入以供用于语音到文本转换;
将所述目标音频输入转换成文本;
在所述目标音频输入涉及环境时将经转换的文本地理定位到所述环境;以及
经由所述头戴式显示设备的所述透明显示器显示被地理定位在所述环境中的所述文本达一时间段。
2.如权利要求1所述的语音转换系统,其特征在于,所述语音转换程序被进一步配置成:
访问对应于与所述目标脸相关联的身份的语音模式数据;以及
使用所述语音模式数据来将所述目标音频输入转换成所述文本。
3.如权利要求1所述的语音转换系统,其特征在于,显示的文本被标记给对应于与所述目标脸相关联的身份的人。
4.一种用于将来自环境的音频输入转换成文本的方法,所述音频输入是在头戴式显示设备的话筒阵列处被接收到的,包括:
从所述环境中捕捉图像数据;
从所述图像数据中检测一个或多个可能的脸;
使用来自所述头戴式显示设备的眼跟踪系统的眼跟踪数据来确定用户所聚焦于的目标脸;
使用应用于来自所述话筒阵列的音频输入的至少一部分的波束成形技术来标识与所述目标脸相关联的目标音频输入以供用于语音到文本转换;
将所述目标音频输入转换成文本;
在所述目标音频输入涉及环境时将经转换的文本地理定位到所述环境;以及
经由所述头戴式显示设备的透明显示器显示被地理定位在所述环境中的所述文本达一时间段。
5.如权利要求4所述的方法,其特征在于,进一步包括:
从所述环境中接收来自一个或多个外部源的附加音频输入;以及
使用所述附加音频输入来标识所述目标音频输入。
6.如权利要求4所述的方法,其特征在于,进一步包括:
从所述图像数据中标识一个或多个手语字母和单词;
将所述字母和单词转换成符号文本;以及
通过所述头戴式显示设备的透明显示器显示所述符号文本。
7.如权利要求4所述的方法,其特征在于,进一步包括:
从所述目标脸的所述图像数据标识所述目标脸的一个或多个嘴唇和舌头的移动;
将所述移动转换成唇读文本;以及
通过所述头戴式显示设备的透明显示器显示所述唇读文本。
8.如权利要求4所述的方法,其特征在于,所述话筒阵列包括全向话筒,并且还包括:
标识在所述全向话筒中的一者或多者处接收到语音的位置;以及
使用应用于在所述全向话筒中的一者或多者处接收到的语音的波束成形技术标识与所述位置相关联的目标音频输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480026549.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:音频信号解码器中的改进的频带扩展
- 下一篇:颗粒检测系统及相关方法