[发明专利]利用话音识别器反馈来进行语音活动检测有效
申请号: | 201210044558.0 | 申请日: | 2012-02-24 |
公开(公告)号: | CN102708855B | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | A·J·K·泰姆白瑞德南;朱卫武;F·T·B·西德 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L15/22 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 高见 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 话音 识别 反馈 进行 语音 活动 检测 | ||
1.一种用于语音活动检测的方法,包括:
通过语音活动检测模块将媒体文件的多个帧分类为一个或多个话音帧和一个或多个非话音帧(402);
从话音识别器接收与所述一个或多个话音帧和所述一个或多个非话音帧相关联的反馈(406),所述反馈包括对所述分类的准确度的确定;以及
将所述反馈用于更新将被用于所述媒体文件中尚待处理的多个帧的语音活动检测的模型(408),其中所述语音活动检测模块和所述话音识别器模块异步地处理所述媒体文件。
2.如权利要求1所述的方法,其特征在于,还包括在接收到所述反馈之前分类所述多个帧的附加帧。
3.如权利要求1所述的方法,其特征在于,所述反馈包括文本转录本,所述文本转录本表示所述一个或多个话音帧的内容,并且所述文本转录本是至少部分地基于所述分类的准确度来进行置信度计分的,所述经置信度计分的文本转录本包括媒体文件中超过预定可靠性阈值的词语或短语。
4.一种用于语音活动检测的方法,包括:
访问与媒体文件的一个或多个帧相对应的语音活动判定(502);
生成与语音活动判定相关联的反馈(504),所述与语音活动判定相关联的反馈表示所述语音活动判定的相对准确度;以及
使得能使用所述反馈来指导对所述媒体文件的一个或多个后继帧的语音活动检测,
其中:
所述语音活动检测是由语音活动检测模块生成的;
所述反馈是由话音识别器生成的;并且
所述语音活动检测模块和所述话音识别器异步地处理所述媒体文件,以使得所述语音活动检测模块在所述话音识别器之前处理所述一个或多个帧的每一个。
5.如权利要求4所述的方法,其特征在于,还包括对与所述媒体文件相对应的转录本进行置信度计分,以使得所述转录本中超过预定阈值的词语或短语被视为是确信的。
6.如权利要求4所述的方法,其特征在于,所述反馈被利用来更新与所述语音活动检测模块相关联的、用于语音活动检测的模型。
7.一种用于语音活动检测的系统,包括:
一个或多个处理器(302);
通信地耦合至所述一个或多个处理器(302)的存储器(308),其用于存储:
语音活动检测模块(102),其被配置成:
向媒体文件的第一帧指派表示所述第一帧包括话音的可能性的概率;
至少部分地基于帧窗口内的一个或多个帧来更新所述第一帧的所述概率;
向所述帧窗口内的第二帧指派一概率,所述指派给第二帧的概率表示所述第二帧包括话音的可能性;以及
至少部分地基于所述第二帧的概率来更新所述第一帧的概率。
8.如权利要求7所述的系统,其特征在于,所述语音活动检测模块还被配置成延迟与所述第一帧相关联的语音活动检测判定,直至所述第一帧的概率被更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210044558.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:改进的设备位置检测
- 下一篇:使用持久导标的可滚动列表导航