[发明专利]一种语种识别方法及装置在审
申请号: | 201510792176.X | 申请日: | 2015-11-17 |
公开(公告)号: | CN105336324A | 公开(公告)日: | 2016-02-17 |
发明(设计)人: | 李骁;李超;关勇 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 识别 方法 装置 | ||
【技术领域】
本发明涉及语音识别技术领域,尤其涉及一种语种识别方法及装置。
【背景技术】
随着互联网应用与信息技术的不断发展,出现了语音识别技术,目前语音识别技术已经广泛应用于家电、工业、医疗等许多领域,给用户的生活带来极大便利。
现有技术中,在进行语音识别之前需要先进行语种识别,用以识别出输入的语音信号是采用的哪个语种,进而能够使用该语种对应的解码器对语音信号进行进一步的语音识别。
然而,现有技术中,客户端将用户输入的语音信号分成若干语音片段后,依次将语音片段发送到服务器进行语种识别的。服务器在接收到属于同一语音信号的所有语音片段之后,才开始进行语种识别,导致现有技术中语种识别的效率比较低,使语种识别无法应用于需要快速获得识别结果的应用场景中。
【发明内容】
有鉴于此,本发明实施例提供了一种语种识别方法及装置,解决了现有技术中语种识别的效率比较低,使语种识别无法应用于需要快速获得识别结果的应用场景中的问题。
本发明实施例的一方面,提供一种语种识别方法,包括:
接收到语音信号包含的第N个语音片段之后,根据已经接收到的前N个语音片段,进行语种识别,以获得至少一个语种中每个语种的得分,N的取值为2、3、4、……;
若存在得分达到指定阈值的语种,将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
若不存在得分达到指定阈值的语种,在接收到第N+1个语音信号之后,继续根据已经接收到第N+1个语音信号,进行语种识别,直到获得与所述语音信号相匹配的语种为止。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据已经接收到的前N个语音片段,进行语种识别,以获得至少一个语种中每个语种的得分,包括:
从所述第N个语音片段提取语音特征;
根据所述语音特征,获得所述第N个语音片段的统计量;
根据所述第N个语音片段的统计量和前N-1个语音片段的第一累计统计量,获得第二累计统计量;
利用语种识别模型对所述第二累计统计量进行语种识别,以获得至少一个语种中每个语种的得分。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,从所述第N个语音片段提取语音特征之前,所述方法还包括:对所述第N个语音片段进行静音检测,以去除所述第N个语音片段中的静音信号。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述第二累计统计量包括:前N个语音片段的语音特征的权重、前N个语音片段的语音特征的均值和前N个语音片段的语音特征的方差。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述语种识别模型包括判决模型和背景模型;所述利用语种识别模型对所述第二累计统计量进行语种识别,以获得至少一个语种中每个语种的得分,包括:
利用背景模型将所述第二累计统计量转换成对应的高斯超向量;
计算判决模型中的向量与所述高斯超向量之间的空间距离,以作为所述判决模型对应的语种的得分。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
若所述语音信号包含的所有语音片段都接收到之后,不存在得分达到指定阈值的语种,将得分最高的语种作为与所述语音信号相匹配的语种。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:将与所述语音信号相匹配的语种作为语种识别结果,并输出所述语种识别结果。
本发明实施例的一方面,提供一种语种识别装置,包括:
识别模块,用于接收到语音信号包含的第N个语音片段之后,根据已经接收到的前N个语音片段,进行语种识别,以获得至少一个语种中每个语种的得分,N的取值为2、3、4、……;
判断模块,用于若存在得分达到指定阈值的语种,将得分达到指定阈值的语种作为与所述语音信号相匹配的语种。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别模块,还用于:
若不存在得分达到指定阈值的语种,在接收到第N+1个语音信号之后,继续根据已经接收到第N+1个语音信号,进行语种识别,直到获得与所述语音信号相匹配的语种为止。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述识别模块,具体用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510792176.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:利用子带对象概率估计的音频对象提取
- 下一篇:一种禅意笙