[发明专利]一种语种识别方法及识别系统有效
申请号: | 201910708975.2 | 申请日: | 2019-08-01 |
公开(公告)号: | CN110517663B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 张劲松;于嘉威;解焱陆 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06;G10L15/16 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 识别 方法 系统 | ||
本发明提供一种语种识别方法及识别系统,能够提高语种识别系统的性能。所述方法包括:将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。本发明涉及语音识别技术领域。
技术领域
本发明涉及语音识别技术领域,特别是指一种语种识别方法及识别系统。
背景技术
语种识别是指利用计算机自动辨别或者确认语音片段所属语言种类的过程。一个有效的语种识别系统可以被广泛的应用于多语言的语音识别系统和自动翻译系统的前端之中。可以用来区分语种的特征有很多,包括:声学特征、韵律特征、音位结构特征、词法形态、句法特征等。
现有的语种识别方法根据使用的特征不同可以分为两类:①基于频谱的语种识别方法。②基于标识(token)的语种识别方法。基于频谱的语种识别方法利用的是不同语种的频谱特征在声学空间中分布的差异。目前最先进的语种识别模型,比如:全变量因子(i-vector)和x-vector方法,其中,x-vector系统包含一个前向深度神经网络,该神经网络将变长的语音段映射到一个定长的嵌入层,从该嵌入层中提取出的特征向量就称为x-vector,i-vector和x-vector方法都是将声学频谱参数投射到语种相关的高维空间,然后识别语种。基于标识的语种识别方法通常使用音位结构学(phonotactic)的信息,这种信息是用来描述一个语言中的音素是如何排列、组合的。应用这种方法的一个著名的例子就是音素识别器结合语言模型方法,这种方法首先通过音素识别器将语音信号转换为音素序列,然后根据音素序列提取N元统计量(N-gram)作为特征,最后根据这些统计特征建立每个语种的语言模型,通过语言模型为每条测试语音生成一个语种相关的可能性分数,依此来识别语种。
相比于基于标识的语种识别方法,基于频谱的语种识别方法建模时间信息的能力较弱。而基于标识的语种识别方法不能像基于频谱的语种识别方法那样利用语种之间不同的声学特征分布。同时语种识别系统的性能高度依赖于标识识别器的准确率,而要训练好这样的标识识别系统,需要足够多的有标记的数据和完备发音字典,但这对于语种识别任务中的低资源语种而言十分困难。
鉴于此,发音属性特征(Articulatory features,AFs)被引入到语种识别任务中。发音属性特征表示的是发声器官在发某个特定的音素时所引发的声道的变化。不同的发音属性的组合可以表示不同的音素。这意味着相比于音素特征,发音属性特征的颗粒度更小,在语种之间是更加通用的,因此其跨语言建模的能力也更强。所以当同样使用单一或者多个语种来识别音素和发音属性时,发音属性的识别准确率会更高,从而语种识别系统的性能也会表现更好。除此之外,基于发音属性特征的语种识别方法,在提取到发音属性特征后,后端多数采用基于N-gram的语言模型来建模不同语种的音位结构信息,但该方法的缺点是,后端的语言模型会遭遇数据稀疏的问题,即N-gram的数量会随着想要捕捉更多的音位结构上下文信息而增加标识序列的长度,从而使语种识别系统的性能下降。
发明内容
本发明要解决的技术问题是提供一种语种识别方法及识别系统,以解决现有技术所存在的语种识别系统的后端采用基于N-gram的语言模型来建模不同语种的音位结构信息,导致语种识别系统性能下降的问题。
为解决上述技术问题,本发明实施例提供一种语种识别方法,包括:
将每帧语音信号转换成发音属性特征;
利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910708975.2/2.html,转载请声明来源钻瓜专利网。