[发明专利]一种语音识别方法、装置和计算机设备在审
申请号: | 202110815555.1 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113823265A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 胡鹏飞;麻国栋;黄申 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 李汉亮 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 计算机 设备 | ||
本申请实施例公开了一种语音识别方法、装置和计算机设备;本申请实施例可以获取目标语言下语音数据的至少一个语音特征帧;分别对至少一个语音特征帧进行音素对齐,得到语音数据在目标语言中的目标音素集合;分别对至少一个语音特征帧进行词单元对齐,得到语音数据在目标语言中的目标词集合,其中,目标词集合包括每个语音特征帧对应的词单元;分别对至少一个语音特征帧进行文本映射,得到语音数据在目标语言中的初始语音识别文本;根据目标音素集合和目标词集合,对初始语音识别文本进行调整,得到并输出语音数据的语音识别文本,从而提高语音识别的准确率。
技术领域
本申请涉及计算机技术领域,具体涉及一种语音识别方法、装置和计算机设备。
背景技术
近些年来,随着信息科学技术的迅猛发展,语音识别技术也得到了快速的发展,并渐渐地改变我们的生活和工作方式。例如,声控语音拨号系统、声控智能玩具和智能家电等产品等等可以使得人机交流变得简便易行。
但是,目前存在着各种各样且千差万别的语言,例如,汉语、英语、俄语和阿拉伯语等等都属于不同的语言,且每种语言都具有自身的特征。譬如,有的语言存在语音弱化的现象。而在现有的语音识别系统中,一般是利用多发音词典对此类现象进行建模,但在建模的过程中无法将语音弱化的现象穷举完。若利用现有的语音识别系统对存在语音弱化现象的语音进行识别,将降低语音识别的准确性。
发明内容
本申请实施例提出了一种语音识别方法、装置和计算机设备,可以提高语音识别的准确性。
本申请实施例提供了一种语音识别方法,包括:
获取目标语言下语音数据的至少一个语音特征帧;
对所述至少一个语音特征帧进行音素对齐,得到所述语音数据在所述目标语言中的目标音素集合;
对所述至少一个语音特征帧进行词单元对齐,得到所述语音数据在所述目标语言中的目标词集合,其中,所述目标词集合包括每个语音特征帧对应的词单元;
对所述至少一个语音特征帧进行文本映射,得到所述语音数据在目标语言中的初始语音识别文本;
根据所述目标音素集合和所述目标词集合,对所述初始语音识别文本进行调整,得到并输出所述语音数据的语音识别文本。
相应的,本申请实施例还提供了一种语音识别装置,包括:
获取单元,用于获取目标语言下语音数据的至少一个语音特征帧;
音素对齐单元,用于对所述至少一个语音特征帧进行音素对齐,得到所述语音数据在所述目标语言中的目标音素集合;
词单元对齐单元,用对所述至少一个语音特征帧进行词单元对齐,得到所述语音数据在所述目标语言中的目标词集合,其中,所述目标词集合包括每个语音特征帧对应的词单元;
文本映射单元,用于对所述至少一个语音特征帧进行文本映射,得到所述语音数据在目标语言中的初始语音识别文本;
调整单元,用于根据所述目标音素集合和所述目标词集合,对所述初始语音识别文本进行调整,得到并输出所述语音数据的语音识别文本。
在一实施例中,所述音素对齐单元,包括:
路径搜索子单元,用于在预设音素搜索空间中将每个语音特征帧进行路径搜索,得到至少一个音素搜索路径;
计算子单元,用于计算所述语音特征帧在每个音素搜索路径上的累积概率;
确定子单元,用于根据所述累积概率确定所述语音数据的目标音素集合。
在一实施例中,所述路径搜索子单元,包括:
特征增强模块,用于将所述语音特征帧在音素粒度下进行特征增强,得到所述语音特征帧的音素特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110815555.1/2.html,转载请声明来源钻瓜专利网。