[发明专利]一种领域词的语音识别增强方法和装置有效

申请号：	201811424174.5	申请日：	2018-11-27
公开（公告）号：	CN109377985B	公开（公告）日：	2022-03-18
发明（设计）人：	张明;关磊;王东;刘荣	申请（专利权）人：	北京分音塔科技有限公司;清华大学
主分类号：	G10L15/10	分类号：	G10L15/10;G10L15/06;G10L15/197;G10L15/26
代理公司：	北京细软智谷知识产权代理有限责任公司 11471	代理人：	韩国强
地址：	100089 北京市海淀区成***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种领域语音识别增强方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种领域词的语音识别增强方法和装置，所述方法包括：通过收集的文本语料数据，训练生成第一语言模型；将所述第一语言模型转换为第一解码图；获取所述领域词与所述文本语料数据的相似度；通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；利用所述第二解码图对用户输入的语音进行语音识别处理。本发明所述的方法处理过程简单，通过对领域词权重增强和扩展，提高了对未出现的领域词和信息较少领域词在语音识别中的识别准确率，有利于提高用户体验，也有利于语音识别在更多领域的应用。

技术领域

本发明涉及语音识别技术领域，具体涉及一种领域词的语音识别增强方法和装置。

背景技术

近年来，随着大规模连续语音识别技术的发展，语音识别技术被运用在越来越多的应用场景上。随着应用场景的增多，用户对语音识别系统在不同领域上的领域词识别准确率要求越来越高。

现有技术中存在对领域词识别增强的方法，现有增强方法主要是采用基于类别的语言模型来解决领域词识别的问题，即将领域词预先划入不同的类别，比如可以将领域词划为歌名类、电器类、食品类等等，通过类别替换获取该类别内的领域语料，并训练得到类别语言模型，从而实现对领域词的识别。然而这种方法需要提前确定领域词的类别，处理过程较复杂，且对于那些不属于任一类别的领域词无法建模，无法进行识别，大大影响了用户体验。

发明内容

有鉴于此，本发明的目的在于克服现有技术的不足，提供一种领域词的语音识别增强方法和装置。

为实现以上目的，本发明采用如下技术方案：一种领域词的语音识别增强方法，包括：

通过收集的文本语料数据，训练生成第一语言模型；

将所述第一语言模型转换为第一解码图；

获取所述领域词与所述文本语料数据的相似度；

通过所述第一解码图和所述相似度，计算出与所述领域词相对应的第二语言模型；

根据所述第二语言模块对所述第一解码图进行扩展，得到包含所述领域词信息的第二解码图；

利用所述第二解码图对用户输入的语音进行语音识别处理。

可选的，所述通过收集的文本语料数据，训练生成第一语言模型，包括：

对所述文本语料数据进行清洗，过滤掉特殊字符；

将清洗后得到的数据进行分词处理；