[发明专利]一种领域自适应语音识别方法和装置有效

申请号：	201710232856.5	申请日：	2017-04-11
公开（公告）号：	CN107154260B	公开（公告）日：	2020-06-16
发明（设计）人：	郭祥;郭瑞;雷宇	申请（专利权）人：	北京儒博科技有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/183
代理公司：	北京卫平智业专利代理事务所(普通合伙) 11392	代理人：	张新利
地址：	101500 北京市密云区经济开发***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种领域自适应语音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种领域自适应语音识别方法和装置，该方法包括：基于初始音频语料进行训练，建立初始声学模型，以及基于初始文本语料进行训练，建立初始语言模型；进行行业领域语料搜集和处理，基于处理后的行业领域语料进行训练，建立行业领域语言模型；基于初始语言模型和行业领域语言模型进行适配计算，建立混合语言模型；基于处理后的行业领域语料进行音素聚类，根据音素聚类结果进行训练，建立聚类声学模型；对初始声学模型和聚类声学模型进行融合，建立融合声学模型；接收输入的语音信号，基于融合声学模型和混合语言模型确定语音信号对应的词语序列。

技术领域

本公开涉及语音识别领域，特别涉及一种领域自适应语音识别方法和装置。

背景技术

语音识别是实现人工智能的基础，很多机器人、物联网、移动设备都采用语音作为交互入口。由于行业的多样化以及口语的多样化，语音识别需要的行业录音和标注数据相对较为缺乏，导致语音识别系统在应用于不同领域时识别准确率很低。现有的语音识别系统通常仅适用于某个特定领域或应用场景，例如仅适用于娱乐领域，或者仅适用于一般闲聊场景。当更换领域或应用场景时，需要重新选择音频数据，并基于重新选择的音频数据重新训练语音识别模型。这样的语音识别系统通常具有以下缺点：(1)效率低下，录制音频数据所需要的时间可达到几百至上千小时，效果迭代需要时间较长；(2)成本较高，录制的音频数据需要进行人工标注，人工标注消耗资金，且工时越长成本越高；(3)效果较差，重新录制的音频数据不一定完整覆盖全部音节，导致语音识别模型的识别效果较差。

发明内容

本发明的目的是提供一种领域自适应语音识别方法，该方法能够克服现有语音识别方法应用于不同领域时效率和准确率较低的问题。

相应的，本发明实施例还提供一种领域自适应语音识别装置，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种领域自适应语音识别方法，包括：

基于初始音频语料进行训练，建立初始声学模型，以及基于初始文本语料进行训练，建立初始语言模型；

进行行业领域语料搜集和处理，基于处理后的行业领域语料进行训练，建立行业领域语言模型；

基于所述初始语言模型和所述行业领域语言模型进行适配计算，建立混合语言模型；

基于处理后的行业领域语料进行音素聚类，根据音素聚类结果进行训练，建立聚类声学模型；

对所述初始声学模型和所述聚类声学模型进行融合，建立融合声学模型；

接收输入的语音信号，基于所述融合声学模型和混合语言模型确定所述语音信号对应的词语序列。

优选地，所述初始语言模型是二元n-gram语言模型。

优选地，所述进行行业领域语料搜集和处理，基于处理后的行业领域语料进行训练，建立行业领域语言模型包括：