[发明专利]一种基于过采样技术的方言语音识别系统在审
申请号: | 202010110300.0 | 申请日: | 2020-02-21 |
公开(公告)号: | CN111312211A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 张岚;陈湘涛 | 申请(专利权)人: | 湖南大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/06;G10L15/16;G10L15/183;G10L15/22;G10L15/26;G10L15/30 |
代理公司: | 上海思牛达专利代理事务所(特殊普通合伙) 31355 | 代理人: | 丁剑 |
地址: | 410082 湖南省长沙市*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 采样 技术 方言 语音 识别 系统 | ||
本发明公开了一种基于过采样技术的方言语音识别系统,核心技术为利用过采样技术为语料库中数据量不足的方言合成新数据,从而增加语料库的数据量,语料库数据将会被用来训练一个方言识别模型以及多个语音识别模型,用户的语音数据通过方言识别模型判断方言种类,并根据方言种类选择对应的语音识别模型进行ASR在线实时识别;本发明通过使用过采样技术为语料库中的方言合成新数据来增加数据量,降低了模型训练中数据不平衡问题的影响,极大的提高了模型的识别效果,并且在智能语音的实际应用场景中,很大程度上解决了方言数据量少,采集方言数据难的问题。
技术领域
本发明属于语音识别技术领域,具体涉及一种基于过采样技术的方言语音识别系统。
背景技术
在智能语音系统中,语音识别(ASR)是关键环节之一,其识别的准确率很大程度上决定了整个智能语音系统的应用效果。当前业内主流的语音识别技术方案基本都是通过深度学习等方法,训练一个通用模型来实现语音识别系统。通用模型对普通话语音有着较好的效果,但在方言语音场景下,由于方言语料的数据量较少,并且各方言语料的数据量分布也不平衡,所以训练出来的通用模型效果往往不够理想,为此我们提出一种基于过采样技术的方言语音识别系统。
发明内容
本发明的目的在于提供一种基于过采样技术的方言语音识别系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于过采样技术的方言语音识别系统,包括语音识别语料处理、语音识别模型训练、方言识别语料处理、方言识别模型训练和ASR在线实时识别,使用端通过移动通讯终端设备与ASR在线实时识别连接,ASR在线实时识别包括数据接收单元、方言识别单元、语音识别单元和识别结果单元,方言识别语料处理包括方言识别原始语料库,以及通过方言识别过采样处理得到的方言识别语料库,语音识别语料处理包括语音识别原始语料库,以及通过语音识别过采样处理得到的语音识别语料库,且ASR在线实时识别通过数据接收单元接收到移动通讯终端设备传输的音频数据,并通过方言识别模型训练中的方言识别模型对上述音频数据进行判定,得到音频数据所属方言种类,将所属方言种类从语音识别模型库中获取到对应的语音识别模型,并通过语音识别模型对上述音频数据进行语音识别,识别完成后通过识别结果单元输出到移动通讯终端设备上。
进一步的,语音识别语料处理中通过人工采集标注或外部购买,获取到模型训练的语料数据,并入库到语音识别原始语料库,且需定期从语音识别原始语料库中取出数据,进行语音识别过采样处理,得到语音识别语料库。
进一步的,语音识别模型训练中定期从语音识别语料库中取每种方言对应的语料数据,进行语音识别模型的训练;将训练好的语音识别模型更新到语音识别模型库中。
进一步的,方言识别语料处理中通过人工采集标注或外部购买,获取到模型训练的语料数据,并入库到方言识别原始语料库;定期从方言识别原始语料库中取出数据,进行方言识别过采样处理,得到方言识别语料库。
进一步的,方言识别模型训练中需定期从方言识别语料库中取出语料数据,进行方言识别分类模型的训练。
进一步的,语音识别模型训练中包括发音词典、声学模型和语言模型,且声学模型和语言模型通过深度学习的方法进行训练。
进一步的,方言识别语料处理包括训练语料数据获取和过采样处理,方言识别语料处理可定期从方言识别原始语料库中按照方言类别取出对应的数据,当该方言类别的数据过少,则通过SMOTE过采样算法,生成特征数据,且上述特征数据是由方言识别原始语料库的数据特征决定的,然后再为合成的特征数据加上对应的方言类别,再将这些数据和方言识别原始语料库的数据一起存入方言识别语料库中。
与现有技术相比,本发明的有益效果是通过利用过采样技术,并结合深度学习,有效解决了现有方案中方言语料数据量较少以及分布不平衡导致语音识别效果较差的问题,其应用广泛,尤其是在智能语音场景,能很大程度上提高语音识别的准确率,最终总体上提高了整个智能语音系统的应用效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010110300.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种健康防护口罩面料
- 下一篇:一种骨骼复位系统及骨骼复位实验系统