[发明专利]一种语音识别模型的训练、语音识别方法及装置在审
申请号: | 202211042152.9 | 申请日: | 2022-08-29 |
公开(公告)号: | CN115394299A | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 谭萍 | 申请(专利权)人: | 兰州文理学院 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L25/63;G10L15/06;G10L15/00 |
代理公司: | 温州市品创专利商标代理事务所(普通合伙) 33247 | 代理人: | 洪中清 |
地址: | 730000 甘*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 模型 训练 方法 装置 | ||
本发明涉及语音识别技术领域,具体涉及一种语音识别模型的训练、语音识别方法及装置,该训练方法,包括如下步骤:S1、构建包括基础情感词词组、程度词词组、否定和双否定词词组、转折词词组的情感词词典;S2、基于情感词词典和标准普通话语音大数据训练构建以普通话文本+情感描述为输出项的语音识别模型。本发明可以显著提高带口音的普通话的识别准确率,从而得到个性化的语音识别模型,识别准确率达97.6%左右;引入情感描述特征,可以尽可能的避免表达意思出现偏颇的情况,从而大大提高用户体验感。
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音识别模型的训练、语音识别方法及装置。
背景技术
语音识别是当前人工智能研究的热点,其涉及的场景包括智能家居,智能问答以及智能客服等领域。随着人们对便捷生活诉求的增加,语音识别技术正不断地发展和完善。
目前,现有的智能语音识别模型基本以标准普通话为训练样本,针对存在口音的普通话存在识别准确率较低的情况,同时,识别的同时,忽略了用户原本的情感状态,容易造成所表达意思的偏颇,用户的体验感较差。
发明内容
为解决上述问题,本发明提供了一种语音识别模型的训练、语音识别方法及装置,可以显著提高带口音的普通话的识别准确率,同时引入情感描述特征,可以尽可能的避免表达意思出现偏颇的情况。
为实现上述目的,本发明采取的技术方案为:
一种语音识别模型的训练方法,包括如下步骤:
S1、构建包括基础情感词词组、程度词词组、否定和双否定词词组、转折词词组的情感词词典;
S2、基于情感词词典和标准普通话语音大数据训练构建以普通话文本+情感描述为输出项的语音识别模型。
进一步地,基于预设的模板完成用户口音特征的识别,然后根据用户口音特征实现所述的语音识别模型微调的步骤。
进一步地,基于预设的模板实现用户音频数据的采集,基于用户音频数据的分析获取用户口音特征,然后构建用户口音特征与标准普通话之间的关联关系,基于该关联关系构建语音校正模型,基于语音校正模型与所述语音识别模型的串联生成新的语音识别模型。
进一步地,所述步骤S1中,首先基于爬虫模块在预设的网络基站上定向采集大规模文本信息,然后利用词向量扩充情感词词典的方法对定向采集到的大规模文本进行处理,然后从中自动抽取情感词、程度词、否定和双否定词、转折词,用人工和机器学习相结合的方式构建情感词词典。
进一步地,所述步骤S2中,首先基于情感词词典对标准普通话语音大数据进行自动标注,生成标注语料,然后以标注语料及其对应的普通话文本+情感描述为训练数据训练构建语音识别模型。
本发明还提供了一种语音识别方法,采用上述的训练方法训练所得的语音识别模型实现语音的识别,包括如下步骤:
S1、基于预设的模板完成用户口音特征的识别,然后根据用户口音特征实现所述的语音识别模型微调,生成新的语音识别模型;
S2、基于所述新的语音识别模型实现用户语音的识别,将其转换成普通话文本+情感描述的格式。
本实施例中还提供了一种语音识别装置,采用上述的语音识别方法实现用户语音的识别。
本发明具有以下有益效果:
可以显著提高带口音的普通话的识别准确率,从而得到个性化的语音识别模型,识别准确率达97.6%左右。
引入情感描述特征,可以尽可能的避免表达意思出现偏颇的情况,从而大大提高用户体验感。
附图说明
图1为本发明实施例1一种语音识别模型的训练方法的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州文理学院,未经兰州文理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211042152.9/2.html,转载请声明来源钻瓜专利网。