[发明专利]基于多模态语音识别结果纠错方法及相关设备在审
申请号: | 202111062688.2 | 申请日: | 2021-09-10 |
公开(公告)号: | CN113782030A | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 庄子扬;魏韬;马骏;王少军;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/32 | 分类号: | G10L15/32;G10L15/26 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭晓欣 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 语音 识别 结果 纠错 方法 相关 设备 | ||
本申请实施例提供了一种基于多模态语音识别结果纠错方法及相关设备,所述方法包括:采用声学模型和语言模型对用户的语音数据进行处理,获得多个第一候选识别结果以及对应的声学得分和语言得分;获得每个第一候选识别结果对应的权重得分;将权重得分最高的第一候选识别结果作为目标识别结果,并获取所述目标识别结果的文本序列向量;从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果,并获取声学得分最高的第一候选识别结果对应的拼音序列向量;将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果。本发明可以有效地纠正语音识别结果的文本错误,尤其是针对谐音字的错误,可以得到有效纠正。
技术领域
本申请涉及人工智能领域,特别涉及一种基于多模态语音识别结果纠错方法及相关设备。
背景技术
基于人工智能的语音识别技术现已广泛应用在车载导航、智能家居、社交聊天、应用助手、娱乐游戏等多种场景中。语音识别技术能够实现自动识别用户输入的语音内容,将语音内容转换成对应的文本输出,大大提高了用户与终端交互的便利性。然而,在实际的语音交互过程中,由于用户发音不标准、噪音等因素的影响,使得语音识别的错误率较高。而现有技术都集中在提升语音识别准确率上,却缺乏对语音识别结果的纠错手段。以上原因,极大影响语音交互产品的推广。
发明内容
本申请的目的在于针对现有技术的不足,提供一种基于多模态语音识别结果纠错方法、装置、计算机设备和计算机可读存储介质,可以有效纠正语音识别结果的错误,对语音识别系统的用户体验有极大的改善。
第一方面,本申请提供了一种基于多模态语音识别结果纠错方法,所述方法包括:
获取语音数据;
采用声学模型和语言模型对所述语音数据进行处理,获得多个第一候选识别结果,以及获得每个第一候选识别结果分别对应的声学得分和语言得分;
针对每个第一候选识别结果,分别进行声学得分和语言得分的加权计算,获得每个第一候选识别结果对应的权重得分;
将权重得分最高的第一候选识别结果作为目标识别结果,并获取所述目标识别结果的文本序列向量;
从所述多个第一候选识别结果中确定声学得分最高的第一候选识别结果,并获取声学得分最高的第一候选识别结果对应的拼音序列向量;
将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果。
根据本申请的一些实施例,上述方案中,所述纠错模型包括输入层、全连接层和softmax层;
所述将所述文本序列向量和所述拼音序列向量输入预先训练的纠错模型,以获得纠错识别结果,包括:
将所述文本序列向量和所述拼音序列向量输入至所述输入层,通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合,以获得融合后的特征向量;
将所述融合后的特征向量输入至所述全连接层,并经全连接层输入至所述softmax层,以获得由所述softmax层输出的纠错识别结果。
根据本申请的一些实施例,上述方案中,通过所述输入层对所述文本序列向量和所述拼音序列向量进行特征融合,包括:
通过所述输入层对所述文本序列向量和所述拼音序列向量进行点乘以及求和运算。
根据本申请的一些实施例,上述方案中,所述获取所述目标识别结果的文本序列向量,包括:
将所述目标识别结果的文本数据输入至预先训练好的BERT模型中,以获得所述文本数据的文本序列向量。
根据本申请的一些实施例,上述方案中,所述获取声学得分最高的第一候选识别结果对应的拼音序列向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111062688.2/2.html,转载请声明来源钻瓜专利网。