[发明专利]基于用户意图分析的语音识别矫正方法及其系统在审
申请号: | 202111448714.5 | 申请日: | 2021-12-01 |
公开(公告)号: | CN114333788A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 游海涛;吴昊 | 申请(专利权)人: | 厦门万势顺易科技有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L15/26;G06F16/35;G06F40/242;G06F40/295 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 余喜娣 |
地址: | 361000 福建省厦门市思*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 意图 分析 语音 识别 矫正 方法 及其 系统 | ||
本发明涉及语音识别矫正技术领域,具体涉及到基于用户意图分析的语音识别矫正方法及其系统。本申请的基于用户意图分析的语音识别矫正方法,通过建立客制化字典数据库,获取用户输入的语音信息,并根据客制化字典数据库转化为文本信息;根据所述文本信息进行意图分析;根据意图分析结果进行命名实体识别,并提取实体;基于拼音及数据库根据提取实体进行错字替换,并输出正确文本信息,以及更新客制化字典数据库,实现其不需要遵从特定句式,且不需要不断的人机交互,澄清,以及不需要额外的操作,同时也不必考虑澄清不准的代价,快速帮助用户完成正确字的匹配,提升用户的体验感。
技术领域
本发明涉及语音识别矫正技术领域,具体涉及到基于用户意图分析的语音识别矫正方法及其系统。
背景技术
近年随着语音识别、人机对话、自然语言处理等技术迅猛发展。但是现有的语音识别矫正存在以下问题:一、交互使用特定正则表达式判断意图无法完整泛化,如现有公开的使用正则表达式来判断句子是否为对前一句的处理口令,甚至有的要求用户使用特定的提示词如,第一形式:修改,字A是词B的字C;第二形式:修改,第N个字A是词B的字C。这种方法虽能有效解决问题但不够智能,且每个人都有自己讲话的逻辑顺序,限定口令模式对用户来说并不友好。
二、使用特定正则表达式判断槽位及槽位上下文无法完整泛化:同第一项类似,使用正则抓到字A是词B的字C要求用户套用固定的格式,关键字词以外的上下文必须相同,当遇到口吃、杂音,补充说明等情况常常识别错误,适应性差。
三、不具备学习能力;
四、反复交互,复杂的对话管理影响用户体验,即使用词槽澄清或列出 topk个不确定词给用户选择,大大增加了用户的使用负担。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供基于用户意图分析的语音识别矫正方法及其系统。
为实现上述目的,本发明采用的技术方案如下:基于用户意图分析的语音识别矫正方法,包括以下方法:
S1、建立客制化字典数据库;
S2、获取用户输入的语音信息,并根据客制化字典数据库转化为文本信息;
S3、根据所述文本信息进行意图分析;
S4、根据意图分析结果使用基于神经网络的BERT+BILSTM+CRF模型进行命名实体识别,并提取实体;
S5、基于拼音及数据库根据提取实体进行错字替换,并输出正确文本信息;
进一步的,意图分析包括纯语音信息识别、删除语音信息、编辑语音信息中的一种或多种,其中所述删除语音信息包含:根据不同情景,进行实体提取,指定语句删除。
进一步的,当意图分析为编辑语音信息或删除语音信息,则进入命名实体识别;反之,则进行纯语音信息识别。
进一步的,意图分析采用bert文本分类模型,将句子中的单字word embedding输入bert文本分类模型预测句子的类别,且当softmax层后的三个意图的预测概率中最大值不到88%,则本句的意图为纯语音信息识别;若在此情况下确实想表达的是编辑语音信息或删除语音信息,则说明文本意图不够明显,需换一种逻辑重新说明。
进一步的,命名实体包括必填词槽、非必填词槽,所述必填词槽包括被修正字、线索词组、组成成分中的一种或多种;所述非必填词槽包括组成成分词组、被修正字词组、指定序数词中的一种或多种。
进一步的,步骤S5中基于拼音及数据库根据提取实体进行错字替换包括:
将提取实体和待处理文本信息转化为拼音,并进行匹配;
根据匹配结果确认正确字索引位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门万势顺易科技有限公司,未经厦门万势顺易科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111448714.5/2.html,转载请声明来源钻瓜专利网。