[发明专利]一种基于短文本匹配的语音问答方法及系统在审
申请号: | 202210061030.8 | 申请日: | 2022-01-19 |
公开(公告)号: | CN114328881A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 田尊明 | 申请(专利权)人: | 重庆长安汽车股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/216;G06F40/242;G06F40/289 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 万霞 |
地址: | 400020 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 匹配 语音 问答 方法 系统 | ||
1.一种基于短文本匹配的语音问答方法,其特征在于,包括以下步骤:
S1:检测用户语音,并将用户语音转换为输入文本;
S2:对S1得到的输入文本进行错误位点检测和错误纠正,以获得纠正文本;
S3:对S2获得的纠正文本进行分词和分词的向量化处理,以得到分词和句向量;
S4:基于S3得到的分词和句向量,采用实体词检索、语义相似度和字符相似度联合召回的方式,获得知识点候选集;
S5:基于S2中的纠正文本和S4获取的知识点候选集形成配对文本,采用ESIM模型对配对文本是否等价进行预测,基于预测结果对知识点候选集进行排序;
S6:基于预测结果进行决策判断,决定回复形式,输出系统的应答文本;
S7:将应答文本进行语音播报;
S8:设置交互界面的埋点,支持用户对系统返回的应答文本进行有帮助、无帮助的评价反馈;
S9:定时抓取S8用户反馈数据并加入ESIM模型,并启动ESIM模型增量训练,评估通过后的ESIM模型,作为最新ESIM模型使用。
2.根据权利要求1所述的一种基于短文本匹配的语音问答方法,其特征在于,步骤S2具体包括以下步骤:
S2.1:收集历史对话数据和汽车论坛、汽车百科类开放数据,形成汽车语料集,收集汽车相关的专有实体名词作为汽车专有实体名词词典,采用jieba分词工具,加载汽车专有实体名词词典作为自定义词典,然后对汽车语料集进行分词,训练3-gram以下的kenlm语言模型;
S2.2:收集开源的近音字、形近字的字典,以及历史对话数据中标注出的错误的专有实体名词的纠错词典;
S2.3:对S1得到的输入文本进行分词,然后通过3个词的窗口平移获取,3-gram的词组,如文本分词数小于3,则使用2-gram,如只有1个词则跳过纠错;
S2.4:用kenlm语言模型对S2.3获得的词组进行困惑度评分,得到困惑度评分结果列表;
S2.5:根据S2.4困惑度评分结果列表,计算各词组的离均差,确定离均差最大的位点为潜在错误位点;
S2.6:将S2.5中的错误位点的分词和纠错词典进行匹配,命中纠错记录则提出其中正确词作为候选词之一,以及针对分词中的每个字匹配近音字和形近字字典,生成新的分词,加入候选词集合;
S2.7:针对S2.6得到的候选词集合,逐个替换错误位点的文本,并按S2.3和S2.4的步骤重新进行困惑度评分,最后选择评分最佳的候选集进行替换,从而生成纠错后的纠正文本。
3.根据权利要求1所述的一种基于短文本匹配的语音问答方法,其特征在于,步骤S3具体包括以下步骤:
S3.1:收集历史对话数据和汽车论坛、汽车百科类开放数据,形成汽车语料集,进行两种处理,处理一:采用jieba分词工具,加载包含汽车专有实体名词的自定义词典后,对汽车语料集进行分词,获得分词后的列表数据;处理二:直接对汽车语料集逐字拆分,单个英文单词保留为字,获得字粒度的列表数据;对两部分列表数据进行汇总,形成列表数据集,并生成包含字和词的词袋字典,保留词频大于2的记录;
S3.2:将S3.1的列表数据集统一输入到gensim模型,作为训练word2vec词向量模型的训练样本,最小词频设置为3,如果是新增的语料,则加载历史word2vec词向量模型,进行增量训练;
S3.3:将S2得到的纠正文本进行分词,分词后的结果在S3.1的词袋字典中查找对应编码,如命中则替换为编码,并且查找到的编码在分词所在列表里用一级列表替换;如无命中,则将分词收录入到未登录词词典并累计词频,对应的文本加入到以未登录词为键,文本为值的字典,然后对分词逐字拆分,在S3.1的词袋字典中查找对应编码,查找到的编码在分词所在列表里用二级列表替换;
S3.4:基于S3.3编码后的一级列表和二级列表,查找S3.2中的word2vec 词向量模型,获得向量值,对二级列表的向量值求平均,然后对一级列表求平均,作为句子向量。
4.根据权利要求3所述的一种基于短文本匹配的语音问答方法,其特征在于,步骤S3还包括S3.5:定期将S3.3未登录词词典中词频大于2的分词对应的语料作为新增语料,在S3.2中进行gensim模型的增量训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210061030.8/1.html,转载请声明来源钻瓜专利网。