[发明专利]一种基于短文本匹配的语音问答方法及系统在审

专利信息
申请号: 202210061030.8 申请日: 2022-01-19
公开(公告)号: CN114328881A 公开(公告)日: 2022-04-12
发明(设计)人: 田尊明 申请(专利权)人: 重庆长安汽车股份有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F40/216;G06F40/242;G06F40/289
代理公司: 重庆博凯知识产权代理有限公司 50212 代理人: 万霞
地址: 400020 *** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 匹配 语音 问答 方法 系统
【权利要求书】:

1.一种基于短文本匹配的语音问答方法,其特征在于,包括以下步骤:

S1:检测用户语音,并将用户语音转换为输入文本;

S2:对S1得到的输入文本进行错误位点检测和错误纠正,以获得纠正文本;

S3:对S2获得的纠正文本进行分词和分词的向量化处理,以得到分词和句向量;

S4:基于S3得到的分词和句向量,采用实体词检索、语义相似度和字符相似度联合召回的方式,获得知识点候选集;

S5:基于S2中的纠正文本和S4获取的知识点候选集形成配对文本,采用ESIM模型对配对文本是否等价进行预测,基于预测结果对知识点候选集进行排序;

S6:基于预测结果进行决策判断,决定回复形式,输出系统的应答文本;

S7:将应答文本进行语音播报;

S8:设置交互界面的埋点,支持用户对系统返回的应答文本进行有帮助、无帮助的评价反馈;

S9:定时抓取S8用户反馈数据并加入ESIM模型,并启动ESIM模型增量训练,评估通过后的ESIM模型,作为最新ESIM模型使用。

2.根据权利要求1所述的一种基于短文本匹配的语音问答方法,其特征在于,步骤S2具体包括以下步骤:

S2.1:收集历史对话数据和汽车论坛、汽车百科类开放数据,形成汽车语料集,收集汽车相关的专有实体名词作为汽车专有实体名词词典,采用jieba分词工具,加载汽车专有实体名词词典作为自定义词典,然后对汽车语料集进行分词,训练3-gram以下的kenlm语言模型;

S2.2:收集开源的近音字、形近字的字典,以及历史对话数据中标注出的错误的专有实体名词的纠错词典;

S2.3:对S1得到的输入文本进行分词,然后通过3个词的窗口平移获取,3-gram的词组,如文本分词数小于3,则使用2-gram,如只有1个词则跳过纠错;

S2.4:用kenlm语言模型对S2.3获得的词组进行困惑度评分,得到困惑度评分结果列表;

S2.5:根据S2.4困惑度评分结果列表,计算各词组的离均差,确定离均差最大的位点为潜在错误位点;

S2.6:将S2.5中的错误位点的分词和纠错词典进行匹配,命中纠错记录则提出其中正确词作为候选词之一,以及针对分词中的每个字匹配近音字和形近字字典,生成新的分词,加入候选词集合;

S2.7:针对S2.6得到的候选词集合,逐个替换错误位点的文本,并按S2.3和S2.4的步骤重新进行困惑度评分,最后选择评分最佳的候选集进行替换,从而生成纠错后的纠正文本。

3.根据权利要求1所述的一种基于短文本匹配的语音问答方法,其特征在于,步骤S3具体包括以下步骤:

S3.1:收集历史对话数据和汽车论坛、汽车百科类开放数据,形成汽车语料集,进行两种处理,处理一:采用jieba分词工具,加载包含汽车专有实体名词的自定义词典后,对汽车语料集进行分词,获得分词后的列表数据;处理二:直接对汽车语料集逐字拆分,单个英文单词保留为字,获得字粒度的列表数据;对两部分列表数据进行汇总,形成列表数据集,并生成包含字和词的词袋字典,保留词频大于2的记录;

S3.2:将S3.1的列表数据集统一输入到gensim模型,作为训练word2vec词向量模型的训练样本,最小词频设置为3,如果是新增的语料,则加载历史word2vec词向量模型,进行增量训练;

S3.3:将S2得到的纠正文本进行分词,分词后的结果在S3.1的词袋字典中查找对应编码,如命中则替换为编码,并且查找到的编码在分词所在列表里用一级列表替换;如无命中,则将分词收录入到未登录词词典并累计词频,对应的文本加入到以未登录词为键,文本为值的字典,然后对分词逐字拆分,在S3.1的词袋字典中查找对应编码,查找到的编码在分词所在列表里用二级列表替换;

S3.4:基于S3.3编码后的一级列表和二级列表,查找S3.2中的word2vec 词向量模型,获得向量值,对二级列表的向量值求平均,然后对一级列表求平均,作为句子向量。

4.根据权利要求3所述的一种基于短文本匹配的语音问答方法,其特征在于,步骤S3还包括S3.5:定期将S3.3未登录词词典中词频大于2的分词对应的语料作为新增语料,在S3.2中进行gensim模型的增量训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司,未经重庆长安汽车股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210061030.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top