[发明专利]一种基于短文本匹配的语音问答方法及系统在审

申请号：	202210061030.8	申请日：	2022-01-19
公开（公告）号：	CN114328881A	公开（公告）日：	2022-04-12
发明（设计）人：	田尊明	申请（专利权）人：	重庆长安汽车股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F40/216;G06F40/242;G06F40/289
代理公司：	重庆博凯知识产权代理有限公司 50212	代理人：	万霞
地址：	400020 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本匹配语音问答方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于短文本匹配的语音问答方法，其特征在于，包括以下步骤：

S1：检测用户语音，并将用户语音转换为输入文本；

S2：对S1得到的输入文本进行错误位点检测和错误纠正，以获得纠正文本；

S3：对S2获得的纠正文本进行分词和分词的向量化处理，以得到分词和句向量；

S4：基于S3得到的分词和句向量，采用实体词检索、语义相似度和字符相似度联合召回的方式，获得知识点候选集；

S5：基于S2中的纠正文本和S4获取的知识点候选集形成配对文本，采用ESIM模型对配对文本是否等价进行预测，基于预测结果对知识点候选集进行排序；

S6：基于预测结果进行决策判断，决定回复形式，输出系统的应答文本；

S7：将应答文本进行语音播报；

S8：设置交互界面的埋点，支持用户对系统返回的应答文本进行有帮助、无帮助的评价反馈；

S9：定时抓取S8用户反馈数据并加入ESIM模型，并启动ESIM模型增量训练，评估通过后的ESIM模型，作为最新ESIM模型使用。

2.根据权利要求1所述的一种基于短文本匹配的语音问答方法，其特征在于，步骤S2具体包括以下步骤：

S2.1：收集历史对话数据和汽车论坛、汽车百科类开放数据，形成汽车语料集，收集汽车相关的专有实体名词作为汽车专有实体名词词典，采用jieba分词工具，加载汽车专有实体名词词典作为自定义词典，然后对汽车语料集进行分词，训练3-gram以下的kenlm语言模型；

S2.2：收集开源的近音字、形近字的字典，以及历史对话数据中标注出的错误的专有实体名词的纠错词典；

S2.3：对S1得到的输入文本进行分词，然后通过3个词的窗口平移获取，3-gram的词组，如文本分词数小于3，则使用2-gram，如只有1个词则跳过纠错；

S2.4：用kenlm语言模型对S2.3获得的词组进行困惑度评分，得到困惑度评分结果列表；

S2.5：根据S2.4困惑度评分结果列表，计算各词组的离均差，确定离均差最大的位点为潜在错误位点；

S2.6：将S2.5中的错误位点的分词和纠错词典进行匹配，命中纠错记录则提出其中正确词作为候选词之一，以及针对分词中的每个字匹配近音字和形近字字典，生成新的分词，加入候选词集合；

S2.7：针对S2.6得到的候选词集合，逐个替换错误位点的文本，并按S2.3和S2.4的步骤重新进行困惑度评分，最后选择评分最佳的候选集进行替换，从而生成纠错后的纠正文本。

3.根据权利要求1所述的一种基于短文本匹配的语音问答方法，其特征在于，步骤S3具体包括以下步骤：

S3.1：收集历史对话数据和汽车论坛、汽车百科类开放数据，形成汽车语料集，进行两种处理，处理一：采用jieba分词工具，加载包含汽车专有实体名词的自定义词典后，对汽车语料集进行分词，获得分词后的列表数据；处理二：直接对汽车语料集逐字拆分，单个英文单词保留为字，获得字粒度的列表数据；对两部分列表数据进行汇总，形成列表数据集，并生成包含字和词的词袋字典，保留词频大于2的记录；

S3.2：将S3.1的列表数据集统一输入到gensim模型，作为训练word2vec词向量模型的训练样本，最小词频设置为3，如果是新增的语料，则加载历史word2vec词向量模型，进行增量训练；

S3.3：将S2得到的纠正文本进行分词，分词后的结果在S3.1的词袋字典中查找对应编码，如命中则替换为编码，并且查找到的编码在分词所在列表里用一级列表替换；如无命中，则将分词收录入到未登录词词典并累计词频，对应的文本加入到以未登录词为键，文本为值的字典，然后对分词逐字拆分，在S3.1的词袋字典中查找对应编码，查找到的编码在分词所在列表里用二级列表替换；

S3.4：基于S3.3编码后的一级列表和二级列表，查找S3.2中的word2vec 词向量模型，获得向量值，对二级列表的向量值求平均，然后对一级列表求平均，作为句子向量。

4.根据权利要求3所述的一种基于短文本匹配的语音问答方法，其特征在于，步骤S3还包括S3.5：定期将S3.3未登录词词典中词频大于2的分词对应的语料作为新增语料，在S3.2中进行gensim模型的增量训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆长安汽车股份有限公司，未经重庆长安汽车股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210061030.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于汽车领域的智能问答方法及系统
下一篇：基于食品检测系统的检测试管存放功能平台

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于短文本匹配的语音问答方法及系统在审

专利文献下载