[发明专利]问答检索方法、装置、设备及存储介质在审
申请号: | 202210975632.4 | 申请日: | 2022-08-15 |
公开(公告)号: | CN115757705A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 张景瑞;刘卫强;孔令磊;李敏;曾谁飞 | 申请(专利权)人: | 青岛海尔电冰箱有限公司;海尔智家股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 郜商羽 |
地址: | 266101 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 问答 检索 方法 装置 设备 存储 介质 | ||
本发明提供一种问答检索方法、装置、设备及存储介质,所述问答检索方法通过对问题文本分词序列、特征序列和混合序列的综合应用,第一,将应用领域知识和语言知识融入到了问题文本的结构解析中,从而使得计算结果能够更加符合业务人员的预期。第二,通过利用特征序列,可以对语料库中的训练语料去重,降低了特征的具体值变化对计算结果的影响,一方面提高了计算的准确度,另一方面降低了对语料库中语料变化量的要求,降低了语料库维护的工作量和难度。第三,通过语序权重的计算与加成,在余弦相似度的基础上增加了语序因素,提高了计算和排序结果的准确性,提升了整体检索效果。
技术领域
本发明涉及计算机技术领域,具体地涉及一种问答检索方法、装置、设备及存储介质。
背景技术
检索式问答是一种实现对话系统的路径,在这种路径下,开发者会先构建一定规模由问题和答案对(或分类)构成的语料库,当用户发起一个提问时,系统会从构建好的语料库中,经过一系列算法选出一个与用户提问最为相似的问题来,并把该问题对应答案或分类输出出去,从而实现问答效果。但现有的检索式问句查找中方法存在与领域知识不够紧密、所需语料库太大、语料收集成本太高的问题。
发明内容
本发明的目的在于提供一种问答检索方法、装置、设备及存储介质。
本发明提供一种问答检索方法,包括模型训练过程和模型应用过程,所述模型训练过程包括步骤:
对语料库中训练问题文本进行分词处理,得到训练问题文本分词序列,通过规则模型对所述训练问题文本进行特征提取,得到训练问题文本特征序列,将所述特征序列的空字符串填补所述分词序列对应位置处的词语进行混合处理,得到混合序列;
所述模型应用过程包括步骤:
获取用户输入的用户问题,将所述用户问题文本进行分词处理并通过所述规则模型进行特征提取,得到其分词序列和特征序列,并将两者进行混合处理得到其混合序列;
查找和所述用户问题文本具有相同特征的所述训练问题文本,作为候选问题文本;
分别将每个所述候选问题文本与所述用户问题文本比较,选择两者间混合序列中元素数量较少者为短混合序列、较长者为长混合序列,基于两混合序列中元素排列顺序,计算所述短混合序列所包含的元素能投射到长混合序列中的个数,得到两者的有序重叠数,基于所述有序重叠数分别计算每个所述候选问题文本和所述用户问题文本的语序权重值;
将特征序列作为输入项,分别计算每个所述候选问题文本和所述用户问题文本之间的相似值;
基于所述语序权重值和所述相似值计算所述候选问题文本和所述用户问题文本的综合相似值,根据所述综合相似值,选择最优候选问题文本输出。
作为本发明的进一步改进,所述通过规则模型对所述训练问题文本进行特征提取,得到训练问题文本特征序列,具体包括:
判断所述训练问题文本所属领域,通过规则模型对所述训练问题文本进行特征提取,得到训练问题文本特征序列,其中,所述特征包括:
实体类名词,其为预设的所述领域所涉及的具象实体;
事件类动词,其为预设的所述领域所涉及的用户可能性动作行为;
功能词,其为语言学意义上的功能词;
标志词,其为语言学意义上的句义标志词。
作为本发明的进一步改进,所述模型训练过程还包括步骤:
从所述训练问题文本特征序列中提取其必要特征序列,所述必要特征序列包括预设的判断所述用户问题与所述训练问题相似时所需包含的特征。
作为本发明的进一步改进,所述模型应用过程还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛海尔电冰箱有限公司;海尔智家股份有限公司,未经青岛海尔电冰箱有限公司;海尔智家股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210975632.4/2.html,转载请声明来源钻瓜专利网。