[发明专利]基于Pipeline处理和ES储存问答系统构建方法在审
申请号: | 202111030767.5 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113742469A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 黄洋;廖奇;罗汉;邬杰 | 申请(专利权)人: | 科讯嘉联信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/338;G06F40/289;G06F40/30 |
代理公司: | 合肥律众知识产权代理有限公司 34147 | 代理人: | 侯克邦 |
地址: | 230000 安徽省合肥市中国(安徽)自由贸易试验区合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 pipeline 处理 es 储存 问答 系统 构建 方法 | ||
1.基于Pipeline处理和ES储存问答系统构建方法,其特征在于:包括以下步骤:
S1、对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;
S2、将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;
S3、判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;
S4、对改写后的问题语句进行多维度语义特征标签抽取,并将改写后的问题语句与得到的多维度语义特征标签转化为查询语句,在ES数据库中经过查询和搜索,召回候选问答对;
S5、对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案。
2.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S1中对行业领域数据问答对进行收集清洗,包括:
收集行业领域数据问答对,对问答对进行噪声清洗和质量审查,形成原始模板数据,并对原始模板数据进行扩充。
3.根据权利要求2所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述对原始模板数据进行扩充,包括:
将行业领域内历史对话语料逐条存入ES数据库中进行检索,设定检索结果的得分阈值,选取与原始模板数据相似的行业领域内历史对话语料,进行噪声清洗和质量审查后直接扩充至对应原始模板数据中。
4.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述多维度语义特征标签包括句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征。
5.根据权利要求4所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述核心实体特征的构建方法包括:
对问题语句进行句法分析,得出问题语句的句法组成成分以及分词单位的词性,根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,提取分值最高的分词单位作为核心实体。
6.根据权利要求4所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述关键词特征的构建方法包括:
人工收集问题语句中特征明显的词汇,针对每个具体业务场景梳理出关键词列表;
采用字典树存储关键词列表中的关键词,并将关键词分为must强匹配类型和should弱匹配类型,当问题语句中具有相同must强匹配类型的关键词才会被召回,而should弱匹配类型的关键词用于调节被召回的可能性大小;
输入问题语句后,以字符为单位在字典树上进行强匹配,匹配到一个完整路径就可以视为关键词。
7.根据权利要求5所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S3中对输入问题语句进行改写,包括:
基于相似词列表将输入问题语句替换成同一表达方式,并进行噪声清洗;
对噪声清洗后的问题文本进行标注,对判断是否需要继承上一轮核心实体的实体继承模型进行训练;
当实体继承模型检测到继承核心实体意图时,将上一轮的核心实体直接拼接在当前问题语句的句尾。
8.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S4中对改写后的问题语句进行多维度语义特征标签抽取,包括:
采用Pipeline方式对改写后的问题语句进行多维度语义特征标签抽取,在第一节点中分别通过句式提取模型、核心实体提取模型、关键词提取模型、一级意图模型对句式特征、核心实体特征、关键词特征、一级意图特征进行提取;在第二节点中通过二级意图模型提取二级意图特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科讯嘉联信息技术有限公司,未经科讯嘉联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111030767.5/1.html,转载请声明来源钻瓜专利网。