[发明专利]基于多模型融合的问答方法及系统在审
申请号: | 201910984294.9 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110727779A | 公开(公告)日: | 2020-01-24 |
发明(设计)人: | 宣明辉;林路;王慜骊;郏维强;黄页 | 申请(专利权)人: | 信雅达系统工程股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/35 |
代理公司: | 33289 杭州裕阳联合专利代理有限公司 | 代理人: | 姚宇吉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始问题 知识库 问题解析 图谱 语义 分析数据 检索问题 模型融合 模型搜索 模型指示 问题答案 整体模型 融合 数据量 构建 匹配 机器人 答案 申请 保证 学习 | ||
1.一种基于多模型融合的问答方法,其特征在于,包括:
构建知识库和知识图谱,其中,所述知识库包括用于存储源知识的源知识库,用于存储同义词、关键词集合和问题模板的语法库,用于存储常问问题集和答案的FAQ问题库,所述知识图谱为基于有标签数据的行业相关法律、规定以及管理制度的知识数据集的知识图谱;
结合所述知识库和所述知识图谱对所输入的原始问题进行问题解析,得到问题解析数据,其中,所述问题解析数据包括所述原始问题中的关键字、提问的实体名称,问题分类以及可能的待匹配问题模板;
基于融合模型指示的匹配方法检索所述问题分析数据,得到所述原始问题对应的问题答案,其中,所述融合模型包括知识图谱推理模型、TF-IDF模型、Siamese模型和Bert模型。
2.根据权利要求1所述的方法,其特征在于,所述构建语法库和知识图谱,包括:
构建基于有标签数据的行业相关法律、规定以及管理制度的知识数据集的知识图谱,所述知识数据集中的每条记录的文本和类别一一对应;
对所采集的问题样例进行预处理得到简化问题样例,使用分词和词性标注建立语法库对应的语法树。
3.根据权利要求2所述的方法,其特征在于,所述对所采集的问题样例进行预处理得到简化问题样例,使用分词和词性标注建立语法库对应的语法树,包括:
根据所采集问题实例对应的关系和属性对其进行分类,使用命名实体识别分词,并去除停用词后提取只包含关键字的简化问题样例;
将涉及同一关系或属性的简化问题样例归为同一类的问题模板;
为每一个问题模板配置从所述知识图谱中提取该问题模板的答案的路径和从原始问题中提取答案的约束条件;
对所述简化问题样例进行命名实体识别,采用识别出的分词和对应的词性标注建立语法树,所述语法树指示的关键词与问题小类索引之间的映射关系构成问题模板库。
4.根据权利要求3所述的方法,其特征在于,所述结合所述知识库和所述知识图谱对所输入的原始问题进行问题解析,得到问题解析数据,包括:
基于所述知识库和所述知识图谱对所输入的原始问题进行预处理,确定所述原始问题对应的关键字;
基于所述问题模板库确定所述原始问题的关键字对应的问题分类;
判断所述原始问题对应的实际提问次数,根据所述实际提问次数为所述原始问题分配待匹配问题模板。
5.根据权利要求4所述的方法,其特征在于,所述基于所述知识库和所述知识图谱对所输入的原始问题进行预处理,确定所述原始问题对应的关键字,包括:
当确定所输入的原始问题是不存在拼写错误时,对所述原始问题进行标点过滤、停用词过滤、同义词转换以及数字转换为中文数据;;
对所述原始问题进行命名实体识别得到对应的实体指称,基于实体链接将所述实体指称链接到所述知识图谱的图谱节点;
采用含有专业词语的词典对所述原始问题中除所述实体指称外的剩余部分进行分词,将分词得到的词语在所述语法库中进行匹配,确定对应的关键字。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当所述实体指称无法链接至所述图谱节点时,将所述FAQ问题库中的所有问题确定为待匹配问题模板。
7.根据权利要求5所述的方法,其特征在于,所述基于所述融合模型指示的匹配方法检索所述问题分析数据,得到所述原始问题对应的问题答案,包括:
当所述待匹配问题模板大于1个或者无法链接到所述图谱节点时,采用融合模型计算所述原始问题与待匹配问题模板的短文相似度,生成多个候选答案;
选取相似度最大的常问问题为候选问题,若所述原始问题与所述待匹配问题模板的相似度大于相似度阈值,将所述原始问题匹配到所述候选问题;
根据匹配到的候选问题与所述FAQ问题库指示的问题与答案的映射关系选取对应的答案作为所述原始问题的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信雅达系统工程股份有限公司,未经信雅达系统工程股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910984294.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种面向税务的智能问答系统
- 下一篇:一种相识文本自动扩展的系统及其方法