[发明专利]一种基于分阶段查询的知识图谱常识问答方法及系统有效
申请号: | 202110410370.2 | 申请日: | 2021-04-16 |
公开(公告)号: | CN112989005B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 唐昌伦;赵卓;田侃;张殊;张晨;吴涛;张浩然;王宇轩 | 申请(专利权)人: | 重庆中国三峡博物馆;重庆邮电大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F16/36;G06F40/14;G06F40/247;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400015 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分阶段 查询 知识 图谱 常识 问答 方法 系统 | ||
1.一种基于分阶段查询的知识图谱常识问答方法,其特征在于,包括:获取问题语句,对问题语句进行预处理,转化为问句序列;将问句序列输入到训练好的改进的问答模型中,得到问答结果;改进的问答模型包括实体识别模型、约束语识别模型以及问题结构分类模型;
对改进的问答模型进行训练和搭建的过程包括:
S1:获取原始问句数据集,并对数据集中的数据进行预处理,得到训练集;
S2:将训练集中的数据输入到训练好的实体识别模型中,得到标记出实体的数据;
S3:将标记出实体的数据输入到训练好的约束语识别模型中,得到标记出实体和约束条件的数据;
S4:将标记出实体和约束条件的数据输入到问题结构分类模型中进行分类,根据问句分类结果;根据分类结果建立问题分类列表和语义结构树模板列表;
S5:采用语义结构树模板列表对问题分类列表中的每一类问题句中的主语、约束语个数以及约束语的层次结构进行处理,得到各类问题模板的语义结构树;语义结构树构建的规则为:a、语义结构树的根节点包含的信息是主语;b、待定节点个数等于约束语节点个数;c、一个约束语节点和相应的一个待定节点是兄弟节点,两个节点的父节点是上一层的待定节点或根节点;d、如果其中约束语节点为问题模块当中的最后一个,则与它同层的待定节点为叶子节点;
S6:采用知识图谱对各类问题模板的语义结构树中的各个节点进行分别查询更新,当检测到待定节点为叶子节点时,则该节点为问题的答案;
根据知识图谱对语义结构树的待定节点的答案进行查找的过程包括:查找待定节点Di的信息,根据它的父节点、约束语节点Vi和目标信息组成三元组[E1/Di-1,Vi,m],其中,m表示目标信息;将三元组转换为SPARQL语句;将父节点作为定位搜索点,采用知识图谱对约束语节点Vi进行匹配,得到约束语节点与定位搜索点的连接关系;根据连接关系寻找与约束语节点Vi的同义表达,并返回寻找到的与Vi相关的节点信息,该信息为一次查询得到的答案;
S7:将全部待定节点更新完成后,将每一个待定节点更新的解释作为问题解答步骤和问题的答案一同返回,作为输入问题的解答,完成模型的训练。
2.根据权利要求1所述的一种基于分阶段查询的知识图谱常识问答方法,其特征在于,实体识别模型包括BERT模型、双向长短记忆神经网络模型以及条件随机场;对实体识别模型进行训练的过程包括:获取文本序列数据,对文本序列进行分词处理,得到分词文本序列;将分词文本序列输入到BERT模型中进行语义特征学习,得到对应的词向量;将词向量输入到双向长短记忆神经网络模型BiLSTM中,以前向和后向LSTM对每个词向量的上下文信息进行处理,并将同一时刻的输出信息进行合并,获取序列信息;采用CRF模块对BiLSTM模块输出序列信息每个标签的分数进行计算,将得分最高的标签序列作为输出,得到预测标注序列;提取预测标注序列的实体,并对提取的实体分类;计算实体分类的准确率,将计算出的准确率与设定的准确率进行对比,若大于设定的准确率,则完成实体模型的训练,否则调整模型的参数,重新对模型进行训练,直到大于设定的准确率为止。
3.根据权利要求2所述的一种基于分阶段查询的知识图谱常识问答方法,其特征在于,计算实体分类的准确率的方法为:把测试集输入实体模型中,得到当前实体模型识别出实体的准确率;计算实体分类准确率的公式为:
其中,TP表示正确的匹配数目,FP表示匹配不正确,FN表示未找到正确匹配的数目,TN表示正确的非匹配数目。
4.根据权利要求1所述的一种基于分阶段查询的知识图谱常识问答方法,其特征在于,约束语识别模型包括注意力机制、双向长短记忆神经网络模型以及条件随机场;采用约束语识别模型对输入的问句序列进行处理的过程包括:通过双向递归神经网络获取句子内部的依赖关系;采用注意力机制对句子内部依赖关系进行选择抽取向量特征;将抽取的向量特征通过CRF层返回一条最大化的标注路径,完成问句约束语的抽取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆中国三峡博物馆;重庆邮电大学,未经重庆中国三峡博物馆;重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110410370.2/1.html,转载请声明来源钻瓜专利网。