[发明专利]一种事理图谱自动构建方法和系统在审
申请号: | 202210044407.9 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114064937A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 张文斌;曾俊瑀;贾显伏;程尧;刘志铭;周建行;辛洁 | 申请(专利权)人: | 云孚科技(北京)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/30;G06K9/62 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
地址: | 100085 北京市海淀区上地信息路2号(北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 事理 图谱 自动 构建 方法 系统 | ||
1.一种事理图谱自动构建方法,其特征在于,所述方法包括:
步骤S1、从给定的一段文本中抽取事件,再在抽取的事件中构建候选事件对集合,然后再从构建的事件对集合中抽取存在因果关系的事件对;
步骤S2、对所述给定的一段文本中抽取到的每个事件构建一个对应的节点;对每个存在因果关系的事件对,从原因事件的节点连一条有向边到结果事件的节点,从而构建初始版本的事理图谱;
步骤S3、对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合,然后再从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同;
步骤S4、如果所述候选相同关系的事件对中的事件相同,将相同的两个事件对应的所述初始版本的事理图谱中节点进行合并,完成事件的聚合;
步骤S5、重复步骤S3和步骤S4完成所有事件的聚合,得到最终版本的事理图谱。
2.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S1中,所述从给定的一段文本中抽取事件的具体方法包括:
将所述给定的一段文本输入预训练模型编码层,得到所述给定的一段文本的语义向量;
将所述给定的一段文本的语义向量输入事件序列标注层,采用BIO标签方案,标注出事件片段,抽取所述给定的一段文本中的事件。
3.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S1中,所述在抽取的事件中构建事件对集合的具体方法包括:
两两枚举抽取到的所述给定的一段文本中的所有事件,得到事件对集合。
4.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S1中,所述再从构建的事件对集合中抽取存在因果关系的事件对的具体方法包括:
对抽取到的所述给定的一段文本中的事件对应的语义向量进行最大池化,得到所述事件的语义向量;
将所述候选事件对集合中的每个候选事件对中两个事件对应的语义向量拼接,得到事件对的语义向量;
将事件对的语义向量输入事件因果关系分类层,得到该事件对是否存在因果关系的分类结果;
基于所述分类结果,得到存在因果关系的事件对。
5.根据权利要求1所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S3中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合之前所述步骤S3还包括:
将所述给定的一段文本中抽取到的所有事件的语义向量采用向量索引算法构建索引。
6.根据权利要求5所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S3中,所述对所述给定的一段文本中抽取到的事件,根据语义相似度,构建候选相同事件集合的具体方法包括:
对所述给定的一段文本中抽取到的每一个事件,通过向量搜索算法查询出与当前事件语义相似度超过一定阈值T的N个事件构成当前事件的候选相同事件集合。
7.根据权利要求6所述的一种事理图谱自动构建方法,其特征在于,在所述步骤S3中,所述从构建的候选相同事件集合中,得到候选相同关系的事件对,再根据所述候选相同关系的事件对的语义特征,判断所述候选相同关系的事件对中的事件是否相同的具体方法包括:
对于所述候选相同事件集合中的每一个候选相同事件,将当前候选相同事件的语义向量和所述当前事件的语义向量拼接,得到所述候选相同关系的事件对的语义向量;
将所述候选相同关系的事件对的语义向量输入相同事件分类网络层,判断所述候选相同关系的事件对中的事件是否相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云孚科技(北京)有限公司,未经云孚科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210044407.9/1.html,转载请声明来源钻瓜专利网。