[发明专利]基于神经网络抽取事件关系的方法、装置和处理器在审
申请号: | 201911405157.1 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111143578A | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 刘粉香;贠瑞峰;张炎红;彭翔 | 申请(专利权)人: | 智慧神州(北京)科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/33;G06N3/04 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 霍文娟 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 抽取 事件 关系 方法 装置 处理器 | ||
本申请提供了一种基于神经网络抽取事件关系的方法、装置、存储介质和处理器。该抽取事件关系的方法包括:将知识图谱中的所有事件按时间排序;将排序好的事件按预定时间窗口进行划分,得到多个事务,至少一个事务包括事件;根据事务构建训练集,训练集包括多个训练数据;将训练数据输入至预定神经网络框架进行训练,得到分类模型;使用分类模型对待预测事务进行预测,得到各事件发生的概率,根据概率确定待预测事务之后发生的事件。采用神经网络算法预测关联的事件,大大提高了知识图谱事件之间的关联关系的确定方法的效率和准确度。
技术领域
本申请涉及知识图谱领域,具体而言,涉及一种基于神经网络抽取事件关系的方法、装置、存储介质和处理器。
背景技术
事件知识图谱仍处于发展阶段,目前仍然需要解决大量技术问题,其中事件与事件之间的关联关系分析是一个难点问题。关联关系是指一个事件影响另一个事件是否发生,包括因果关系、对立关系、转折关系、順承关系等等。事件在知识图谱中数据表现方式分为结构化数据和非结构化数据。事件的结构化数据包含的属性一般为事件类型、触发词、论元、角色。事件的非结构化数据包含的属性一般为事件主题名称、事件时间、主体、客体等等,除了主题名称,并不要求每个属性必须有属性值,而且也可能有属性的属性(比如,主体有自己的属性)。
当前判定事件之间的关联关系需要本领域的专家,根据自己深厚的领域知识和经验,将事件的关联关系写成规则,使用时用规则匹配来确定“主题事件”(比如“美联储降息”导致“黄金价格上涨”)之间的关联关系。这种实现方式需要经济金融专家深度参与到知识图谱构建中,通过工程技术人员配合,将专家们的知识和经验,转换成知识图谱架构、逻辑,甚至代码,落地难度可想而知。也有算法(比如,FP-树)可以降低上述人工工作量,自动挖掘事件之间的关联规则关系。这种挖掘算法挖掘出的规则准确率普遍不高,需要人工对挖掘的关系进一步确认,最后形成规则。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种基于神经网络抽取事件关系的方法、装置、存储介质和处理器,以解决现有技术中知识图谱事件之间的关联关系的确定方法效率较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于神经网络抽取事件关系的方法,该抽取事件关系的方法包括:将知识图谱中的所有事件按时间排序;将排序好的所述事件按预定时间窗口进行划分,得到多个事务,至少一个所述事务包括所述事件;根据所述事务构建训练集,所述训练集包括多个训练数据;将所述训练数据输入至预定神经网络框架进行训练,得到分类模型;使用所述分类模型对待预测事务进行预测,得到各所述事件发生的概率,根据所述概率确定所述待预测事务之后发生的所述事件。
进一步地,根据所述事务构建训练集,所述训练集包括多个训练数据,包括:从所述事务中抽取预定数量的所述事件,得到事件组合,所述预定数量大于等于2;根据所述事件组合和标注标签构建所述训练集。
进一步地,根据所述事件组合和标注标签构建所述训练集,包括:对事件列表中所有所述事件进行编号,多个所述事件表示分别为E1、E2、E3、E4、…EK,则各所述事件对应的编号为4、5、6、7、…K+3,且定义PAD、S、E以及UNK对应的所述编号分别为0、1、2和3,PAD表示用于补足输入长度,S表示一串所述事件开始符号,E表示一串所述事件结束,UNK表示此位置的所述事件不在数据库中;根据所述事件的编号、PAD的编号、S的编号、E的编号以及UNK的编号,确定所述事件组合对应的编号形式;在所述事务之后发生后发生的所述事件为EM的情况下,构建所述标注标签,所述标注标签表示为其中,四个0分别表示特殊符号PAD,S,E以及UNK对应的所述标注标签,K表示所述事件的总数,p为超参数,令p=0.9,令所述事件EM发生的概率为p,令其他所述事件发生的概率为根据所述事件组合对应的所述编号形式和所述标注标签确构建所述训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智慧神州(北京)科技有限公司,未经智慧神州(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911405157.1/2.html,转载请声明来源钻瓜专利网。