[发明专利]一种面向开放域的事件抽取系统及方法在审
申请号: | 201710075116.5 | 申请日: | 2017-02-13 |
公开(公告)号: | CN106951438A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 张永强;巢文涵;李舟军 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 开放 事件 抽取 系统 方法 | ||
1.一种面向开放域的事件抽取系统,其特征在于包括:预处理模块、触发词识别模块、事件参数识别模块、事件图谱分析模块和事件抽取展示模块;其中:
预处理模块:对网络爬虫从互联网上获取到的原始文本数据进行预处理,预处理工作包括去除网页的原始文本数据中的冗余标签,提取网页的原始文本数据的正文内容,对正文内容进行分段、分句、分词、词性标注,然后对得到的数据建立索引,形成索引库和网页内容数据库;
触发词识别模块:以用户输入的关键词在索引库中进行检索,得到与用户输入的关键词相关的数据,然后将得到的数据进行触发词识别;触发词识别基于卷积神经网络模型,卷积神经网络模型针对预处理之后得到的原始文本数据,将文本内容中的词的词向量、位置特征转化为矩阵,然后通过卷积、池化操作进行特征学习,最后通过softmax分类器进行分类,判断当前词语是否是触发词;经过触发词识别后,将得到的触发词输入到事件图谱分析模块;
事件参数识别模块:基于用户端输入的关键词在索引库中检索得到和用户输入关键词相关的数据,然后对这些数据进行实体识别,对实体识别得到实体构建超图,然后对所述超图进行分割,得到和触发词相关的实体,从而得到一个事件中所涉及到的实体,也就得到了事件相关参数,从而完成了事件参数识别;事件参数识别后,将得到的事件参数识别结果输入到事件图谱分析模块;
事件图谱分析模块:对触发词识别模块和事件参数识别模块得到的触发词和事件参数识别结果,进行实体和事件的泛化分析,将同类事件进行融合,最后将融合后的所有事件信息输入到事件抽取展示模块;
事件抽取展示模块:将事件图谱分析模块的所有事件信息进行可视化展现,可视化展现使用关系图对事件信息进行表示,用户通过关系图直接获取和输入关键词相关的事件信息。
2.根据权利要求1所述的面向开放域的事件抽取系统,其特征在于:所述事件参数识别模块中,构建超图过程为:
(1)将触发词和候选事件元素分别作为超图中的节点;
(2)将所述节点和候选事件元素通过超边进行连接;
(3)计算超边权重,计算时选择的特征包括:触发词与实体之间的句法路径长度;触发词与实体的相对位置;触发词与实体之间的标点符号数;触发词与实体之间的实体个数;触发词与实体之间的非实体个数。
3.根据权利要求1所述的面向开放域的事件抽取系统,其特征在于:所述事件图谱构建模块中,泛化的过程为:对于抽取出的两个事件,如果它们具有完全一样的实体,则认为这两个事件是同一个事件,合并事件的触发词用两个事件触发词的并集来表示;对于两个事件多元组,如果只存在一个实体不同,其它的元素完全一样,则认为这两个实体是同样的实体,新的表示用实体并集表示;如果两个事件,存在大于一个相同的实体,则认为两个事件之间存在关系,通过泛化之后得到同类事件。
4.根据权利要求1所述的面向开放域的事件抽取系统,其特征在于:所述事件抽取展示模块具体为:包含用户输入和事件抽取结果可视化呈现两个部分,用户输入关键词,根据关键词检索得到关键词相关的资讯信息,可视化呈现部分对从关键词相关资讯中抽取到的事件信息以关系图的形式呈现给用户,关系图采用不同的形状对事件触发词和参数进行区分。
5.一种面向开放域的事件抽取方法,其特征在于包括以下步骤:
预处理步骤:对网络爬虫从互联网上获取到的原始文本数据进行预处理,预处理工作包括去除网页的原始文本数据中的冗余标签,提取网页的原始文本数据的正文内容,对正文内容进行分段、分句、分词、词性标注,然后对得到的数据建立索引,形成索引库和网页内容数据库;
触发词识别步骤:以用户输入的关键词在索引库中进行检索,得到与用户输入的关键词相关的数据,然后将得到的数据进行触发词识别;触发词识别基于卷积神经网络模型,卷积神经网络模型针对预处理之后得到的原始文本数据,将文本内容中的词的词向量、位置特征转化为矩阵,然后通过卷积、池化操作进行特征学习,最后通过softmax分类器进行分类,判断当前词语是否是触发词,得到识别后触发词;
事件参数识别步骤:基于用户端输入的关键词在索引库中检索得到和用户输入关键词相关的数据,然后对这些数据进行实体识别,对实体识别得到实体构建超图,然后对所述超图进行分割,得到和触发词相关的实体,从而得到一个事件中所涉及到的实体,也就得到了事件相关参数,从而完成了事件参数识别;事件参数识别后,得到的事件参数识别结果;
事件图谱分析步骤:对触发词识别步骤和事件参数识别步骤得到的触发词和事件参数识别结果,进行实体和事件的泛化分析,将同类事件进行融合,得到融合后的所有事件信息;
事件抽取展示步骤:将所有事件信息进行可视化展现,可视化展现使用关系图对事件信息进行表示,用户通过关系图直接获取和输入关键词相关的事件信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710075116.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:吸液装置
- 下一篇:基于DCS控制系统的自动投料装置