[发明专利]一种面向开放域的事件抽取系统及方法在审
申请号: | 201710075116.5 | 申请日: | 2017-02-13 |
公开(公告)号: | CN106951438A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 张永强;巢文涵;李舟军 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 开放 事件 抽取 系统 方法 | ||
技术领域
本发明涉及一种面向开放域的事件抽取系统及方法,属于自然语言处理技术领域。
背景技术
随着互联网的快速发展,互联网上的资源呈现了爆炸式的增长。在这些资源中,新闻资讯占据了重要的一块,人们获取新闻资讯的途径得到了极大的扩展,但是,面对如此多的资讯,怎样才能让人们快速地获取感兴趣的内容,这已经成为了研究者需要面对的首要问题。在这样的需求指引下,研究者投入了大量的精力到信息抽取中。
信息抽取(Information Extraction)是指从非结构化来源中自动地抽取出结构化的信息,这些信息可以是实体、实体关系、实体属性等。事件抽取(Event Extraction)是一种更复杂的信息抽取形式,它能够提供更高层次的内容处理抽象能力。事件通常是指某个特定的时间片段和地域范围内发生的,由一个或者多个角色参与,由一个或者多个动作组成的一件事情。事件抽取就是指从非结构化的信息中抽取用户感兴趣的事件,并以结构化的形式呈现给用户。
现有的事件抽取技术主要针对一些具体的特定的领域,设计和领域相关的特征进行事件抽取,因此也就表现出了较强的领域相关特性。将这些方法利用到其它领域的时候,往往也就表现出了领域不适应现象,即事件抽取效果相对原领域表现较差。
发明内容
本发明技术解决问题:针对任意的领域的新闻资讯,提供一种开放域的事件抽取系统及方法,对于互联网上发布的新闻资讯,利用自然语言处理、深度学习相关技术,对资讯进行结构化的事件信息抽取,为高效获取新闻内容,资讯新闻聚合智能分析提供了基础。
本发明技术解决方案:一种面向开放域的事件抽取系统,包括:预处理模块、触发词识别模块、事件参数识别模块、事件图谱分析模块和事件抽取展示模块;其中:
预处理模块:对网络爬虫从互联网上获取到的原始文本数据进行预处理,预处理工作包括去除网页的原始文本数据中的冗余标签,提取网页的原始文本数据的正文内容,对正文内容进行分段、分句、分词、词性标注,然后对得到的数据建立索引,形成索引库和网页内容数据库;
触发词识别模块:以用户输入的关键词在索引库中进行检索,得到与用户输入的关键词相关的数据,然后将得到的数据进行触发词识别;触发词识别基于卷积神经网络模型,卷积神经网络模型针对预处理之后得到的原始文本数据,将文本内容中的词的词向量、位置特征转化为矩阵,然后通过卷积、池化操作进行特征学习,最后通过softmax分类器进行分类,判断当前词语是否是触发词;经过触发词识别后,将得到的触发词输入到事件图谱分析模块;
事件参数识别模块:基于用户端输入的关键词在索引库中检索得到和用户输入关键词相关的数据,然后对这些数据进行实体识别,对实体识别得到实体构建超图,然后对所述超图进行分割,得到和触发词相关的实体,从而得到一个事件中所涉及到的实体,也就得到了事件相关参数,从而完成了事件参数识别;事件参数识别后,将得到的事件参数识别结果输入到事件图谱分析模块;
事件图谱分析模块:对触发词识别模块和事件参数识别模块得到的触发词和事件参数识别结果,进行实体和事件的泛化分析,将同类事件进行融合,最后将融合后的所有事件信息输入到事件抽取展示模块;
事件抽取展示模块:将事件图谱分析模块的所有事件信息进行可视化展现,可视化展现使用关系图对事件信息进行表示,用户通过关系图直接获取和输入关键词相关的事件信息。
所述事件参数识别模块中,构建超图过程为:
(1)将触发词和候选事件元素分别作为超图中的节点;
(2)将所述节点和候选事件元素通过超边进行连接;
(3)计算超边权重,计算时选择的特征包括:触发词与实体之间的句法路径长度;触发词与实体的相对位置;触发词与实体之间的标点符号数;触发词与实体之间的实体个数;触发词与实体之间的非实体个数。
所述事件图谱构建模块中,泛化的过程为:对于抽取出的两个事件,如果它们具有完全一样的实体,则认为这两个事件是同一个事件,合并事件的触发词用两个事件触发词的并集来表示;对于两个事件多元组,如果只存在一个实体不同,其它的元素完全一样,则认为这两个实体是同样的实体,新的表示用实体并集表示;如果两个事件,存在大于一个相同的实体,则认为两个事件之间存在关系,通过泛化之后得到同类事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710075116.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:吸液装置
- 下一篇:基于DCS控制系统的自动投料装置