[发明专利]一种面向开放域的事件抽取系统及方法在审
申请号: | 201710075116.5 | 申请日: | 2017-02-13 |
公开(公告)号: | CN106951438A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 张永强;巢文涵;李舟军 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京科迪生专利代理有限责任公司11251 | 代理人: | 杨学明,顾炜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向开放域的事件抽取系统及方法,包括预处理模块、触发词识别模块、事件参数识别模块、事件图谱分析模块和事件抽取展示模块;预处理模块对原始数据信息进行预处理;触发词识别模块基于卷积神经网络进行触发词识别,事件参数识别模块基于图模型进行事件参数的识别,事件参数的抽取工作转化到具体的图分割问题,通过分割得到事件参数;事件图谱分析模块对触发词识别和事件参数识别结果进行分析,得到同类事件;事件抽取展示模块将分析结果可视化展现,方便用户获取信息。本发明解决了大数据环境下快速获取新闻资讯信息的难题,通过自动化的处理,用户根据自己输入的关键词即可得到关键词相关的新闻事件,为信息获取提供了极大的便利。 | ||
搜索关键词: | 一种 面向 开放 事件 抽取 系统 方法 | ||
【主权项】:
一种面向开放域的事件抽取系统,其特征在于包括:预处理模块、触发词识别模块、事件参数识别模块、事件图谱分析模块和事件抽取展示模块;其中:预处理模块:对网络爬虫从互联网上获取到的原始文本数据进行预处理,预处理工作包括去除网页的原始文本数据中的冗余标签,提取网页的原始文本数据的正文内容,对正文内容进行分段、分句、分词、词性标注,然后对得到的数据建立索引,形成索引库和网页内容数据库;触发词识别模块:以用户输入的关键词在索引库中进行检索,得到与用户输入的关键词相关的数据,然后将得到的数据进行触发词识别;触发词识别基于卷积神经网络模型,卷积神经网络模型针对预处理之后得到的原始文本数据,将文本内容中的词的词向量、位置特征转化为矩阵,然后通过卷积、池化操作进行特征学习,最后通过softmax分类器进行分类,判断当前词语是否是触发词;经过触发词识别后,将得到的触发词输入到事件图谱分析模块;事件参数识别模块:基于用户端输入的关键词在索引库中检索得到和用户输入关键词相关的数据,然后对这些数据进行实体识别,对实体识别得到实体构建超图,然后对所述超图进行分割,得到和触发词相关的实体,从而得到一个事件中所涉及到的实体,也就得到了事件相关参数,从而完成了事件参数识别;事件参数识别后,将得到的事件参数识别结果输入到事件图谱分析模块;事件图谱分析模块:对触发词识别模块和事件参数识别模块得到的触发词和事件参数识别结果,进行实体和事件的泛化分析,将同类事件进行融合,最后将融合后的所有事件信息输入到事件抽取展示模块;事件抽取展示模块:将事件图谱分析模块的所有事件信息进行可视化展现,可视化展现使用关系图对事件信息进行表示,用户通过关系图直接获取和输入关键词相关的事件信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710075116.5/,转载请声明来源钻瓜专利网。
- 上一篇:吸液装置
- 下一篇:基于DCS控制系统的自动投料装置