[发明专利]用语义迭代提取网络突发事件并识别外延事件关系的方法在审
申请号: | 201710679941.6 | 申请日: | 2017-08-10 |
公开(公告)号: | CN107480137A | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 林飞;洪秋月;赵喜荣;熊骁;毛俊 | 申请(专利权)人: | 北京亚鸿世纪科技发展有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100082 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 用语义迭代提取网络突发事件并识别外延事件关系的方法涉及信息技术领域中知识图谱技术领域,本发明包含事件触发词提取步骤,外延事件主题集合步骤,外延事件关系识别步骤,其中外延事件关系识别步骤包括了迭代抽取流程,迭代抽取流程使用Hearst Pattern算法;触发词提取步骤由分词,句法树建立,建立句法路径,提取触发词系列过程完成;外延事件主题集合步骤由事件元素识别,事件的表示,LDA聚类系列过程完成;外延事件关系识别步骤经过事件表示对主实体识别和外延实体识别进行迭代抽取,最终得到事件关系推理结果。本发明实现半自动的提取事件的方式,然后语义的迭代提取也可以在不牺牲召回率的情况下,实现事件关系提取的自动高效。 | ||
搜索关键词: | 用语 义迭代 提取 网络 突发事件 识别 外延 事件 关系 方法 | ||
【主权项】:
用语义迭代提取网络突发事件并识别外延事件关系的方法,其特征在于包含事件触发词提取步骤,外延事件主题集合步骤,外延事件关系识别步骤,其中外延事件关系识别步骤包括了迭代抽取流程,迭代抽取流程使用Hearst Pattern算法;触发词提取步骤由分词,句法树建立,建立句法路径,提取触发词系列过程完成;外延事件主题集合步骤由事件元素识别,事件的表示,LDA聚类系列过程完成;外延事件关系识别步骤经过事件表示对主实体识别和外延实体识别进行迭代抽取,最终得到事件关系推理结果;实现用语义迭代提取网络突发事件并识别外延事件关系的方法的具体步骤如下:1).事件触发词提取步骤(1)分词:利用HanLp对在句级层面上对事件进行分词;(2)句法树建立:将分词后的数据输入Standford Parser建立句子的语法树型结构,此处值得注意的需要是基于已有的树形结构进句法分析;(3) 建立句法路径:根据树结构建立句法路径:“NN”表示句法树节点,“↓”表示前一节点是后一节点的父节点,“↑”表示前一节点是后一节点的子节点;泛化后的句法路径可表示为[NT↑…↑NT↓…↓NT front( back) ],其中NT 表示句法树中任意非终结符号; front 表示在这条句法路径中,触发词位于最左边; back表示触发词位于最右边;依据句法路径找到触发词;2).外延事件主题集合步骤(1)事件元素识别:事件元素识别使用优化后的ACE2005的定义,优化ACE2005中定义的8种事件类别以及33种子类别,将时间即time加入到每个事件类别中;(2)事件的表示:在完成事件元素识别的前提下,将句子表示成一个事件元素组成的单元,举例说明例如:Lif/Die事件类型包含time,victim,place,instrument四个要素,这个类别的事件可以表示为;(3)LDA聚类:定义外延事件只存在于在同类事件当中,外延事件与原事件本身是存在依赖关系的,用LDA聚类算法将事件聚类;3).外延事件关系识别步骤(1)事件的表示:根据事件表示找到语义词;(2)主实体识别和外延实体识别:根据分组的语义词进行主实体和外延实体的识别,主实体和外延实体都来源于触发词和部分事件元素,定义当事件的触发词和事件元素为外延实体,那么此事件为外延事件;(3)Hearst Pattern算法:输入:句子的Hearst Pattern输出:,外延事件集合1.2.repeat3.foreachdo4.5.ifthen6.7.end8.ifthen9.10.foreachdo11.12.if13.add to14.end15.End。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京亚鸿世纪科技发展有限公司,未经北京亚鸿世纪科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710679941.6/,转载请声明来源钻瓜专利网。