[发明专利]一种面向特定领域的中文事件抽取方法有效
申请号: | 201810426812.0 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108920447B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 赵忠华;李舟军;王昌宝;孙小宁;李欣;万欣欣 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京航空航天大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F40/289 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 特定 领域 中文 事件 抽取 方法 | ||
1.一种面向特定领域的中文事件抽取方法,其特征在于:该方法步骤具体如下:
S1.预处理:中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理;在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引;
S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;
S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;
S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;
S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取;
所述步骤S5具体如下:
S5.1:从根节点遍历语法树
S5.2:若当前节点是动词词组节点,按照句型匹配算法进行模板匹配,并获得事件编码;
S5.3:对当前节点的每个兄弟节点,若该兄弟节点是名词短语,则对该兄弟节点上用角色字典进行匹配,匹配成功则返回事件参与者之施事者;
S5.4:对当前节点的每个子节点,若该子节点是名词短语,则对该子节点上用角色字典进行匹配,匹配成功则返回事件参与者之受事者;
S5.5:对当前节点的每个兄弟节点,若该兄弟节点含有时间名词,则返回该时间名词作为事件发生时间;
S5.6:对当前节点的每个子节点,若该子节点含有时间名词,则返回该时间名词作为事件发生时间;
S5.7:对当前节点的每个兄弟节点,若该兄弟节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点;
S5.8:对当前节点的每个子节点,若该子节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。
2.根据权利要求1所述的一种面向特定领域的中文事件抽取方法,其特征在于:所述步骤S2具体如下:
S2.1句型模板字典构建
句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建,具体如下:
S2.1.1:同义词归类:将含义相近的触发词进行归类,并对该类触发词指定标签;
S2.1.2:归纳句型:对含有特定事件的新闻语句进行分析,总结句子的中心成分并进行模板化;
S2.2角色字典构建
进行事件抽取时,除了抽取事件类别,也要对事件的参与者进行抽取,通过总结分析,事件参与者主要分为:国家名,人名和组织名;同时对事件参与者进行归类,属于同一国家或者组织的参与者赋予相同的角色编码。
3.根据权利要求1所述的一种面向特定领域的中文事件抽取方法,其特征在于:所述步骤S4具体如下:
S4.1:从根节点遍历句法解析树;
S4.2:若当前节点是动词词组节点,则寻找该节点下的核心动词作为触发词;
S4.3:根据步骤S2获取该触发词匹配的句型模板;
S4.4:从当前节点向上遍历,直到到达一个简单从句节点;在该简单从句表示的子树上,使用句型模板进行模板匹配,并获得对应的事件编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京航空航天大学,未经国家计算机网络与信息安全管理中心;北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810426812.0/1.html,转载请声明来源钻瓜专利网。