[发明专利]一种中文事件触发词的抽取系统及方法有效
申请号: | 201410626003.6 | 申请日: | 2014-11-07 |
公开(公告)号: | CN104331480B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 李培峰;周国栋;朱巧明;孔芳;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 常亮 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种中文事件触发词的抽取系统及方法。所述系统包括句法和依存分析模块、核心和辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训练集模板抽取模块、候选模板抽取模块、实体特征抽取模块及触发词识别模块。本发明根据角色语义是事件语义的表示形式之一,提供了利用核心角色和辅助角色来表示角色语义的方法,并用于中文事件触发词的抽取。与现有最好的中文事件抽取方法和系统相比,本发明提供的方法对于中文事件触发词的抽取性能有了明显提升。 | ||
搜索关键词: | 一种 中文 事件 触发 抽取 系统 方法 | ||
【主权项】:
中文事件触发词的抽取方法,其特征在于,包括以下步骤:S1、对原始文本每个文档中的句子分别进行词语切分,实体识别、句法分析和依存关系分析,得到依存和句法文档集合;S2、根据需要抽取事件的定义,人工定义每类事件的核心角色和辅助角色,得到核心辅助角色集合;S3、根据训练语料标注的事件信息,抽取所有的事件实例及其特征,得到训练集触发词集合和训练集特征集合;S4、根据训练集触发词集合中标注的触发词,从依存和句法文档集合中抽取候选触发词,构成候选触发词集合;S5、对候选触发词集合中的每个候选触发词,从依存和句法文档集合中得到基本特征集合;S6、对训练集触发词集合中每个触发词,根据所述触发词的事件类型,分别获取核心或辅助实体及其各自对应的实体类型,和所述触发词、所述触发词事件类型、所述触发词和所述核心或辅助实体间的依存路径构成核心或辅助模板五元组,得到训练集核心模板集合和训练集辅助模板集合;S7、对基本特征集合中的每个候选触发词,判断所述候选触发词的初步事件类型;再根据所述初步事件类型抽取所述初步事件类型的核心和辅助角色对应的所有核心和辅助实体及其实体类型,和所述候选触发词、所述触发词事件类型、所述候选触发词与所述核心和辅助实体间的依存路径,分别构成核心和辅助模板五元组,得到候选核心模板集合和候选辅助模板集合;S8、对基本特征集合中的每个候选触发词,分别从候选核心模板集合和候选辅助模板集合中为所述触发词的初步事件类型对应的核心角色和辅助角色选择核心实体和辅助实体,把所述核心实体和辅助实体及其实体类型作为新特征加入基本特征集合,得到完整特征集合;S9、根据训练集特征集合中的特征,训练一个最大熵事件触发词抽取模型;再利用所述最大熵事件触发词抽取模型对每个候选触发词根据完整特征集合进行识别,得到识别触发词集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410626003.6/,转载请声明来源钻瓜专利网。