[发明专利]一种中文事件的处理方法及系统有效
申请号: | 201410403486.3 | 申请日: | 2014-08-15 |
公开(公告)号: | CN104156352B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 李培峰;周国栋;朱巧明;孔芳;刁红军 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 常亮 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 事件 处理 方法 系统 | ||
1.一种中文事件的处理方法,其特征在于,包括:
对原始文本内每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合;
依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,每个所述种子事件模板包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径;
在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合;
依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合;
依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;
对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合;
所述依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合,包括:
获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数;
将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率;
在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合;
在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合;
获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值;
在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合;
在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合;
在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合;
在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合;
在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
2.根据权利要求1所述的方法,其特征在于,所述依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,包括:
依据事件抽取请求数据中需要抽取的每类事件的目标事件信息,所述目标事件信息中包括由事件类型、至少一个事件角色及其各自对应的实体类型集合,获取多个种子事件语句,组成种子事件第一集合,所述种子事件第一集合中的每个种子事件语句具有标注信息:事件触发词、每个事件角色对应的实体及其实体类型;
对所述种子事件第一集合内每个种子事件语句进行词语切分、句法分析及依存关系分析,得到标注有依存关系及句法结构的种子事件语句,组成种子事件第二集合;
对所述种子事件第二集合内每个种子事件语句中的种子事件触发词和标记为事件角色的实体进行两两组合,生成所述种子事件第二集合中每个种子事件语句各自对应的第一四元组,所述第一四元组中包括触发词、触发词词性、实体及实体类型;
依据所述种子事件第二集合中的每个种子事件语句的依存关系,获取每个所述第一四元组中触发词与实体之间的依存路径,所述第一四元组中的触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径组成其对应种子事件的种子事件模板,所有所述种子事件模板组成种子事件模板集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410403486.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:编码格式检测方法及装置
- 下一篇:一种光照强度数据的频谱分析计算方法及计算器