[发明专利]一种中文事件的处理方法及系统有效
申请号: | 201410403486.3 | 申请日: | 2014-08-15 |
公开(公告)号: | CN104156352B | 公开(公告)日: | 2017-04-19 |
发明(设计)人: | 李培峰;周国栋;朱巧明;孔芳;刁红军 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 常亮 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种中文事件的处理方法及系统,方法包括对原始文本内文档的语句进行分析,得到依存和句法文档集合;依据事件抽取请求数据抽取种子事件模板,得到种子事件模板集合;在依存和句法文档集合中,依据触发词选取规则选择候选触发词,得到候选触发词集合;依据依存和句法文档集合中依存关系信息,将候选触发词集合的候选触发词与其所属语句中的实体进行两两组合,得到多个候选事件模板,所有候选事件模板组成候选事件模板集合;依据语义信息集合及种子事件模板集合,对候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;对过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合。 | ||
搜索关键词: | 一种 中文 事件 处理 方法 系统 | ||
【主权项】:
一种中文事件的处理方法,其特征在于,包括:对原始文本内每个文档的语句进行词语切分、实体识别、句法分析及依存关系分析,得到依存和句法文档集合;依据事件抽取请求数据,抽取种子事件模板,得到种子事件模板集合,每个所述种子事件模板包括有触发词、触发词词性、实体、实体类型及所述触发词与实体之间的依存路径;在所述依存和句法文档集合中,依据预设的触发词选取规则,选择候选触发词,得到候选触发词集合;依据所述依存和句法文档集合中的依存关系信息,将所述候选触发词集合中的候选触发词分别与其所属语句中的实体进行两两组合,得到多个候选事件模板,所述候选事件模板包括候选触发词、候选触发词词性、实体、实体类型、候选触发词与实体之间的依存路径,所有所述候选事件模板组成候选事件模板集合;依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合;对所述过滤模板集合中的每个候选事件模板进行语句结构转换,得到最终候选事件模板集合;所述依据预设的语义信息集合及所述种子事件模板集合,对所述候选事件模板集合中满足模板删除规则的候选事件模板进行删除,得到过滤模板集合,包括:获取所述候选事件模板集合中每个候选事件模板的候选触发词在所述原始文本中的出现次数;将每个所述候选事件模板对应的出现次数除以所述原始文本中文档的数目,得到每个候选触发词的文档频率;在所述候选事件模板集合中,将所述文档频率大于预设第一阈值的候选触发词所在的候选事件模板进行删除,得到第一模板集合;在所述第一模板集合中,将候选触发词词性为名词且为实体的候选事件模板进行删除,得到第二模板集合;获取所述第二模板集合中的每个候选事件模板的候选触发词与所述种子事件模板集合中的每个种子事件模板的触发词之间的语义相似度值;在所述第二模板集合中,将所述候选触发词的语义相似度值均小于预设第二阈值的候选事件模板进行删除,得到第三模板集合;在所述第三模板集合中,将实体类型区别于目标事件信息中所有事件角色的实体类型集合中的任意一个实体类型的候选事件模板进行删除,得到第四模板集合;在所述第四模板集合中,将存在连续两个词语均为实体的候选事件模板进行删除,得到第五模板集合;在所述第五模板集合中,将存在候选触发词与实体事件的依存路径的长度大于预设第三阈值的候选事件模板进行删除,得到第六模板集合;在所述第六模板集合中,将存在候选触发词与其处于同一语句的非实体词语具有预设目标依存关系的候选事件模板进行删除,得到过滤模板集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410403486.3/,转载请声明来源钻瓜专利网。
- 上一篇:编码格式检测方法及装置
- 下一篇:一种光照强度数据的频谱分析计算方法及计算器