[发明专利]一种中文事件时序关系识别方法及系统在审
申请号: | 201510698260.5 | 申请日: | 2015-10-23 |
公开(公告)号: | CN105573977A | 公开(公告)日: | 2016-05-11 |
发明(设计)人: | 李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 唐灵;常亮 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 事件 时序 关系 识别 方法 系统 | ||
技术领域
本发明属于自然语言处理技术领域,具体涉及一种中文事件时序关系识 别方法及系统。
背景技术
事件(Event)是信息表示的一种主要形式,它是一种特定人、物、事在 特定时间和特定地点相互作用的客观事实(也称“自然事件”),如人的受 伤、死亡事件和食品的添加剂事件等。事件是客观事实诉诸文字的独特语用 形式,而一篇文章一般由围绕某个话题或者相关主题的各种事件组成,这些 事件表达了文章的核心内容。因而文本中的事件往往不是孤立个体,其发生 与发展往往与外在的围绕同一话题的其他事件有着一定的关系,如“时序” 关系。事件的时序关系是一种重要的事件关系,它连接了某一话题下事件从 开始到结束的演变过程以及事件的相互关系,近年来成为信息抽取研究的一 个热点。
形成一种自动识别事件之间时序关系的处理机制,对其他自然语言处理 领域具有促进作用。对于一系列的新闻报道,了解各个事件之间的关系,可 以更好地对文章内容进行归纳总结,以便人们快速获取有效信息。在文景转 换系统中,需要知道文中事件发生的先后顺序,以此来排列动画场景,保证 整个故事情节的连续性。因此,事件时序关系的研究不仅具有理论意义,还 具有一定的实用价值。
目前,事件时序关系识别绝大多数面向英文,中文事件时序关系识别方 法较少。英文事件时序关系识别研究所使用的方法由早期的规则方法转变为 统计机器学习方法。由于缺少成熟的语料库,早期的英文事件时序关系识别 模型多数基于规则建立,常见的规则方法有规则推理法和模式匹配法等。规 则推理法主要是通过定义的规则集合来实现事件关系的识别与推理。Allen首 先提出了一种13类时序关系的分类体系,将时间看作一个区间,利用“区间 代数”法定义了一系列的时序关系推理规则。也有些人通过不同的知识来推 断事件的时间顺序,如时间状语、时态、体态、修辞关系、实际惯例和背景 知识等。由于规则推理法具有较高的强制性,它虽然有很高的准确率,但召 回率偏低。模式匹配法就是根据人工定义的模板抽取文本中符合模板的事件 关系对,该方法通常借助事件触发词间的关系来识别事件之间的关系。比如, Chklovski等通过LSP(Lexcial-SyntacticPattern,即词-句匹配模板)来抽取事 件关系对,并将抽取的结果整理成一个知识库(称为VerbOcean),在定义的 模板中共包括六种时序关系(Similarity,Strength,Antonymy,Enablement, Happens和Before)。人工定义的事件关系对模板受数量限制,也会造成低召 回率的问题;另外,由于模板的通用性较强,会产生许多噪声信息,影响准 确率。
随着TimeML(TimeMarkupLanguage)标注体系的发展以及TimeBank 语料库的出现,统计机器学习方法开始广泛应用于事件时序关系识别研究。 TimeBank语料库现已成为众多学者研究英文事件时序关系的专业语料库。 Mani等在TimeBank语料库和Opinion语料库的基础上,提出了事件属性特征 (称为“完美特征”):事件类别、体态、形态、极性、时态等,并使用最 大熵分类算法对事件对进行时序关系的识别。Chambers在Mani的基础上, 对特征空间进一步扩展,加入了更多的词法、上下文及句法特征,使用两步 识别来解决事件时序关系识别问题,其中第一步是识别时态、极性、体态等 属性,第二步将第一步识别的结果加入到特征集合中来识别事件之间的时序 关系,实验结果较Mani有较大提升。D’Souza总结了大量用于事件时序关 系识别的特征,并提出了有关篇章级别的特征,使系统性能有了一定的提高。 Mirza在实验中发现在仅使用一些简单的特征却比使用一些复杂的语义信息 的识别效果更好。
在中文事件时序关系识别方面,国内还未展开大规模的深入研究,只有 少数研究者做了部分有益的尝试。由于缺少专业的语料库支持,无法进行统 一评测,因此,其相关研究工作比较零散、不成体系。Li最先研究中文事件 时序关系识别问题,提出了一种基于规则的识别方法,即定义了时序关系指 示词到时序关系的映射规则,虽然实现原理简单,但效率差。仲兆满提出了 一种事件关系表示模型,并进行了一个简单的事件关系推理实验。王风娥采 用最大熵分类器识别句子内的事件时序关系,实验中使用了一些有助于提高 同句内事件时序关系的语言特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510698260.5/2.html,转载请声明来源钻瓜专利网。