[发明专利]英文事件同指消解方法和系统有效
申请号: | 201811203139.0 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109359184B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 程昊熠;李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 查杰;曹成俊 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 事件 消解 方法 系统 | ||
本发明公开了一种英文事件同指消解方法和系统。本发明英文事件同指消解方法,包括:读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合。本发明的有益效果:利用从事件句中抽取的信息特征和事件对匹配特征,采用循环神经网络对事件对之间的同指关系进行判定;本发明采用循环神经网络模型,利用深度学习来解决事件同指消解问题;本发明的方法和系统,与现有的方法和系统相比,英文事件同指消解性能得到了明显提升。
技术领域
本发明涉及自然语言处理领域,具体涉及一种事件同指消解方法。
背景技术
同指消解是自然语言处理中的一个难点。近年来,绝大多数研究针对实体同指消解,事件同指消解的研究相对较少,仍然是一项具有挑战性的工作。事件同指消解是在判断文本中的两个事件句是否指向了真实世界中的同一个事件的基础上,将它们链接到同一个事件链。根据事件句是否在同一个文档中,可以把事件同指消解任务划分为文档内事件同指消解和跨文档事件同指消解。
目前,相对于实体同指消解[1]的研究,事件同指消解研究还很少。事件同指消解由实体同指消解演变而来,研究方法与实体同指消解类似。事件同指消解一般分为文档内事件同指消解和跨文档事件同指消解。
目前,仅仅有少数的关于跨文档事件同指消解的研究。Bejan和Harabagiu创建了Event Coreference Bank(ECB)语料库,这是第一个为跨文档事件同指消解提供的语料库。同时,他们也提供了一系列无监督型的贝叶斯方法。Cybulska和Vossen二人指出ECB语料库的词汇不具有多样性,为此,他们二人又建立了一个更庞大的ECB+语料库。目前,在该领域大部分的研究都是使用的扩展型贝叶斯模型,例如无参数型贝叶斯[2]和分层贝叶斯模型[3]。
早期的文档内事件同指消解研究都建立在实体同指消解的基础上,使用的传统机器学习的方法,比如基于概率的模型和基于图的模型等等。Chen[4]提出了一种基于一系列事件对属性(如触发词,时态,极性等)的事件对同指消解分类器。Chen和Jin[5]提出了一种基于图模型的聚类方法,他们使用最小图切割的方法来处理事件同指链,将不属于该链的事件句剔除出去。Liu[6]从事件句中提取出了100多种的特征来放入SVM事件对分类器中进行实验。Lu[7]提出了一种基于马尔科夫链的联合推理模型用于纠正分类器产生的错误结果。Liu[8]则采用了基于图的传统方法,将非同指的事件句从图中切割出去,而且该方法引入了许多特征,比如框架特征,论元特征,事件句距离等等。
如今,深度学习的方法已经成为自然语言处理领域的一种主流方法。神经网络模型在问答系统,相似度比较等任务中都取得了不错的效果。Krause[9]首次使用神经网络模型在事件同指消解任务上进行了尝试,取得了不错的效果。他先用CNN和池化层对事件句和触发词的上下文进行处理,提取出特征,然后引入了一些事件对之间的特征来辅助判别事件对之间是否存在同指关系。该方法也成为了目前的主流。Choubey[10]先用全连接层对两个事件句进行了变维操作,然后计算两个事件句的Cosine距离和欧式距离,最后通过激活函数得出一个置信度来判定同指关系。
传统技术存在以下技术问题:
当前,绝大多数事件同指消解主要存在两个问题:1)在以往研究中,通常使用基于概率的模型或者基于图的模型[4],这些方法通常不能提取出事件句的全局信息,事件句内单词与单词之间的局部信息以及事件句中相对重要的部分。同时,它们不能提取出触发词之间,论元之间以及事件结构之间的语义信息。2)近年来,人们将事件同指消解看作是基于事件对的事件同指消解,即把任意两个事件句放在一起组成一对事件对,判断它们二者是否是同指关系。但这种方法也有一种弊端,各个事件对之间可能会产生相互的冲突,从而影响对于事件对是否同指的判断,尽管目前可以施加规则来减轻这种问题的干扰,但毕竟不是长久之计,如果更换了语料库,规则也要随之改变。
本发明参考文献如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811203139.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文本信息的查重方法、装置及电子设备
- 下一篇:一种兼职智能搜索排序方法