[发明专利]使用局部学习完成简易事件抽取的方法在审
申请号: | 201910642480.4 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110348018A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 陈文亮;王铭涛;杨耀晟;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 冯瑞 |
地址: | 215168 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 简易 命名实体 识别性能 远程监督 构建 学习 标注 | ||
本发明公开了一种使用局部学习完成简易事件抽取的方法。本发明一种使用局部学习完成简易事件抽取的方法,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。本发明的有益效果:尝试解决远程监督获取的数据中存在的漏标和错标问题,提高模型对于命名实体的识别性能。
技术领域
本发明涉及简易事件抽取领域,具体涉及一种使用局部学习完成简易事件抽取的方法。
背景技术
简易事件定义为动词和它的宾语直接连接的事件,用于描述场景。例如:打篮球、踢足球、吃早餐、打电话。我们将简易事件抽取问题转化为命名实体识别问题,从句子中识别出事先定义的事件要素类别实例。
实体识别任务经过多年研究,已经取得很好的进展。目前主要研究难点在于:在不同领域和不同应用中,通常要识别新实体类别,很难对应快速构建高性能系统。在构建新实体类别识别系统时,通常需要有标注语料来训练模型,而这时很难制定出详实准确的实体标注规范,且标注数据费时费力。另外,领域自适应问题也是一个非常突出的问题,即实体识别系统在新领域文本上标注性能下降幅度较大。
目前,常见的实体识别方法大致可以分为:1)基于规则和词典的方法;2)基于传统机器学习模型的方法;3)基于深度学习的方法。在三种方法的基础上,还有一些系统构建在它们之间的混合之上。
现有相关技术:
1、数据构建:
专家标注,即数据标注人员为所在领域的专家或者标注规范制定人员,以此来获取高质量的标注数据。
众包标注。众包是一种分布式的问题解决和标注模式,通过将数据和标注规范提供给非专业人员。经过简单培训后进行标注,最后将有标注的数据提供给众包数据发布者。过程中往往会设置部分的“陷阱”,之后根据非专业人员的标注表现,提供一定奖励。
远程监督。假设一开始存在少量人工标注数据和实体词表情况下,远程监督方法用该词表在大规模无标注语料中进行匹配,匹配上的字符串就认为是正确的标注。
2、基于深度学习的实体识别方法:
目前最常用的模型是BiLSTM-CRF模型,模型的为链式结构分为Embedding层(用向量表示输入的字或词),双向LSTM层(在向量表示的基础上对整句话建模抽取隐含表示),线性层(串联字符与标签的映射关系)以及最后的CRF层(串联标签与标签的映射关系)构成。实验结果表明BiLSTM-CRF获得了更好的效果,已经达到或者超过了基于丰富特征的CRF模型。在特征方面,该模型不需要特别好的特征工程,使用词向量以及字符向量就可以达到很好的效果。
传统技术存在以下技术问题:
1、数据构建:
1)专家标注人数一般较少,标注速度慢,无法获得成规模的标注语料,无法满足实际的应用需求。
2)众包标注的人员对数据领域没有太多经验,在标注前需要制定详细的标注规范,并且需要经过一段时间的培训。不同的标注员对于规范和语料有不同的理解和标注习惯,导致标注结果中存在大量的标注不一致或错误标注,导致标注数据质量低下。
例:
标注员1:包装严实送到没有磕碰。
标注员2:{包装@EVENT}严实送到没有磕碰。
“包装”在这句话的上下文情境中不表示为简易事件,属于标注不一致的例子。
3)远程监督受限于已经构建的种子资源的规模和质量,很多未登录资源容易被遗漏。数据构造过度依赖匹配准则和算法,所以远程监督获取的数据存在两个问题——漏标和错标。
例1:我喜欢Beyond的{不再犹豫@SONG}和再见理想。【漏标】
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910642480.4/2.html,转载请声明来源钻瓜专利网。