[发明专利]使用局部学习完成简易事件抽取的方法在审

专利信息
申请号: 201910642480.4 申请日: 2019-07-16
公开(公告)号: CN110348018A 公开(公告)日: 2019-10-18
发明(设计)人: 陈文亮;王铭涛;杨耀晟;张民 申请(专利权)人: 苏州大学
主分类号: G06F17/27 分类号: G06F17/27;G06N3/04;G06N3/08
代理公司: 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 代理人: 冯瑞
地址: 215168 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 抽取 简易 命名实体 识别性能 远程监督 构建 学习 标注
【说明书】:

发明公开了一种使用局部学习完成简易事件抽取的方法。本发明一种使用局部学习完成简易事件抽取的方法,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。本发明的有益效果:尝试解决远程监督获取的数据中存在的漏标和错标问题,提高模型对于命名实体的识别性能。

技术领域

本发明涉及简易事件抽取领域,具体涉及一种使用局部学习完成简易事件抽取的方法。

背景技术

简易事件定义为动词和它的宾语直接连接的事件,用于描述场景。例如:打篮球、踢足球、吃早餐、打电话。我们将简易事件抽取问题转化为命名实体识别问题,从句子中识别出事先定义的事件要素类别实例。

实体识别任务经过多年研究,已经取得很好的进展。目前主要研究难点在于:在不同领域和不同应用中,通常要识别新实体类别,很难对应快速构建高性能系统。在构建新实体类别识别系统时,通常需要有标注语料来训练模型,而这时很难制定出详实准确的实体标注规范,且标注数据费时费力。另外,领域自适应问题也是一个非常突出的问题,即实体识别系统在新领域文本上标注性能下降幅度较大。

目前,常见的实体识别方法大致可以分为:1)基于规则和词典的方法;2)基于传统机器学习模型的方法;3)基于深度学习的方法。在三种方法的基础上,还有一些系统构建在它们之间的混合之上。

现有相关技术:

1、数据构建:

专家标注,即数据标注人员为所在领域的专家或者标注规范制定人员,以此来获取高质量的标注数据。

众包标注。众包是一种分布式的问题解决和标注模式,通过将数据和标注规范提供给非专业人员。经过简单培训后进行标注,最后将有标注的数据提供给众包数据发布者。过程中往往会设置部分的“陷阱”,之后根据非专业人员的标注表现,提供一定奖励。

远程监督。假设一开始存在少量人工标注数据和实体词表情况下,远程监督方法用该词表在大规模无标注语料中进行匹配,匹配上的字符串就认为是正确的标注。

2、基于深度学习的实体识别方法:

目前最常用的模型是BiLSTM-CRF模型,模型的为链式结构分为Embedding层(用向量表示输入的字或词),双向LSTM层(在向量表示的基础上对整句话建模抽取隐含表示),线性层(串联字符与标签的映射关系)以及最后的CRF层(串联标签与标签的映射关系)构成。实验结果表明BiLSTM-CRF获得了更好的效果,已经达到或者超过了基于丰富特征的CRF模型。在特征方面,该模型不需要特别好的特征工程,使用词向量以及字符向量就可以达到很好的效果。

传统技术存在以下技术问题:

1、数据构建:

1)专家标注人数一般较少,标注速度慢,无法获得成规模的标注语料,无法满足实际的应用需求。

2)众包标注的人员对数据领域没有太多经验,在标注前需要制定详细的标注规范,并且需要经过一段时间的培训。不同的标注员对于规范和语料有不同的理解和标注习惯,导致标注结果中存在大量的标注不一致或错误标注,导致标注数据质量低下。

例:

标注员1:包装严实送到没有磕碰。

标注员2:{包装@EVENT}严实送到没有磕碰。

“包装”在这句话的上下文情境中不表示为简易事件,属于标注不一致的例子。

3)远程监督受限于已经构建的种子资源的规模和质量,很多未登录资源容易被遗漏。数据构造过度依赖匹配准则和算法,所以远程监督获取的数据存在两个问题——漏标和错标。

例1:我喜欢Beyond的{不再犹豫@SONG}和再见理想。【漏标】

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910642480.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top