[发明专利]使用局部学习完成简易事件抽取的方法在审
申请号: | 201910642480.4 | 申请日: | 2019-07-16 |
公开(公告)号: | CN110348018A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 陈文亮;王铭涛;杨耀晟;张民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 冯瑞 |
地址: | 215168 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种使用局部学习完成简易事件抽取的方法。本发明一种使用局部学习完成简易事件抽取的方法,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。本发明的有益效果:尝试解决远程监督获取的数据中存在的漏标和错标问题,提高模型对于命名实体的识别性能。 | ||
搜索关键词: | 抽取 简易 命名实体 识别性能 远程监督 构建 学习 标注 | ||
【主权项】:
1.一种使用局部学习完成简易事件抽取的方法,其特征在于,包括:标注规范构建过程:根据框架下的三类:动宾、双动词、其他,给出具体事件定义。在这基础上根据实际语料给出符合定义的例子,对于存在歧义的地方提供注意事项。规范的构建需要不断迭代,根据实际情况不断完善,最终形成一个条理清晰直观明了的文档。远程监督语料构建过程:首先获取简易事件定义和标注规范。招聘标注人员根据规范进行培训,然后获得一定规模的人工标注数据,将这部分数据中的实体抽取出来,构建实体词表。用所述实体词表在大规模未标注文本中进行匹配,得到远程监督数据集。这部分数据中包含一定数量的噪音。目标就是合理利用上面两部分数据作为训练数据,训练出一个性能较好的简易事件识别模型。基于BiLSTM‑CRF的识别模型:BiLSTM‑CRF模型把识别任务当作序列标注任务来处理,模型输入时汉字序列,输出是标签序列。在命名实体识别任务上,BiLSTM‑CRF已经取得良好效果,要素标注转换成序列标注时采用BIEO标签,其中B‑XX表示要素XX的第一个汉字,E‑XX表示要素的最后一个汉字,要素的其他汉字标注为I‑XX,而非要素汉字都标注为O。在BiLSTM‑CRF模型中,对于输入的汉字序列,首先通过双向LSTM来构造神经元特征,然后组合这些特征输入到CRF层进行标签预测。整个模型分为三个主要部分:1)字向量表示:把输入字串表示为字向量,即把离散型输入转换成低维神经元输入;2)特征抽取:通过双向LSTM和线性变换把字向量转换成神经元特征;3)实体标注:把特征输入到CRF层,使用标注模块获取实体标签;字向量表示:通过一个神经表达层把离散型输入汉字转换成低维神经元输入;使用一个Looking‑up表,表内存储着每个汉字的向量表示。向量的初始值可以通过随机数进行初始化或者预先在大规模无标注语料上用工具来训练。在模型训练过程中,向量的所有数值作为模型的参数,在迭代过程中随同其他参数一起优化;在给定中文句子的字序列时,过查表获取对应的字向量表示。特征提取:基于输入字向量序列,我们通过双向LSTM和一个线性层来提取特征
这些特征将用于CRF实体标注模块。LSTM是长短期记忆网络,是一种循环神经网络,可以很好地对自然语言句子建模。我们将双向LSTM对句子正向和反向抽取出来的特征进行拼接获得了字符的隐层表示
通过下列公式计算得到![]()
其中W和b都是模型参数。上面的公式就是把字符映射到标签上,最终的序列就是由标签集中的标签组成。实体标注:最终使用CRF层进行解码,使模型能够学习到标签与标签之间的依赖关系。求解计算公式如下:![]()
![]()
在参数训练时,采用Log‑likelihood来计算损失值。人工标注序列的概率为:
损失值为:
训练的优化目标是最小化这个损失值。基于局部学习的标注器:局部学习的基本思路是将部分标注数据中的不完整标注句子转换为多路径标注句子,是对上述CRF层的优化目标进行改进;采用基于BiLSTM‑CRF模型作为基础模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910642480.4/,转载请声明来源钻瓜专利网。