[发明专利]一种结合多任务学习的跨文档实体识别方法在审

申请号：	202011290323.0	申请日：	2020-11-18
公开（公告）号：	CN112347784A	公开（公告）日：	2021-02-09
发明（设计）人：	王东升;范红杰;胡振宇;柳军飞	申请（专利权）人：	湖南国发控股有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06N3/04
代理公司：	长沙市标致专利代理事务所(普通合伙) 43218	代理人：	蒋佳玉
地址：	410011 湖南省长沙市雨***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结合任务学习文档实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种结合多任务学习的跨文档实体识别方法，其特征在于：该方法的整体架构中包括数据预处理模块、词嵌入与字符嵌入模块、句子级BiLSTM、联合跨文档的CRF模块、跨文档注意力模块和基于多任务学习的多分类与损失计算模块。

2.根据权利要求1所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：Token的表示由词嵌入和字符嵌入组合拼接而成，词嵌入使用公开的预训练词向量，字符嵌入使用卷积神经网络或循环神经网络获得。

3.根据权利要求2所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：拼接的嵌入表示输入到BiLSTM中，其计算公式如下式(1)：

其中i_t,f_t,g_t,o_t分别是输入门、遗忘门、记忆门和输出门，句子中每个token对应的上下文表示h_t由从左到右的上下文表示和从右到左的上下文表示拼接组成：

每个token记为w_i,在多个文档中多次出现，其总出现次数为k，记录为：

u_i＝{(d_i1,s_i1,o_i1),(d_i2,s_i2,o_i2),...,(d_ik,s_ik,o_ik)} (3)

d_ik,s_ik,o_ik表示w_i在第d_ik个文档中的第s_ik个句子的第o_ik个位置上出现；因为w_i每次出现均有一个h_i与之对应，所以公式(3)中的u_i列表对应一个h_i列表：

h_i＝{h_i1,h_i2,...,h_ik} (4)

4.根据权利要求3所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：跨文档注意力模块的输入为wi对应的所有hi，共k个。

5.根据权利要求4所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：注意力使用公式(5)处理，

表示wi第m次出现与第n次出现的注意力值。

6.根据权利要求5所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：使用softmax函数对进行归一化，最后通过权重求和计算wi第m次出现时对应的跨文档注意力；计算公式如下：

7.根据权利要求1所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：基于多任务学习的多分类与损失计算模块设计了一个易于结合主任务NER的辅助分类任务，将NER任务中标签的类型删除，从而得到‘B’、‘I’、‘O’三种类型；主任务和辅助任务共享底层参数，辅助任务的损失为交叉熵损失：按下式(8)计算：

8.根据权利要求7所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：总损失为NER损失与MCA损失之和，二者通过λ进行调整，NER损失由CRF模型计算获得。

loss＝λ×loss_NER+(1-λ)×loss_MCA (10)。

9.根据权利要求1所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：整体架构中的文本语料中包含大量文档，每个文档由多个句子组成，每个句子包含多个token，一个英文单词、一个逗号等均视为一个token。

10.根据权利要求9所述的一种结合多任务学习的跨文档实体识别方法，其特征在于：原始文本语料在数据预处理阶段，句子内的token被分割开，数字被统一替换为0，每个token对应一个标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南国发控股有限公司，未经湖南国发控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011290323.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种结合多任务学习的跨文档实体识别方法在审

专利文献下载