[发明专利]一种结合多任务学习的跨文档实体识别方法在审
申请号: | 202011290323.0 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112347784A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 王东升;范红杰;胡振宇;柳军飞 | 申请(专利权)人: | 湖南国发控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 长沙市标致专利代理事务所(普通合伙) 43218 | 代理人: | 蒋佳玉 |
地址: | 410011 湖南省长沙市雨*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 任务 学习 文档 实体 识别 方法 | ||
1.一种结合多任务学习的跨文档实体识别方法,其特征在于:该方法的整体架构中包括数据预处理模块、词嵌入与字符嵌入模块、句子级BiLSTM、联合跨文档的CRF模块、跨文档注意力模块和基于多任务学习的多分类与损失计算模块。
2.根据权利要求1所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:Token的表示由词嵌入和字符嵌入组合拼接而成,词嵌入使用公开的预训练词向量,字符嵌入使用卷积神经网络或循环神经网络获得。
3.根据权利要求2所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:拼接的嵌入表示输入到BiLSTM中,其计算公式如下式(1):
其中it,ft,gt,ot分别是输入门、遗忘门、记忆门和输出门,句子中每个token对应的上下文表示ht由从左到右的上下文表示和从右到左的上下文表示拼接组成:
每个token记为wi,在多个文档中多次出现,其总出现次数为k,记录为:
ui={(di1,si1,oi1),(di2,si2,oi2),...,(dik,sik,oik)} (3)
dik,sik,oik表示wi在第dik个文档中的第sik个句子的第oik个位置上出现;因为wi每次出现均有一个hi与之对应,所以公式(3)中的ui列表对应一个hi列表:
hi={hi1,hi2,...,hik} (4)
4.根据权利要求3所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:跨文档注意力模块的输入为wi对应的所有hi,共k个。
5.根据权利要求4所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:注意力使用公式(5)处理,
表示wi第m次出现与第n次出现的注意力值。
6.根据权利要求5所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:使用softmax函数对进行归一化,最后通过权重求和计算wi第m次出现时对应的跨文档注意力;计算公式如下:
7.根据权利要求1所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:基于多任务学习的多分类与损失计算模块设计了一个易于结合主任务NER的辅助分类任务,将NER任务中标签的类型删除,从而得到‘B’、‘I’、‘O’三种类型;主任务和辅助任务共享底层参数,辅助任务的损失为交叉熵损失:按下式(8)计算:
8.根据权利要求7所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:总损失为NER损失与MCA损失之和,二者通过λ进行调整,NER损失由CRF模型计算获得。
loss=λ×lossNER+(1-λ)×lossMCA (10)。
9.根据权利要求1所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:整体架构中的文本语料中包含大量文档,每个文档由多个句子组成,每个句子包含多个token,一个英文单词、一个逗号等均视为一个token。
10.根据权利要求9所述的一种结合多任务学习的跨文档实体识别方法,其特征在于:原始文本语料在数据预处理阶段,句子内的token被分割开,数字被统一替换为0,每个token对应一个标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南国发控股有限公司,未经湖南国发控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011290323.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种肉制品指标的智能检测箱
- 下一篇:一种珍珠养殖河蚌苗运输存放箱