[发明专利]多模态文物数据的命名实体识别方法与装置有效

专利信息
申请号: 201911230004.8 申请日: 2019-12-04
公开(公告)号: CN111046668B 公开(公告)日: 2023-09-22
发明(设计)人: 杨鸿波;侯霞;胡玉针 申请(专利权)人: 北京信息科技大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/0442;G06N3/0455;G06N3/0464
代理公司: 北京远创理想知识产权代理事务所(普通合伙) 11513 代理人: 卫安乐
地址: 100192 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多模态 文物 数据 命名 实体 识别 方法 装置
【说明书】:

发明提供了一种基于自适应联合注意力网络的多模态文物数据的命名实体识别NER方法,所述多模态文物数据包括文本和图像信息;结合视觉信息在多模态文物数据上识别命名实体;基于所述自适应联合注意力网络构建处理多模态数据的神经网络模型,其用于学习文本和图像之间的共享语义,首先从序列标注的角度进行处理;将NER任务看作序列标注问题,并结合注意力机制,以编码器‑解码器为基本框架,在文本和图像特征融合方面采用自适应联合注意力网络自动融合信息,采用门控单元来自动选择是否需要视觉信息;基于自适应联合注意力网络,结合视觉信息在多模态文物数据上识别命名实体;并使用过滤门单元来过滤图像引入带来的噪音。

技术领域

本发明涉及计算机技术领域,特别是涉及一种深度学习算法的技术领域。

背景技术

命名实体识别NER(Named Entity Recognition),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。可以基于训练好的人工智能模型或神经网络模式识别命名实体。

命名实体识别旨在识别非结构化的数据中的命名实体。目前中英文上的通用命名实体识别任务已经取得了很好的效果。但对于文物领域,命名实体识别的研究较少,且缺少相应的训练语料和数据集,识别的实体也更加抽象(文物材质、质地等)。因此本次发明涉及文物领域的命名实体识别的研究。多模态文物数据包含:文本和图像描述。传统的命名实体识别通常仅对非结构化的文本进行处理,而文物图像往往提供了更加直观的语义描述,图像信息对于命名实体识别也是有价值的。本发明设计了一种新的模型来处理包含文本和图像的多模态文本数据。扩展了带有自适应联合注意力网络的编码器-解码器结构,以实现该任务。为了评估该模型,构建了一个包含多模态文物数据的大规模标注数据集。

发明内容

本申请实施例提供了一种命名实体识别的模型训练方法以及命名实体识别方法,用于解决目前命名实体识别技术不能利用视觉信息的不足,本发明提供了一种命名实体识别的自适应联合注意力网络用来处理多模态文物数据,提高了识别的准确率。具体包括如下技术方案:

一种基于自适应联合注意力网络的多模态文物数据的命名实体识别NER方法,所述多模态文物数据包括文本和图像信息;结合视觉信息在多模态文物数据上识别命名实体;基于所述自适应联合注意力网络构建处理多模态数据的神经网络模型,其用于学习文本和图像之间的共享语义,所述模型包括五个部分:文本特征选择、图像特征提取、文本注意力模块、自适应联合注意力网络、解码器;其特征在于:

首先从序列标注的角度进行处理;将NER任务看作序列标注问题,并结合注意力机制,以编码器-解码器为基本框架,在文本和图像特征融合方面采用自适应联合注意力网络自动融合信息,采用门控单元来自动选择是否需要视觉信息;基于自适应联合注意力网络,结合视觉信息在多模态文物数据上识别命名实体;并使用过滤门单元来过滤图像引入带来的噪音。

优选的,模型输入基于注意力机制文本输入特征选择:通过分词和词性标注,得到某个词的词向量w′t和词性向量w″t

其中,w′、w″、b′和b″为参数,表示矩阵的级联,⊙表示矩阵的数乘,tanh与softmax为激活函数,αwt表示词向量和词性向量的注意力权值,基于上述运算,新的词向量可以表示为wt

优选的,采用预训练的VGG-16网络进行图像特征提取,为了得到图像不同区域的特征,本发明选择最后一层池化层的特征图;首先将文物图像进行归一化为224x 224像素大小,进行减均值操作,输入VGG网络得到特征图,尺寸为7x 7x 512其中7x 7代表给定图像的区域个数,512代表每个区域的特征向量维度;因此一幅图像可以表示为:其中,d为向量维度,N为特征区域的个数,vi为每个区域的特征向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911230004.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top