[发明专利]多模态文物数据的命名实体识别方法与装置有效
申请号: | 201911230004.8 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111046668B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 杨鸿波;侯霞;胡玉针 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/0442;G06N3/0455;G06N3/0464 |
代理公司: | 北京远创理想知识产权代理事务所(普通合伙) 11513 | 代理人: | 卫安乐 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多模态 文物 数据 命名 实体 识别 方法 装置 | ||
1.一种基于自适应联合注意力网络的多模态文物数据的命名实体识别NER方法,所述多模态文物数据包括文本和图像信息;结合视觉信息在多模态文物数据上识别命名实体;基于所述自适应联合注意力网络构建处理多模态数据的神经网络模型,其用于学习文本和图像之间的共享语义,所述模型包括五个部分:文本特征选择、图像特征提取、文本注意力模块、自适应联合注意力网络、解码器;其特征在于:
首先从序列标注的角度进行处理;将NER任务看作序列标注问题,以编码器-解码器为基本框架,在文本和图像特征融合方面采用自适应联合注意力网络自动融合信息,采用门控单元来自动选择是否需要视觉信息;并使用过滤门模块来过滤图像引入带来的噪声;
文本输入基于注意力机制进行特征选择:通过分词和词性标注,从而得到某个词的词向量w′t和词性向量w″t;
其中,w′、w″、b′和b″为参数,表示矩阵的级联,⊙表示矩阵的数乘,tanh与softmax为激活函数,αwt表示词向量和词性向量的注意力权值,基于上述运算,新的词向量可以表示为wt;
采用预训练的VGG-16网络进行图像特征提取,为了得到图像不同区域的特征,选择最后一层池化层conv3-512作为特征图;首先将文物图像进行归一化为224x224像素大小,进行减均值操作,输入VGG网络得到特征图,尺寸为7x7x512其中7x7代表给定图像的区域个数,512代表每个区域的特征向量维度;因此一幅图像可以表示为:其中,d为向量维度,N为特征区域的个数,vi为每个区域的特征向量;
文本特征的编码器选择Bi-LSTM网络,通过解码器的隐藏层状态利用注意力机制来获得编码器当前词输出的新的语义向量;这种方式考虑了上下文语境,可以克服语言歧义;计算公式如下:
ct=softmax(α1)*H
其中,是输入序列经编码器Bi-LSTM输出的隐藏状态,d1为Bi-LSTM隐藏神经元的个数,n为输入序列的长度;HT为H的转置;Wa为参数矩阵;为上一个时间步解码器的隐藏层状态,d2为解码器隐藏神经元的个数;*为向量和矩阵进行元素相乘;Ct为经过上述运算后得到的编码语义向量;
所述模型还包括门控融合模块,门控融合模块自适应的选择应该融合多少图像信息;该模块可以自动组合基于注意力机制得到的图像和词的特征;对于每个词,得到一个基于词注意力的视觉特征和一个基于视觉注意力的文本特征然后通过一个自适应控制门来融合二者;定义如下:
其中,Wv、和Wg为参数,和为经过tanh函数变换后新的视觉向量和文本向量;表示向量的级联,σ表示sigmoid函数,gj是应用到和的自适应门,来融合视觉和文本向量;mj是融合后的多模态特征。
2.一种基于自适应联合注意力网络的多模态文物数据的命名实体识别NER装置,所述多模态文物数据包括文本和图像信息;结合视觉信息在多模态文物数据上识别命名实体;基于所述自适应联合注意力网络构建处理多模态数据的神经网络模型,其用于学习文本和图像之间的共享语义,所述装置包括五个部分:文本特征选择、图像特征提取、文本注意力模块、自适应联合注意力网络、解码器;其特征在于:
所述装置用于,首先从序列标注的角度进行处理;将NER任务看作序列标注问题,并结合注意力机制,以编码器-解码器为基本框架,在文本和图像特征融合方面采用自适应联合注意力网络自动融合信息,采用门控单元来自动选择是否需要视觉信息;基于自适应联合注意力网络,结合视觉信息在多模态文物数据上识别命名实体;并使用过滤门单元来过滤图像引入带来的噪音;
所述装置进一步包括,模型输入基于注意力机制文本输入特征选择:通过分词和词性标注,得到某个词的词向量w′t和词性向量W″t;
其中,W′、w″、b′和b″为参数,表示矩阵的级联,⊙表示矩阵的数乘,tanh与softmax为激活函数,αwt表示词向量和词性向量的注意力权值,基于上述运算,新的词向量可以表示为wt;
所述装置进一步包括,采用预训练的VGG-16网络进行图像特征提取,为了得到图像不同区域的特征,选择最后一层池化层的特征图;首先将文物图像进行归一化为224X224像素大小,进行减均值操作,输入VGG网络得到特征图,尺寸为7X7X512其中7X7代表给定图像的区域个数,512代表每个区域的特征向量维度;因此一幅图像可以表示为:其中,d为向量维度,N为特征区域的个数,vi为每个区域的特征向量;
所述装置进一步包括,文本特征的编码器选择Bi-LSTM网络,将文本注意力机制引入解码器结构中,当对当前词语进行分类时,同时考虑当前编码状态与其上下文的语义编码,从而得到的编码向量不再局限于固定隐向量,而会融入上下文的语义;计算公式如下:
ct=softmax(α1)*H;
其中,是输入序列经编码器Bi-LSTM输出的隐藏状态,d1为Bi-LSTM隐藏神经元的个数,n为输入序列的长度;HT为H的转置;Wa为参数矩阵;为上一个时间步解码器的隐藏层状态,d2为解码器隐藏神经元的个数;*为向量和矩阵进行元素相乘;Ct为经过上述运算后得到的编码语义向量;
所述装置进一步包括门控融合模块,门控融合模块自适应的选择应该融合多少图像信息;该模块可以自动组合基于注意力机制得到的图像和词的特征;对于每个词,得到一个基于词注意力的视觉特征和一个基于视觉注意力的文本特征然后通过一个自适应比例门来融合二者;定义如下:
其中,Wv、和Wg为参数,和为经过tanh函数变换后新的视觉向量和文本向量;表示向量的级联,σ表示sigmoid函数,gj是应用到和的自适应门,来融合视觉和文本向量;mj是融合后的多模态特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911230004.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置