[发明专利]基于解耦特征引导的多模态文本页面分类方法在审
申请号: | 202211374707.X | 申请日: | 2022-11-04 |
公开(公告)号: | CN115761757A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 柯逍;许培荣 | 申请(专利权)人: | 福州大学 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/18;G06V10/422;G06V10/56;G06V10/80;G06V10/764;G06V10/82 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈鼎桂;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 引导 多模态 文本 页面 分类 方法 | ||
本发明涉及一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。本发明能够有效地通过多模态方法对电子文本页面进行准确分类。
技术领域
本发明涉及模式识别与计算机视觉领域,具体涉及一种基于解耦特征引导的多模态文本页面分类方法。
背景技术
近些年来,随着平板电脑、手机等智能设备大量普及,电子文本页面逐渐成为最重要的信息媒介之一。电子文本页面上显示的各种信息格式、种类、来源都不同,使得单一模态方法难以有效对综合特征进行分析。此外,当下现实场景中的文档图像分类任务是最接近电子文本页面分类相似的视觉任务,但电子文本页面图像包括了文档的种类且不限于此,前人在文档图像分类任务上同样通过提取文档中文本采用多模态方法进行分类,但目前关于电子文本页面相关的研究很少。
尽管计算机视觉技术已经取得很大进步,在电子文本页面场景中还面临着许多挑战,如单一模态特征缺少信息相关性和互补性,模型学习图像细节特征代价问题等。
发明内容
有鉴于此,本发明的目的在于提供一种基于解耦特征引导的多模态文本页面分类方法,能够有效地通过多模态方法对电子文本页面进行准确分类。
为实现上述目的,本发明采用如下技术方案:
一种基于解耦特征引导的多模态文本页面分类方法,包括以下步骤:
获取电子文本页面数据构建训练集,并基于训练集训练双流的端到端Transformer编码网络,所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器;
将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征;
将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征;
将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征,并用于分类网络进行分类。
进一步的,所述电子文本页面数据包括经济、军事、体育、美食、科技、旅游类别的电子文本页面图像和文本数据。
进一步的,所述语言特征提取器包括第二解耦表征网络模块和语言编码器;所述语言特征提取器处理数据的方法,具体如下:
将待分类的电子文本页面的文本数据先输入第二解耦表征网络模块,得到浅层语言特征Ehead和剩余文本特征Etail;
然后将浅层语言特征Ehead通过10层Transformer结构的语言编码器网络进一步提取文本特征得到深层语言特征Ft。
进一步的,设Text={t1,t2,…,tM}为通过分词处理的文本数据序列,tj表示第j个文本描述符,并将其分为头部文本Thead和剩余文本Ttail;
采用大规模预训练Bert编码文本语言特征;将文本序列嵌入到语言特征空间具体过程表示为:
其中Bert(·)为预训练Bert权重,为待嵌入的文本序列,分别为依照Bert处理的方法在嵌入过程中添加嵌入向量的位置和语义类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211374707.X/2.html,转载请声明来源钻瓜专利网。