[发明专利]基于解耦特征引导的多模态文本页面分类方法在审

申请号：	202211374707.X	申请日：	2022-11-04
公开（公告）号：	CN115761757A	公开（公告）日：	2023-03-07
发明（设计）人：	柯逍;许培荣	申请（专利权）人：	福州大学
主分类号：	G06V30/19	分类号：	G06V30/19;G06V30/18;G06V10/422;G06V10/56;G06V10/80;G06V10/764;G06V10/82
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	陈鼎桂;蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征引导多模态文本页面分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于解耦特征引导的多模态文本页面分类方法，包括以下步骤：获取电子文本页面数据构建训练集，并基于训练集训练双流的端到端Transformer编码网络，所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器；将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征；将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征；将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征，并用于分类网络进行分类。本发明能够有效地通过多模态方法对电子文本页面进行准确分类。

技术领域

本发明涉及模式识别与计算机视觉领域，具体涉及一种基于解耦特征引导的多模态文本页面分类方法。

背景技术

近些年来，随着平板电脑、手机等智能设备大量普及，电子文本页面逐渐成为最重要的信息媒介之一。电子文本页面上显示的各种信息格式、种类、来源都不同，使得单一模态方法难以有效对综合特征进行分析。此外，当下现实场景中的文档图像分类任务是最接近电子文本页面分类相似的视觉任务，但电子文本页面图像包括了文档的种类且不限于此，前人在文档图像分类任务上同样通过提取文档中文本采用多模态方法进行分类，但目前关于电子文本页面相关的研究很少。

尽管计算机视觉技术已经取得很大进步，在电子文本页面场景中还面临着许多挑战，如单一模态特征缺少信息相关性和互补性，模型学习图像细节特征代价问题等。

发明内容

有鉴于此，本发明的目的在于提供一种基于解耦特征引导的多模态文本页面分类方法，能够有效地通过多模态方法对电子文本页面进行准确分类。

为实现上述目的，本发明采用如下技术方案：

一种基于解耦特征引导的多模态文本页面分类方法，包括以下步骤：

获取电子文本页面数据构建训练集，并基于训练集训练双流的端到端Transformer编码网络，所述双流的端到端Transformer编码网络包括视觉特征提取器、语言特征提取器和跨模态融合编码器；

将待分类的电子文本页面的文本数据输入语言特征提取器获得深层语言特征；

将待分类的电子文本页面的图像数据输入视觉特征提取器获得深层视觉特征；

将得到的深层语言特征和深层视觉特征共同输入跨模态融合编码器获得多模态特征，并用于分类网络进行分类。

进一步的，所述电子文本页面数据包括经济、军事、体育、美食、科技、旅游类别的电子文本页面图像和文本数据。

进一步的，所述语言特征提取器包括第二解耦表征网络模块和语言编码器；所述语言特征提取器处理数据的方法，具体如下：

将待分类的电子文本页面的文本数据先输入第二解耦表征网络模块,得到浅层语言特征E_head和剩余文本特征E_tail；