[发明专利]一种基于多信息过滤编码的多标签文本分类方法及系统在审
申请号: | 202210914791.3 | 申请日: | 2022-08-01 |
公开(公告)号: | CN115168566A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 马坤;李乐平;纪科;陈贞翔;杨波 | 申请(专利权)人: | 济南大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/126;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 过滤 编码 标签 文本 分类 方法 系统 | ||
本发明公开了一种基于多信息过滤编码的多标签文本分类方法及系统,该方法包括:获取包含标签的文本训练集;基于文本训练集,得到文本和标签的单词向量;通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征和标签特征;通过过滤的文本特征和过滤的标签特征交互,结合过滤的文本特征,得到最终文本向量表示,以此训练多标签文本分类模型;利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文本分类。本发明通过过滤文本信息和标签信息的噪音及冗余信息,分别在文本空间和标签空间提取过滤信息中的语义特征,通过过滤的语义特征的交互,捕获更多与分类相关的信息,提高多标签文本分类的精度。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于多信息过滤编码的多标签文本分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
多标签文本分类(MLTC,Multi-label Text Classification)是自然语言处理中的一项关键任务,广泛应用于情感识别、问答和网页标记等领域,旨在学习一种可以为未知文本指定适当的多个标签的模型。然而,文档和标签的数量以及标签之间的复杂关系给多标签文本分类带来了挑战。
传统的多标签文本分类通常采用学习文本语义增强表示的方法,如极端多标签分类的深度学习方法(XML-CNN),结合改进的卷积神经网络和动态最大池技术,提取高级特征,以学习紧凑的文档表示;基于标签树的注意感知深度模型(AttentionXML),使用递归神经网络对文本进行编码;基于Transformer的模型捕获一个序列中单词的相关性,以提供上下文的表示。虽然上述方法充分分析了文本内容,但是却忽略了文本以外的信息,导致最终文本分类准确性较差。
为此,现有技术整合文本及其以外的信息进行多标签文本分类。一方面,考虑到多标签文本分类中,由于标签共享相同的文档子集,文档和标签之间存在语义联系,故标签之间存在依赖关系,因此,现有技术中,通过学习标签结构、标签内容含义和标签共现模式来解决多标签文本分类问题,如,极端多标签分类的稀疏局部嵌入方法(SLEEC)将数据集划分为多个簇,并通过捕获非线性标签相关性来检测每个簇中的嵌入向量;标签特定的双图神经网络(LDGN)借助类别信息从文档中学习特定于标签的组件,并通过动态重建图和统计标签共现的联合方式,使用双图卷积网络(GCN)对这些组件之间的交互进行建模。
另一方面,多标签数据通常存在长尾分布问题,即类别不平衡问题。当标签数量过多时,标签的一小部分子集(称为头部标签)拥有大量文档,标签的一大部分子集(称为尾部标签)只有少数文档。而对于常用的预测性能指标而言,尾部标签的影响远远小于头部标签。因此,现有技术通过分析文本之外的信息来捕获特征,缓解长尾分布问题,如从头标签到尾标签的知识转移、尾标签或头标签实例抽样策略等。
但是,现有技术中,在对文本以及文本之外的信息(如标签信息)分析,进行多标签文本分类的过程中,需要注意的是,文档和标签信息中存在一些噪声或冗余的内容,现有技术忽略了噪声或冗余内容中隐藏的一些复杂语义信息,而这将影响标签和文档之间语义特征和联系的获取,导致最终多标签文本分类准确性的降低。
发明内容
为解决上述现有技术的不足,本发明提供了一种基于多信息过滤编码的多标签文本分类方法及系统,过滤多标签文本分类数据中文本信息和标签信息的噪音以及冗余信息,分别在文本空间和标签空间提取过滤信息中的语义特征,通过过滤的语义特征的交互,捕获更多与分类相关的信息,降低过滤噪音和冗余信息对语义特征提取的影响,解决了长尾分布问题,提高了多标签文本分类的准确性和精度。
第一方面,本公开提供了一种基于多信息过滤编码的多标签文本分类方法。
一种基于多信息过滤编码的多标签文本分类方法,包括:
获取待分类的文本数据集和包含多标签的文本训练集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210914791.3/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置