[发明专利]一种基于多信息过滤编码的多标签文本分类方法及系统在审
申请号: | 202210914791.3 | 申请日: | 2022-08-01 |
公开(公告)号: | CN115168566A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 马坤;李乐平;纪科;陈贞翔;杨波 | 申请(专利权)人: | 济南大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/126;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 李圣梅 |
地址: | 250022 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 过滤 编码 标签 文本 分类 方法 系统 | ||
1.一种基于多信息过滤编码的多标签文本分类方法,其特征是,包括:
获取待分类的文本数据集和包含多标签的文本训练集;
对文本训练集中的文本和文本训练集所对应标签集合中的标签分别进行向量化,得到文本的单词向量和标签的单词向量;
基于文本和标签的向量表示,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征和过滤的标签特征;
通过过滤的文本特征和过滤的标签特征交互,得到文本特定标签表示,结合过滤的文本特征,得到最终文本向量表示,基于最终文本向量表示,训练多标签文本分类模型;
利用训练好的多标签文本分类模型对待分类文本数据集进行多标签文本分类。
2.如权利要求1所述的一种基于多信息过滤编码的多标签文本分类方法,其特征是,还包括:对获取的待分类的文本数据集和包含标签的文本训练集进行数据预处理;所述预处理包括清理非文本数据、去除停用词和词形还原。
3.如权利要求1所述的一种基于多信息过滤编码的多标签文本分类方法,其特征是,基于文本和标签的向量表示,通过多信息过滤编码进行文本信息和标签信息的过滤和特征提取,得到过滤的文本特征和过滤的标签特征,具体为:
基于文本的单词向量,通过文本信息过滤编码进行文本信息的过滤和特征提取,得到过滤的文本特征;
基于标签的单词向量,通过标签信息过滤编码进行标签信息的过滤和特征提取,得到过滤的标签特征。
4.如权利要求3所述的一种基于多信息过滤编码的多标签文本分类方法,其特征是,基于文本的单词向量,通过文本信息过滤编码进行文本信息的过滤和特征提取,得到过滤的文本特征,具体步骤为:
基于文本的单词向量,通过快速傅里叶转换将单词向量转换至频域;
在频域内调制频谱,对文本的单词向量进行过滤,得到过滤后的文本信息;
通过逆向快速傅里叶转换将过滤后的文本信息转换至时域并更新其表示;
基于文本的单词向量和过滤并更新的文本信息,依次进行残差连接、Dropout和层标准化操作,得到过滤的文本向量;
基于过滤的文本向量,通过多层感知处理,得到初始过滤的文本特征;
基于过滤的文本向量和初始过滤的文本特征,依次进行残差连接、Dropout和层标准化操作,得到过滤的文本特征。
5.如权利要求3所述的一种基于多信息过滤编码的多标签文本分类方法,其特征是,基于标签的单词向量,通过标签信息过滤编码进行标签信息的过滤和特征提取,得到过滤的标签特征,具体步骤为:
基于标签的单词向量,通过快速傅里叶转换将单词向量转换至频域;
在频域内调制频谱,对标签的单词向量进行过滤,得到过滤后的标签信息;
通过逆向快速傅里叶转换将过滤后的标签信息转换至时域并更新其表示;
基于标签的单词向量和过滤并更新的标签信息,依次进行残差连接、Dropout和层标准化操作,得到过滤的标签向量;
基于过滤的标签向量,通过多层感知处理,得到初始过滤的标签特征;
基于过滤的标签向量和初始过滤的标签特征,依次进行残差连接、Dropout和层标准化操作,得到过滤的标签特征。
6.如权利要求1所述的一种基于多信息过滤编码的多标签文本分类方法,其特征是,通过过滤的文本特征和过滤的标签特征交互,得到文本特定标签表示,具体步骤为:
基于过滤的文本特征和过滤的标签特征,通过过滤信息指导的注意力机制获取过滤的文本特征和过滤的标签特征之间的注意力值;
基于注意力值对过滤的标签特征进行加权,得到文本特定标签表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210914791.3/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置