[发明专利]一种融合双信息源的文本多标签分类方法有效

专利信息
申请号: 201710301194.2 申请日: 2017-05-02
公开(公告)号: CN107169061B 公开(公告)日: 2020-12-11
发明(设计)人: 温雯;陈颖;蔡瑞初;郝志峰;王丽娟;陈炳丰 申请(专利权)人: 广东工业大学
主分类号: G06F16/35 分类号: G06F16/35
代理公司: 广州市红荔专利代理有限公司 44214 代理人: 吝秀梅;李彦孚
地址: 510006 广东省广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种融合双信息源的文本多标签分类方法,通过网络获取文本数据,将每篇文本按不同信息源分成信息源一和信息源二,并且将不同信息源文本分别采用空间向量模型表示,通过特征矩阵构建融合多种不同视角和特点的信息源的分类器,预测待分类的文本数据,得到分类标签结果,本发明设计合理、计算简单、预测准确,通过将具有不同视角和特点的两种信息源融合在模型中,提高了分类的准确性,避免了现有技术中分别对信息源构建分类器,再对多标签分类结果进行融合,导致忽略不同信息源之间、不同标签的相关性的问题,另外,通过将模型的求解过程转换成特征值的求解,不仅进一步简化了计算过程,而且还进一步提高了模型训练效率。
搜索关键词: 一种 融合 信息源 文本 标签 分类 方法
【主权项】:
一种融合双信息源的文本多标签分类方法,其特征在于,包括以下步骤:S1)、从网络爬取所需要的文本数据作为训练文本数据;S2)、并对获取的训练文本数据进行预处理,踢除不需要的数据,保留有用的文本,将每篇文本数据按不同信息源分成信息源一和信息源二,然后分别将N篇文本数据的信息源一存入训练信息源一中,将信息源二存入训练信息源二中;S3)、采用空间向量模型将每篇文本数据的信息源一和信息源二分别采用所需的特征项及其对应的特征项权重表示,即:Rk=(t1,w1;t2,w2;...tn,wn),Tk=(s1,v1;s2,v2;...sm,vm),其中,ti、wi分别表示第k篇文本数据的信息源一的第i个特征项和对应的权重,si、vi表示第k篇文本数据的信息源二的第i个特征项和对应的权重,然后将特征项、特征项权重表示的训练信息源一和训练信息源二向量化得到特征矩阵X1、X2;S4)、基于将数据映射到低维空间最小化重构误差保留尽可能多的信息的原理,同时结合标签和标签之间的相关性,构建融合不同视角和特点的多个信息源融合的文本多标签分类模型,即优化如下带约束目标函数:min:α1||X1‑V1A||2+α2||X2‑V2B||2+(1‑α1‑α2)||Y‑γV1C‑(1‑γ)V2D||2,s.tV1TV1=IV2TV2=I;]]>其中,Y为多标签矩阵,α1、α2、(1‑α1‑α2)∈(0,1)、γ∈(0,1)为调节参数,A、B、C、D、V1、V2为均为线性映射过程中的参数,T为转置,I为单位矩阵,令C*=γC,D*=(1‑γ)D;S5)、将A、B、C、D的最优解代入到模型中,并加入线性约束和正则项,从而将S3)中的目标函数等价变换成以下计算式,计算前K个最大的特征值对应的特征向量,具体为:X1TX1wi=λi[X1TO1-1X1+γ1I]wi,]]>X2TX2vi=λi[X2TO2-1X2+γ2I]vi,]]>其中,从而得到训练信息源一前K个特征向量组成的矩阵W1=(w1,w2,...wK)和训练信息源二的前J个特征向量组成的矩阵W2=(v1,v2,...vJ),从而得到训练好的双信息源的文本多标签分类模型;S6)、获取需要预测的测试文本数据,并按照步骤S2、S3)对待预测数据进行预处理和向量化得到相应的测试信息源一、测试信息源二对应的特征矩阵X1test、X2test,并输入到训练好的双信息源的文本多标签分类模型,根据Ypredit=X1test×W1×C*+X2test×W2×D*,得到待预测文本数据的预测结果Ypredit;根据预测结果Ypredit判断待测试文本的类别,其中,包括8个类别,每个预测文本数据可包括多个类别,若在相应类别下的预测结果为正数,则判定该预测文本属于该相应类别,若在相应类别下的预测结果为负数,则判定该预测文本不属于该相应类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710301194.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top