[发明专利]基于多源域集成迁移学习的文本主题分类模型及分类方法在审

申请号：	201810181122.3	申请日：	2018-03-06
公开（公告）号：	CN108460134A	公开（公告）日：	2018-08-28
发明（设计）人：	杨云;李燕	申请（专利权）人：	云南大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06N3/04;G06N3/08
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	650091 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本主题目标域多源迁移分类模型分类器分类标签模块数据模块源域判定标签集成学习模块组成正确数据域标签正确率类标学习并用测试平衡
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于多源域集成迁移学习的文本主题分类模型，其特征在于，由目标域数据模块、加标签模块、多源域标签判定的集成学习模块和正确数据模块组成；

所述目标域数据模块用于将带标签的样本数据和未带标签的样本数据加入到训练模型的行列，带标签的样本数据用来训练Softmax分类器，未带标签的目标域样本数据加入到训练模型的行列以训练好的Softmax分类器；

所述加标签模块用带标签的样本数据训练出来的Softmax分类器对来自源域的无标签样本数据进行预测标记。

所述多源域标签判定的集成学习模块用NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据做一个判断，选出三个分类器都分类正确的数据，将其分类为正确的数据样本；

所述正确数据模块用于每次训练分类器，让每次用在模型训练上的数据都在递增，使未带类标的数据加上的伪类标越来越接近真实情况。

2.一种如权利要求1所述的基于多源域集成迁移学习的文本主题分类模型的分类方法，其特征在于，具体按照以下步骤进行：

步骤一、选定目标域数据模块中的带标签的数据，训练出Softmax分类器，Softmax分类器对来自源域的无标签样本数据进行预测标记；

步骤二、NN分类器和CNN分类器对带有伪标签的源域数据和Softmax分类器预测的数据进行判定；选出三个分类器都分类正确的数据，将其分类为正确的数据样本，将其加入到目标域数据中去，把每一轮筛选得到的迁移能力强的数据加入到目标域数据模块中去，参与到下一次的模型训练中去，让每次用在模型训练上的数据都在递增，使未带类标的数据加上的伪类标越来越接近真实情况；

步骤三、将三个分类器都进行分类得到不同类型文本主题的带有伪标签的数据，选用一种类型的文本主题作为目标域数据，其他类型的文本主题作为源域数据加入到目标域数据中，并用Softmax分类器测试正确率。

3.根据权利要求2所述的基于多源域集成迁移学习的文本主题分类模型的分类方法，其特征在于，所述步骤三加入的源域数据为剩余不同类型的单一文本主题数据或剩余几种不同类型文本主题数据的任意组合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云南大学，未经云南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810181122.3/1.html，转载请声明来源钻瓜专利网。

上一篇：利用移动终端进行导购的方法及导购装置
下一篇：电力运维信息知识图谱构建方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多源域集成迁移学习的文本主题分类模型及分类方法在审

专利文献下载