[发明专利]一种多任务机器学习的预测方法有效
申请号: | 201910876897.7 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110569920B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 乔学明;张祥坤;乔琳霏;孙云栋;邢凯;朱伟义;许明;刘燕燕;王超;夏迎雪;陈秀娟;刘乘麟;姜婷;刘振华;杨军洲;朱东杰 | 申请(专利权)人: | 国家电网有限公司;国网山东省电力公司威海供电公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06Q10/04;G06Q50/00 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 机器 学习 预测 方法 | ||
一种多任务机器学习的预测方法,本发明涉及多任务机器学习的预测方法。本发明的目的是为了解决现有用户画像模型预测准确率低,特征提取负担大的问题。过程为:一、采集各信息源数据,对各信息源数据做预处理,得到预处理后的文本;二、采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;三、将各信息源的特征编码为矢量,融合多源数据,构建多任务学习框架;四、对各个子任务设置不同的全连接层和损失函数,得到各个子任务的预测结果;五、将四中各个子任务的预测结果进行加权投票,输出最终预测结果。本发明用于机器学习预测领域。
技术领域
本发明涉及多任务机器学习的预测方法。
背景技术
社交媒体中信息分散且噪声大,用户主页基本信息,用户发布的内容,用户的社交关系网络都蕴含着丰富的信息。多源异构信息的有效利用能够捕获更加丰富的特征,但是同时也增加了计算工作量。尤其针对不同的预测目标,同样的特征要重复计算来得到预测结果,没有合理有效的利用。目前的用户画像模型预测的属性比较单一,只是针对某一两个属性预测的准确率进行优化,忽略了属性之间的相互作用,导致用户画像模型预测准确率低,特征提取负担大。
发明内容
本发明的目的是为了解决现有用户画像模型预测准确率低,特征提取负担大的问题,而提出一种多任务机器学习的预测方法。
一种多任务机器学习的预测方法具体过程为:
步骤一、采集各信息源数据,包括:
(1)用户微博主页的基本信息,如:性别、年龄、学校居住城市等;
(2)用户发布的微博文本内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;
(3)用户的社交关系网络信息,如:用户关注的人和被关注的人等,从用户社交关系网络主页的“关注人和被关注人”列表获取;
对各信息源数据做预处理,得到预处理后的文本;
步骤二、采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;
步骤三、将各信息源的特征编码为矢量,融合多源数据,构建多任务学习框架;
步骤四、对各个子任务(各个子任务代表步骤二中“各信息源各自的学习模型”)设置不同的全连接层和损失函数,得到各个子任务的预测结果;
步骤五、将步骤四中各个子任务的预测结果进行加权投票,输出最终预测结果。
本发明的有益效果为:
本发明融合多源信息,分别对不同信息源制定了不同的特征提取方法,并利用各个属性之间的联系,构建了多任务学习框架。全面描述用户特征,提高了各个任务预测的准确率,同时减轻了特征学习的负担。
实验结果表明,本发明提出的多任务机器学习的预测方法,与SVM和Text-CNN算法相比,在用户属性预测准确率提高了5%以上。
附图说明
图1为本发明模型框架图;
图2为多尺度CNN+Attention模型框架图。
具体实施方式
具体实施方式一:本实施方式一种多任务机器学习的预测方法具体过程为:
步骤一、采集各信息源数据,包括:
(1)用户微博主页的基本信息,如:性别、年龄、学校居住城市等;
(2)用户发布的微博文本内容信息,如:在社交网络的发布的文本、发布的时间、地点、发布所用的工具等;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网山东省电力公司威海供电公司,未经国家电网有限公司;国网山东省电力公司威海供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910876897.7/2.html,转载请声明来源钻瓜专利网。