[发明专利]一种多任务机器学习的预测方法有效
申请号: | 201910876897.7 | 申请日: | 2019-09-17 |
公开(公告)号: | CN110569920B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 乔学明;张祥坤;乔琳霏;孙云栋;邢凯;朱伟义;许明;刘燕燕;王超;夏迎雪;陈秀娟;刘乘麟;姜婷;刘振华;杨军洲;朱东杰 | 申请(专利权)人: | 国家电网有限公司;国网山东省电力公司威海供电公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/35;G06Q10/04;G06Q50/00 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 任务 机器 学习 预测 方法 | ||
1.一种多任务机器学习的预测方法,其特征在于:所述方法具体过程为:
步骤一、采集各信息源数据,包括:
(1)用户微博主页的基本信息;
(2)用户发布的微博文本内容信息;
(3)用户的社交关系网络信息;
对各信息源数据做预处理,得到预处理后的文本;
步骤二、采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;
步骤三、将各信息源的特征编码为矢量,融合多源数据,构建多任务学习框架;
步骤四、对各个子任务设置不同的全连接层和损失函数,得到各个子任务的预测结果;
步骤五、将步骤四中各个子任务的预测结果进行加权投票,输出最终预测结果;
所述步骤一中采集各信息源数据,对各信息源数据做预处理,得到预处理后的文本;具体过程为:
步骤一一、以一个用户为起点,爬取该用户微博主页的基本信息,用户的社交关系网络,用户发布的微博文本内容,再爬取该用户的好友的相关信息,好友的好友的相关信息;
步骤一二、对于爬取的用户发布的微博文本内容,将内容中的链接去掉,采用Jieba分词技术对句子进行分词,然后使用停用词表,将不必要的单词去掉;最后,将每个用户中重复的文本去掉,得到预处理后的用户发布的微博文本内容;
步骤一三、对于爬取的用户的社交关系网络,提取互相关注的好友关系,表示成(u,v)节点对的形式,得到预处理后的用户的社交关系网络;
步骤一四、对于爬取的用户微博主页的基本信息内容,保留用户填写的性别、生日、所在地、学校信息,得到预处理后的微博主页的基本信息;
所述步骤二中采用预处理后的各信息源数据训练各信息源各自的学习模型,对各信息源分别进行特征提取,得到各信息源的特征;具体过程为:
步骤二一、构建多尺度CNN+Attention模型学习文本特征;
步骤二二、利用网络嵌入方法学习预处理后的用户的社交关系网络结构特征;
步骤二三、构建基于匹配原则特征提取的卡方检验模型;具体过程为:
在预处理后的微博主页的基本信息中分别提取性别、年龄、地区、主题、教育程度各分类任务的特征词;
假设词t与分类任务无关,每个类别中包含词t的用户占比相同;
利用下式进行卡方值计算:
其中,nt表示包含词t的用户总数,ni′表示第i′类的用户数量,N表示用户总数,nti′表示包含词t的第i′类用户数量;Eti′表示词t在第i′类中出现的期望频数,示卡方值,d表示类别个数;
在微博语料库中将所有词按卡方值从大到小排序,取出前5000个微博内容词作为特征词,构建各任务的特征词典;
使用地理知识和新浪微博位置信息构建地名词典;
步骤二四、基于特征词典匹配使用预处理后的每个用户发布的微博文本内容对用户属性投票,将票数最多的结果作为预测结果类别;
步骤二五、基于正则匹配原则使用预处理后的微博主页的基本信息对用户属性进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网山东省电力公司威海供电公司,未经国家电网有限公司;国网山东省电力公司威海供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910876897.7/1.html,转载请声明来源钻瓜专利网。