[发明专利]一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法在审
申请号: | 201810453558.3 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108681585A | 公开(公告)日: | 2018-10-19 |
发明(设计)人: | 傅晨波;郑永立;王金焕;宣琦 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N99/00;G06Q50/00 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 迁移 多源 构建 网络结构 预测模型 学习 学习器 标签 目标领域 社区 发展趋势预测 结构相似性 方法支持 机器学习 计算网络 模型框架 计算源 向量机 权重 图核 加权 同源 | ||
一种基于NetSim‑TL的多源迁移学习标签流行性预测模型的构建方法,包括以下步骤:(1)计算网络的结构相似性,根据WL图核方法,分别计算源领域和目标领域网络结构之间的相似性大小;(2)构建单源迁移学习的基学习器,利用基本的机器学习方法支持向量机分别构建多源迁移学习的基学习器;(3)构建多源迁移学习模型框架,根据不同源领域与目标领域之间的相似性大小,对多个基学习器进行加权,得出基于网络结构相似性的多源迁移学习标签流行性预测模型框架。本发明提出了利用社区网络结构之间的相似性来作为不同领域社区之间迁移学习模型的权重,进行多源迁移学习模型的构建,在跨社区的标签流行性发展趋势预测上具有较好的效果。
技术领域
本发明涉及数据挖掘、图结构分析技术,特别是涉及一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法。
背景技术
随着互联网技术的快速发展,越来越多的人喜欢花费时间在网络上发布和搜索自己想要的信息,积累了大量的知识问答数据。由于人工智能技术的快速发展,人们对已有的问答数据进行分析,建模以及预测,使得其能够更好的服务于用户。问答社区中的标签数据越来越受到人们的关注,例如研究标签推荐,基于标签的答案推荐,问题推荐等。我们主要研究在问答社区中新提出的标签在未来的流行性趋势预测问题。基于大规模数据的标签流行性趋势预测能够有较好的预测结果,但是在一些冷门问答社区或者是新出现的问答社区,由于具有标记的数据很难获得或者数据量比较少,无法准确的构建较好的预测或者分类模型,于是我们采用迁移学习的方法,即利用相似的较大的问答社区里的数据,来对目标领域的任务进行预测或者分类。
迁移学习依据领域和任务是否相同,大致分为四类:(1)基于实例的迁移学习;(2)基于特征的迁移学习;(3)基于参数的迁移学习;(4)基于相关性的迁移学习。目前迁移学习已经在很多领域得到应用,并取得较好的结果,例如软件缺陷预测,人类活动行为的分类和识别,图片分类,文本语义分类等等。在单源领域迁移的问题上,已提出很多方法,例如TrAdaboost、TrBagg、A-SVM等单源迁移学习方法。在多源数据迁移方面已经有很多工作,大部分工作基于数据特征分布之间差异,即用最大均方差异(maximum mean discrepancy,MMD)作为源社区与目标社区之间的相似性,或者在此基础上,增加一些参数项,调整训练模型的损失函数,达到优化的目的。还有的则是对样本实例进行加权的方法,通过对源领域的数据样本进行数据筛选加权,多次迭代得出最后的权重,例如Yao等人通过改进戴文源等提出的TrAdaboost的方法,将其应用到多源领域,提出了MSTrAdaboost多源迁移模型框架。
已有的多源迁移学习模型,在衡量领域相似差异方面主要还是基于特征分布上的差异,这些方法在已有的任务或者应用上已经能够得到较好的应用,但是在网络分类或者涉及到网络特征的多源迁移任务模型中,则不能达到很好的迁移效果。
发明内容
为了更好的衡量涉及网络结构的领域之间的差异性,改善多源迁移学习在涉及网络结构方面的任务上的效果,本发明提出一种基于NetSim-TL的多源迁移学习标签流行性预测模型的构建方法,使用图核表征方法计算两两网络结构之间的相似性大小,作为目标领域与源领域之间的距离,并将此作为多源迁移学习模型中多个基学习器的权重,对基学习器的预测结果进行加权投票,得出最后的预测结果。本方法提高了多源迁移学习问答社区标签流行性预测的效果。
本发明解决其技术问题所采用的技术方案如下:
一种基于网络结构相似的多源迁移学习模型的构建方法,包括如下步骤:
步骤1:计算网络的结构相似性,给定n个源领域和目标领域数据集的网络集合通过Weisfeiler-Lehman(WL)图核方法,计算源领域中网络与目标领域网络GT之间的网络结构相似性大小Ki,得出集合Ω中源社区网络与目标社区网络之间的相似性W1×n={K1,K2,…,Kn};
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810453558.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种处理舆情数据的方法和系统
- 下一篇:基于群智感知的旅游路线个性化推荐方法