[发明专利]一种基于ICS-SVM分析用户转发行为的预测方法及系统有效
申请号: | 201910114885.0 | 申请日: | 2019-02-14 |
公开(公告)号: | CN109829504B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 梁霞;肖云鹏;杜江;刘宴兵;谢小秋;朱耀堃 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/00 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红;陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ics svm 分析 用户 转发 行为 预测 方法 系统 | ||
1.一种基于ICS-SVM分析用户转发行为的预测方法,其特征在于,包括数据获取的步骤、定义影响因素的步骤、改进CS算法的步骤以及构建ICS-SVM模型的步骤,具体包括:
S1:数据获取的步骤:从基于web研究型的推荐系统下载或利用成熟的社交平台的API获取,并对数据进行清洗、查重在内的预处理;
S2:定义影响因素的步骤:从步骤S1获取的已有数据中提取用户兴趣标签、用户历史转发率、外界影响三个属性,通过多元线性回归的方法定义影响力;
S3:改进CS算法的步骤:改进的布谷鸟CS搜索算法改进在于:在传统的布谷鸟CS搜索算法基础上,采用推导算法产生步长,使搜索步长能够自适应的动态调整;
S4:构建ICS-SVM模型:将步骤S3的改进布谷鸟算法与SVM支持向量机进行结合,使用改进布谷鸟算法优化SVM的参数,利用最优参数作为SVM的参数训练预测模型,采用时间切片的方法预测用户转发行为,分析热点话题传播趋势;
所述步骤S2从步骤S1获取的已有数据中提取用户兴趣标签、用户历史转发率、外界影响三个属性,定义影响用户转发的因素,包括:
S21:提取用户内部属性:考虑用户是否转发热点话题受自身因素的影响,分为两个属性,分别是用户兴趣标签、用户历史转发率两个属性,其属性的定义可根据数据方面的特征对其进行适当修改,具体如下:
用户兴趣标签InterestTag(vi):
抓取所有用户及关注者在话题发布前一个月的互动行为,按照从高到底的顺序排列,取前8个标签;其次,提取话题内容的关键字,利用公式(1)进行计算,结果越高,说明用户对该话题越感兴趣;
用户历史转发率ForwardingRate(vi):
用户历史转发率是用户在话题发表前一个月内转发微博的数量占发表微博的总数量的比例,即
retweetNum(vi)表示用户在话题前一个月内转发微博的数量,wholeNum(vi)表示用户在话题前一月内发表微博的总数量;
S22:提取用户外部属性,考虑用户是否转发热点话题除了受用户自身因素的影响意外,还受到家人及周围好友的影响,从抓取数据中提取一个外界影响的属性,具体如下:
外界影响ExternalInfluence(vi):
外界影响包括用户好友的影响以及话题热度的影响,
其中α、β代表系数,N表示该用户好友总数,If(vi)表示代表好友之间的互动量,α=0.4,β=0.6,leadernum(vi)表示意见领袖的数量,意见领袖leader(vi)定义为在社交网络中具有很强影响力的用户,起到重要的中介的作用,利用PageRank算法计算意见领袖,φ表示可调参数,意见领袖leader(vi)定义如下所示:
If代表好友之间的互动量,利用归一化处理;
所述步骤S3改进CS算法的步骤具体包括:
假设表示第i个鸟巢在第t代的鸟巢位置,L(λ)表示随机搜索路径,因此,布谷鸟寻找鸟巢位置的更新迭代公式如下:
其中,表示步长控制量,表示点对点乘法,以上是传统的布谷鸟搜索算法,改进的布谷鸟搜索算法是对步长的大小进行自适应动态调整,公式如下:
CS中的最大步长CS中的最小步长di分别表示第i个鸟巢的位置,di的定义如下:
其中,ni表示第i个鸟巢的位置,nbest表示最优的鸟巢位置,dmax表示最优鸟巢位置与其它鸟巢位置的最大距离;
改进的布谷鸟搜索算法可以根据式(6)对步长进行调整,如果此时鸟巢的位置离最优位置比较近,则减小步长;相反,如果此时鸟巢位置离最优位置比较远,则增大步长;
所述步骤S4中构建ICS-SVM改进布谷鸟搜索算法优化支持向量机模型的具体步骤如下:
①抓取腾讯微博的三个热点话题的相关数据,并对数据进行初步的清洗和整理,提取相关属性,并把数据分为训练集和测试集;
②初始化SVM中的惩罚参数C和核函数参数σ以及CS中的最小步长最大步长最大迭代次数N;
③鸟巢主人发现是布谷鸟蛋的概率是pa∈[0,1],初始值pa=0.75,随机产生n个鸟巢位置,利用训练集进行训练,并计算误差,找到最优的鸟巢位置,并保留下来;
④利用公式(6)和公式(7)对鸟巢位置及pa参数进行更新,与旧鸟巢进行误差比较,并保留较优的鸟巢位置及其对应等参数;
⑤用随机数r与pa进行比较,保留上一步较优鸟巢位置中pa较小的鸟巢位置,改变上一步较优鸟巢位置中pa较大的鸟巢位置,根据误差比较,得到一组新的较优鸟巢位置;
⑥在⑤中找到最优鸟巢位置,把最优鸟巢位置的误差与精度进行比较,如果符合精度要求,则找到SVM最优参数C和σ,否则,返回④继续迭代,直到找到符合精度要求的鸟巢位置,或者超过最大迭代次数,则停止迭代;
⑦利用得到的最优参数C和σ作为SVM的参数值,再次利用训练集训练SVM,得到预测模型,并用测试集测试模型的准确度。
2.一种基于ICS-SVM分析用户转发行为的预测系统,其特征在于,包括数据获取模块、定义影响因素模块、改进CS算法模块以及构建ICS-SVM模型模块,具体包括:
数据获取模块:从基于web研究型的推荐系统下载或利用成熟的社交平台的API获取,并对数据进行清洗、查重等预处理;
定义影响因素模块:从获取的已有数据中提取用户兴趣标签、用户历史转发率、外界影响三个属性,通过多元线性回归的方法定义影响力;
改进CS算法模块:改进的布谷鸟CS搜索算法改进在于:在传统的布谷鸟CS搜索算法基础上,采用推导算法产生步长,使搜索步长能够自适应的动态调整;
构建ICS-SVM模型模块:将步骤S3的改进布谷鸟算法与SVM(支持向量机)进行结合,使用改进布谷鸟算法优化SVM的参数,利用最优参数作为SVM的参数训练预测模型,采用时间切片的方法预测用户转发行为,分析热点话题传播趋势;
所述定义影响因素模块从获取的已有数据中提取用户兴趣标签、用户历史转发率、外界影响三个属性,定义影响用户转发的因素,包括:
S21:提取用户内部属性:考虑用户是否转发热点话题受自身因素的影响,分为两个属性,分别是用户兴趣标签、用户历史转发率两个属性,其属性的定义可根据数据方面的特征对其进行适当修改,具体如下:
用户兴趣标签InterestTag(vi):
抓取所有用户及关注者在话题发布前一个月的互动行为,按照从高到底的顺序排列,取前8个标签;其次,提取话题内容的关键字,利用Jaccard系数公式(1)进行计算,结果越高,说明用户对该话题越感兴趣;
用户历史转发率ForwardingRate(vi):
用户历史转发率是用户在话题发表前一个月内转发微博的数量占发表微博的总数量的比例,即
retweetNum(vi)表示用户在话题前一个月内转发微博的数量wholeNum(vi)表示用户在话题前一月内发表微博的总数量
S22:提取用户外部属性,考虑用户是否转发热点话题除了受用户自身因素的影响意外,还受到家人及周围好友的影响,从抓取数据中提取一个外界影响的属性,具体如下:
外界影响ExternalInfluence(vi):
外界影响包括用户好友的影响以及话题热度的影响,
其中α、β代表系数,N表示该用户好友总数,If(vi)表示代表好友之间的互动量,α=0.4,β=0.6,leadernum(vi)表示意见领袖的数量,意见领袖leader(vi)定义为在社交网络中具有很强影响力的用户,起到重要的中介的作用,利用PageRank算法计算意见领袖,φ表示可调参数,意见领袖leader(vi)定义如下所示:
If代表好友之间的互动量,利用归一化处理;
所述改进CS算法模块具体包括:
假设表示第i个鸟巢在第t代的鸟巢位置,L(λ)表示随机搜索路径,因此,布谷鸟寻找鸟巢位置的更新迭代公式如下:
其中,表示步长控制量,表示点对点乘法,以上是传统的布谷鸟搜索算法,改进的布谷鸟搜索算法是对步长的大小进行自适应动态调整,公式如下:
CS中的最大步长CS中的最小步长di分别表示第i个鸟巢的位置,di的定义如下:
其中,ni表示第i个鸟巢的位置,nbest表示最优的鸟巢位置,dmax表示最优鸟巢位置与其它鸟巢位置的最大距离;
改进的布谷鸟搜索算法可以根据式(6)对步长进行调整,如果此时鸟巢的位置离最优位置比较近,则减小步长;相反,如果此时鸟巢位置离最优位置比较远,则增大步长;
所述构建ICS-SVM(改进布谷鸟搜索算法优化支持向量机)模型模块具体包括:
①抓取腾讯微博的三个热点话题的相关数据,并对数据进行初步的清洗和整理,提取相关属性,并把数据分为训练集和测试集;
②初始化SVM中的惩罚参数C和核函数参数σ以及CS中的最小步长最大步长最大迭代次数N;
③鸟巢主人发现是布谷鸟蛋的概率是pa∈[0,1],初始值pa=0.75,随机产生n个鸟巢位置,利用训练集进行训练,并计算误差,找到最优的鸟巢位置,并保留下来;
④利用公式(6)和公式(7)对鸟巢位置及pa参数进行更新,与旧鸟巢进行误差比较,并保留较优的鸟巢位置及其对应等参数;
⑤用随机数r与pa进行比较,保留上一步较优鸟巢位置中pa较小的鸟巢位置,改变上一步较优鸟巢位置中pa较大的鸟巢位置,根据误差比较,得到一组新的较优鸟巢位置;
⑥在⑤中找到最优鸟巢位置,把最优鸟巢位置的误差与精度进行比较,如果符合精度要求,则找到SVM最优参数C和σ,否则,返回④继续迭代,直到找到符合精度要求的鸟巢位置,或者超过最大迭代次数,则停止迭代;
⑦利用得到的最优参数C和σ作为SVM的参数值,再次利用训练集训练SVM,得到预测模型,并用测试集测试模型的准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910114885.0/1.html,转载请声明来源钻瓜专利网。