[发明专利]社会网中基于主题兴趣的影响最大化方法有效
申请号: | 201810150517.7 | 申请日: | 2018-02-13 |
公开(公告)号: | CN108197332B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 刘勇;郭龙江;王楠;李金宝 | 申请(专利权)人: | 江苏派智信息科技有限公司 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 北京哌智科创知识产权代理事务所(普通合伙) 11745 | 代理人: | 曾倩莹 |
地址: | 212001 江苏省镇江市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社会 基于 主题 兴趣 影响 最大化 方法 | ||
1.社会网中基于主题兴趣的影响最大化方法,其特征在于:所述方法具体过程为:
步骤一、建立基于主题兴趣的传播模型TI-IC;
给定一个社会网有向图G=(V,E),一组用户的历史动作日志D(u,i,t),对于每个主题z∈[1,Z],每个传播项i都有一个主题分量每个用户结点u都有一个兴趣分量因此每个传播项i存在主题分布向量每个用户结点u存在不同主题上的兴趣分布向量i∈[1,I];
其中V为用户集合,E为关系集合;Z为主题总个数,取值为正整数;I为传播项总个数,取值为正整数;
D中u属于G中的用户集合V;
每个结点仅有一次机会由不活跃状态变为活跃状态,并且该过程不可逆;
S表示种集,即初始的活跃用户集合,
在t=0时刻,S中的结点在传播项i上活跃;
在t≥1时刻,如果用户结点u的任何邻居结点w在时刻t-1变为活跃状态,则w都有一次机会去激活邻居用户结点u,激活的概率为
当用户结点u的邻居结点活跃的条件下,用户结点u被激活的概率如下所示:
其中,表示在传播项i的传播过程中,在用户结点u之前已经活跃的邻居结点集合,即
Δ为时延阈值;N取值为正整数;ti(w)为结点w在传播项i上活跃的时刻,ti(u)为用户结点u在传播项i上活跃的时刻;ti(u)=∞,代表每个用户结点u不会接受传播项i;
令表示传播项i在传播过程中,一定不会影响u的邻居集合;
当点用户结点u的任何邻居结点w在传播项i上一定活跃,用户结点u在传播项i上活跃或不活跃;
所述TI-IC为主题-兴趣的传播模型;
步骤二、利用EM算法学习TI-IC模型的参数和新传播项的主题分布向量;
EM算法的输入是:社会网有向图G=(V,E),用户历史动作日志D(u,i,t);
假设TI-IC模型的每个传播项的传播轨迹都是独立的,则给定TI-IC传播模型参数Θ的对数似然函数,表示为:
其中,L(Θ;Di)表示传播项i的传播轨迹的似然函数;
传播项i的传播轨迹Di在第z个主题分量上的似然函数定义为:
其中,表示传播项i的传播过程中,主题z使结点u被激活的概率,
表示传播项i的传播过程中,主题z没有影响结点u的概率:
φ为空集;
利用EM算法学习TI-IC模型的参数,得到EM学习算法的输出,即TI-IC传播模型参数Θ,Θ包括和具体过程为:
步骤a)采用均值为0,方差为0.01的正态分布初始化z∈[1,Z],u∈V;
πz表示所有传播项i在主题z上的先验概率;
步骤b)对所有传播项i和主题z,计算
步骤c)对所有主题z,计算
步骤d)对所有主题z和用户u,计算
步骤e)重复执行步骤b)至步骤d),直到收敛;
步骤f)输出和
当新的传播项i出现时,求解新传播项i的主题分布向量具体过程为:
步骤S1)采用均值为0,方差为0.01的正态分布初始化z∈[1,Z],i∈[1,I];
步骤S2)
步骤S3)重复执行步骤S2),直到收敛;
步骤S4)输出
其中λ是学习步长;
步骤三、基于步骤二提出针对TI-IC模型的影响最大化算法;具体过程为:
步骤a1)输入社会网有向图G=(V,E)、某个传播项i的主题分布向量θi、种集大小K,主题个数Z和模拟次数R;
所述θi为步骤f)输出的或步骤S4)输出的
步骤a2)初始化种集C为候选种子集合;
步骤a3)对所有(w,u)∈E,计算
为在传播项i上结点w对用户结点u的影响概率;
步骤a4)对所有w∈V,从每个结点w出发,寻找概率大于阈值ε的所有路径,构造一棵以w为根的可达路径树T(w),估计结点w的影响范围δw=∑u∈T(w)(1-Πpath∈PATH(w,u)(1-p(path)));
其中PATH(w,u)为从w到u的所有路径集合,path为PATH(w,u)集合中的一条路径;p(path)为沿着路径path中w对u的影响概率;
步骤a5)根据δw对所有w从大到小排序;
步骤a6)取前3K个w放入候选种子集合C;
步骤a7)对C中每一个w、δw和w当前迭代次数0放入优先级队列Q;
步骤a8)判断种集个数,当种集个数小于K时,执行步骤a9);当种集个数等于K时,输出种集S;
步骤a9)取Q的队列头,队列头为优先级队列Q中的第一个元素,一个元素形式为w、w的影响增益、w的当前模拟次数;
如果w的模拟次数小于S的大小,则计算w的影响增益w.mg=δi(S∪{w})-δi(S),把w、w的影响增益w.mg、w的当前迭代次数放入优先级队列Q;
其中δi(S)为在传播项i上S的影响范围,使用R次蒙特卡洛模拟计算得到;δi(S∪{w})为在传播项i上S和u的影响范围,使用R次蒙特卡洛模拟计算得到;δi为在传播项i上的影响范围;
如果w的模拟次数等于S的大小,把w放入种集S,执行步骤a8)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏派智信息科技有限公司,未经江苏派智信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810150517.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用户兴趣的探索方法和装置
- 下一篇:境外知识产权代理人推荐装置及其推荐方法