[发明专利]社交网络中基于多视图融合的用户审计方法有效
申请号: | 202011165375.5 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112365356B | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 杨晓晖;梁笑 | 申请(专利权)人: | 河北大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06V10/74;G06V10/774;G06V10/764;G06V10/80;G06K9/62 |
代理公司: | 石家庄国域专利商标事务所有限公司 13112 | 代理人: | 胡素梅 |
地址: | 071002 *** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 社交 网络 基于 视图 融合 用户 审计 方法 | ||
1.一种社交网络中基于多视图融合的用户审计方法,其特征是,包括三个阶段:
第一阶段:特征提取;从用户的用户行为、社交关系和文章内容这三个视图中提取13个特征,所提取的13个特征分别为:发文间隔标准差、转发比率、阳光信用、粉丝比率、双向连接率、粉丝平均双向连接率、集群系数、基于社区的双向连接率、基于社区的集群系数、平均标签数、内容标签相似度、平均URL数和单一提及率;其中,基于用户行为的特征包括发文间隔标准差、转发比率和阳光信用,基于社交关系的特征包括粉丝比率、双向连接率、粉丝平均双向连接率、集群系数、基于社区的双向连接率和基于社区的集群系数,基于文章内容的特征包括平均标签数、内容标签相似度、平均URL数和单一提及率;所提取的13个特征构成一个数据集X,数据集X是一个行数为n、列数为13的矩阵;行数n对应用户数,列数13对应13个特征;
第二阶段:多视图融合;根据数据集X针对每一视图分别训练一个基分类器,利用线性加权函数将来自每一视图的分类结果进行线性加权融合,并通过最小化近似误差求得最优融合系数,进而得到最终的分类结果;
第三阶段:利用最终的分类结果对用户进行审计,审计前首先要提取用户的13个特征;
粉丝比率由如下公式计算:
其中,UF代表用户u的粉丝集合,UL代表用户u关注的人的集合;
粉丝平均双向连接率由如下公式计算:
其中,UF代表用户u的粉丝集合,uv代表用户u的粉丝集合中的一个用户,R(uv)表示用户uv在观测时间内转发文章的数量;
基于社区的双向连接率由如下公式计算:
其中,m为用户所在社区的个数,|Ci|表示第i个社区中的用户总数,BR(Ci(j))表示用户所在的第i个社区的第j个成员的双向连接率;
基于社区的集群系数由如下公式计算:
其中,m为用户所在社区的个数,CCi为第i个社区的集群系数;
阳光信用由整数1-5来表示,整数1-5分别对应阳光信用等级由低到高的五个级别;
内容标签相似度的计算过程如下:
a、提取每篇文章中的主题标签t1,t2,...,tn,n为标签数;
b、利用概率主题模型LDA计算每篇文章中排名前三的3个主题词w1、w2、w3及其对应的概率值p1、p2、p3;
c、计算每篇文章的内容标签相似程度其中sij表示第i个主题词与第j个标签在内容上的相似度;sij由函数包synonyms计算得到;
d、依据如下公式计算内容标签相似度
其中,N(u)表示在观测时间段内用户发布文章的总数;
最优融合系数θ的计算方法如下:
a、定义其中表示第i个用户来自第v个视图的概率型预测的值;是通过相应基分类器来获得的;
b、定义基于融合的函数,以获取最终的分类结果:
c、定义带有L2正则化的最小二乘损失函数,其中为第i个用户的真实值,λ为正则化参数;
d、最优融合系数θ的求解转化为
argθminL(θ)
令P=[p1,p2,...,pn]∈Rn×3,则最优融合系数θ的求解转化为
e、用正则方程法对步骤d中的θ求解,得到最优融合系数θ=(PTP+λI)-1PTY0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北大学,未经河北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011165375.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示面板和显示设备
- 下一篇:一种数据安全下载方法和系统