[发明专利]一种面向微博的疑似水军发现方法在审
申请号: | 201710212983.9 | 申请日: | 2017-04-01 |
公开(公告)号: | CN106940732A | 公开(公告)日: | 2017-07-11 |
发明(设计)人: | 刘春阳;乔杨;赵志云;李雄;张华平;张旭;庞琳;王萌;商建云;王卿 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 鲍文娟 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 疑似 水军 发现 方法 | ||
1.一种面向微博的疑似水军发现方法,其特征在于:包括以下步骤:
步骤一、采集相关微博数据,获取如下信息:微博用户所发的文本信息、用户所做的评论的文本信息、用户在微博上所进行的互动信息,包括评论操作、转发关系、点赞操作;用户的基本属性包括粉丝数、关注数,关注关系;
步骤二、对经由步骤一获取的样本数据进行如下数据预处理工作:首先进行数据清洗,然后对微博文本进行中文分词,最后通过层级关系解析数据,获得用户-微博文本映射、用户-评论文本映射,并保留用户-关注关系、用户-粉丝关系、用户-转发关系数据;
步骤三、对经由步骤二预处理后的数据进行用户特征提取:对于微博数据中的所有用户分别提取特征“粉丝数”和“关注数”;然后根据提取用户的微博内容计算间接特征“粉丝关注比”、“原创微博比例”、“转发微博比例”、“微博平均@数”、“发帖频率”、“全量微博上网方式数”、“转发微博上网方式数”和“是否参与转发大于m次的微博”;
步骤四、构建训练集:如果用户未提供训练集,则对预先标注好的用户集合,分类标签为水军、非水军,进行用户特征提取构建训练集,如果用户提供训练集,则使用用户提供的标注好的数据作为训练集;
步骤五、训练水军检测模型:使用步骤四标注好的特征集合数据进行分类检测模型的训练;
步骤六、使用上述训练好的水军检测模型,进行水军用户识别,具体过程为:用户添加需要预测的微博用户,如果只有用户的ID或昵称则首先通过步骤一到步骤三采集用户微博数据并计算用户特征,把获取的特征应用于检测模型进行预测。
2.根据权利要求1所述的一种面向微博的疑似水军发现方法,其特征在于:所述进行用户特征提取时,根据不同的识别需求,可以调整训练中使用的特征集合,不必使用步骤二所述的完整的特征集合。
3.根据权利要求1所述的一种面向微博的疑似水军发现方法,其特征在于:所述分类检测模型为LogisticRegression算法,即给定n个特征x=(x1,x2,…,xn),设条件概率p(y=1|x)为观测样本y相对于事件因素x发生的概率,用sigmoid函数表示为:
其中g(x)=w0+w1x1+…+wnxn,w0为截距,w1,…,wn表示特征1到特征n的权值,在x条件下y不发生的概率为:
4.根据权利要求1-3任一所述的一种面向微博的疑似水军发现方法,其特征在于:采用步骤六所述的水军用户识别过程依次对某一事件中所有用户进行检测,可以判别该事件是否含有水军。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710212983.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型备胎升降装置
- 下一篇:一种移动机器人驱动轮支撑机构