[发明专利]一种面向微博的疑似水军发现方法在审
申请号: | 201710212983.9 | 申请日: | 2017-04-01 |
公开(公告)号: | CN106940732A | 公开(公告)日: | 2017-07-11 |
发明(设计)人: | 刘春阳;乔杨;赵志云;李雄;张华平;张旭;庞琳;王萌;商建云;王卿 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 鲍文娟 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向微博数据的疑似水军发现方法,属于计算机应用技术领域。本发明共分为以下六个步骤,分别为相关微博数据的采集;数据预处理;用户特征提取;构建训练集;训练水军检测模型;预测判别未标注数据。对比现有技术,本发明实现了数据的充分利用,方便快捷的进行群体发现而不用建立复杂的分类检测模型,从而降低了算法的复杂度,并且算法的模块性较高,可以投入大规模数据计算,具有较高的稳定性;本发明除了可以对单一用户进行水军检测,还可以对某一特定事件中的一批用户进行识别,该方法模块性极强,可以稳定适用于大规模数据计算框架下。 | ||
搜索关键词: | 一种 面向 疑似 水军 发现 方法 | ||
【主权项】:
一种面向微博的疑似水军发现方法,其特征在于:包括以下步骤:步骤一、采集相关微博数据,获取如下信息:微博用户所发的文本信息、用户所做的评论的文本信息、用户在微博上所进行的互动信息,包括评论操作、转发关系、点赞操作;用户的基本属性包括粉丝数、关注数,关注关系;步骤二、对经由步骤一获取的样本数据进行如下数据预处理工作:首先进行数据清洗,然后对微博文本进行中文分词,最后通过层级关系解析数据,获得用户‑微博文本映射、用户‑评论文本映射,并保留用户‑关注关系、用户‑粉丝关系、用户‑转发关系数据;步骤三、对经由步骤二预处理后的数据进行用户特征提取:对于微博数据中的所有用户分别提取特征“粉丝数”和“关注数”;然后根据提取用户的微博内容计算间接特征“粉丝关注比”、“原创微博比例”、“转发微博比例”、“微博平均@数”、“发帖频率”、“全量微博上网方式数”、“转发微博上网方式数”和“是否参与转发大于m次的微博”;步骤四、构建训练集:如果用户未提供训练集,则对预先标注好的用户集合,分类标签为水军、非水军,进行用户特征提取构建训练集,如果用户提供训练集,则使用用户提供的标注好的数据作为训练集;步骤五、训练水军检测模型:使用步骤四标注好的特征集合数据进行分类检测模型的训练;步骤六、使用上述训练好的水军检测模型,进行水军用户识别,具体过程为:用户添加需要预测的微博用户,如果只有用户的ID或昵称则首先通过步骤一到步骤三采集用户微博数据并计算用户特征,把获取的特征应用于检测模型进行预测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710212983.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型备胎升降装置
- 下一篇:一种移动机器人驱动轮支撑机构