[发明专利]一种互联网真伪消费者判别方法、系统和装置在审
申请号: | 202110171747.3 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112905662A | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 杨骏;郭奕楷 | 申请(专利权)人: | 上海宏原信息科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q50/00 |
代理公司: | 上海容慧专利代理事务所(普通合伙) 31287 | 代理人: | 于晓菁 |
地址: | 200233 上海市徐汇区钦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 真伪 消费者 判别 方法 系统 装置 | ||
本发明提供的一种互联网真伪消费者判别方法、系统和装置,针对社交类和垂直类平台设计多模式的异常账号识别方法,将用户的发言内容与行为相结合,其通过随机选取样本用户,提取用户的行为数据和发布内容数据;建立特征异常判定的动态阈值,以确定用户异常行为与正常行为的量化差异;根据动态阈值建立评估机制动态评估用户的状态,识别出异常用户账号。
技术领域
本发明涉及流量分析技术领域,具体涉及一种互联网真伪消费者判别方法、系统和装置。
背景技术
目前,对于甄别虚假消费者(网络异常账号)的方法主要有3种:基于内容特征分析、基于用户行为特征分析以及基于用户关系特征的分析方法。
内容特征分析是指通过自然语言处理相关技术,如文本分析、情感分析去识别文本间的相似性和情感倾向,从而达到识别异常账号的目的。这一技术主要在互联网时代早期广泛应用,比如通过检测重复内容来识别垃圾邮件。但是随着互联网的进步,异常账号越来越会隐藏自己,甚至可以模仿真实消费者发言,单纯的从文本内容已经无法有效的进行异常账号识别了。随着网络趋于多元化,消费者的发言形式也更复杂,会充斥着更多无意义的内容(如重复跟帖)。所以仅凭文本内容进行判定,会把很多真实用户识别为异常账号。
基于用户行为特征的方法依赖于机器学习模型,如逻辑回归、朴素贝叶斯、随机森林等等,可以避免因为异常账号发言内容趋近于真人而无法识别的问题,而且经过数据验证,能够取得比较高的准确率和召回率。但是这种基于用户特征的方法应用随着社交平台上的数据量越来越大(十亿、百亿级),在商业应用中几乎不可能被实现。原因在于,1)模型需要人工判断和标注哪些是异常账号作为训练数据,如果要在1亿条用户数据中找出哪些是异常账号,需要人工标注大量数据,成本高。2)即使有了标注好的异常账号数据,预测需要花费大量的计算资源和时间。3)此类模型的准确率通常在80%左右,离商业应用还有一段差距。
同理,基于用户关系识别的方法依赖于图论、概率图等模型,也会在应用中会遇到和机器学习模型相似的问题。除此以外,随着互联网用户更加注重个人隐私的保护,基于用户关系识别的方法所必要的用户社交网络数据变得非常难获取,进一步增加了该方法实施的难度。
发明内容
本发明的目的是提供一种互联网真伪消费者判别方法、系统和装置,用以识别互联网平台中真假消费者。
为了达到上述目的,本发明一方面提供一种互联网真伪消费者判别方法包括以下步骤:
数据获取,随机选取样本用户,提取用户的行为数据和发布内容数据;
确定阈值,建立特征异常判定的动态阈值,所述动态阈值用以表示用户异常行为与正常行为的量化差异;
账号识别,根据动态阈值建立评估机制动态评估用户的状态,识别出异常用户账号。
进一步的,在数据获取过程中,提取的用户的行为数据和发布内容数据包括:
用户信息,包括用户名、用户账号、关注数、粉丝数;
主动发布内容,包括文字、发布时间;
转发、评论内容,包括被转发或评论的内容、转发或评论时写的内容、转发或评论的时间。
进一步的,所述阈值确定过程中,包括:
计算用户账号存在异常行为次数的分位点,上下四分位点分别记为Q3和 Q1;
计算上异常值边界和下异常值边界,上异常值边界=Q3+1.5(Q3-Q1),下异常值边界=Q1-1.5(Q3-Q1);
将上异常值边界作为阈值,大于上异常值边界的为异常值。
进一步的,本方法还包括:
计算用户账号的活跃天数和不活跃天数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宏原信息科技有限公司,未经上海宏原信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110171747.3/2.html,转载请声明来源钻瓜专利网。