[发明专利]一种互联网真伪消费者判别方法、系统和装置在审

申请号：	202110171747.3	申请日：	2021-02-08
公开（公告）号：	CN112905662A	公开（公告）日：	2021-06-04
发明（设计）人：	杨骏;郭奕楷	申请（专利权）人：	上海宏原信息科技有限公司
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06Q50/00
代理公司：	上海容慧专利代理事务所(普通合伙) 31287	代理人：	于晓菁
地址：	200233 上海市徐汇区钦***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种互联网真伪消费者判别方法系统装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的一种互联网真伪消费者判别方法、系统和装置，针对社交类和垂直类平台设计多模式的异常账号识别方法，将用户的发言内容与行为相结合，其通过随机选取样本用户，提取用户的行为数据和发布内容数据；建立特征异常判定的动态阈值，以确定用户异常行为与正常行为的量化差异；根据动态阈值建立评估机制动态评估用户的状态，识别出异常用户账号。

技术领域

本发明涉及流量分析技术领域，具体涉及一种互联网真伪消费者判别方法、系统和装置。

背景技术

目前，对于甄别虚假消费者(网络异常账号)的方法主要有3种：基于内容特征分析、基于用户行为特征分析以及基于用户关系特征的分析方法。

内容特征分析是指通过自然语言处理相关技术，如文本分析、情感分析去识别文本间的相似性和情感倾向，从而达到识别异常账号的目的。这一技术主要在互联网时代早期广泛应用，比如通过检测重复内容来识别垃圾邮件。但是随着互联网的进步，异常账号越来越会隐藏自己，甚至可以模仿真实消费者发言，单纯的从文本内容已经无法有效的进行异常账号识别了。随着网络趋于多元化，消费者的发言形式也更复杂，会充斥着更多无意义的内容(如重复跟帖)。所以仅凭文本内容进行判定，会把很多真实用户识别为异常账号。

基于用户行为特征的方法依赖于机器学习模型，如逻辑回归、朴素贝叶斯、随机森林等等，可以避免因为异常账号发言内容趋近于真人而无法识别的问题，而且经过数据验证，能够取得比较高的准确率和召回率。但是这种基于用户特征的方法应用随着社交平台上的数据量越来越大(十亿、百亿级)，在商业应用中几乎不可能被实现。原因在于，1)模型需要人工判断和标注哪些是异常账号作为训练数据，如果要在1亿条用户数据中找出哪些是异常账号，需要人工标注大量数据，成本高。2)即使有了标注好的异常账号数据，预测需要花费大量的计算资源和时间。3)此类模型的准确率通常在80％左右，离商业应用还有一段差距。

同理，基于用户关系识别的方法依赖于图论、概率图等模型，也会在应用中会遇到和机器学习模型相似的问题。除此以外，随着互联网用户更加注重个人隐私的保护，基于用户关系识别的方法所必要的用户社交网络数据变得非常难获取，进一步增加了该方法实施的难度。

发明内容

本发明的目的是提供一种互联网真伪消费者判别方法、系统和装置，用以识别互联网平台中真假消费者。

为了达到上述目的，本发明一方面提供一种互联网真伪消费者判别方法包括以下步骤：

数据获取，随机选取样本用户，提取用户的行为数据和发布内容数据；

确定阈值，建立特征异常判定的动态阈值，所述动态阈值用以表示用户异常行为与正常行为的量化差异；

账号识别，根据动态阈值建立评估机制动态评估用户的状态，识别出异常用户账号。

进一步的，在数据获取过程中，提取的用户的行为数据和发布内容数据包括：

用户信息，包括用户名、用户账号、关注数、粉丝数；

主动发布内容，包括文字、发布时间；

转发、评论内容，包括被转发或评论的内容、转发或评论时写的内容、转发或评论的时间。

进一步的，所述阈值确定过程中，包括：