[发明专利]一种基于Elasticsearch和微博评论的网络写手检测方法在审
申请号: | 202110778543.6 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113761312A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 赵粉玉;邱彦林;朱安安;俞一奇 | 申请(专利权)人: | 杭州叙简科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9536;G06F16/33;G06Q50/00 |
代理公司: | 杭州浙言专利代理事务所(普通合伙) 33370 | 代理人: | 易朝晖 |
地址: | 311121 浙江省杭州市余杭区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 elasticsearch 评论 网络 检测 方法 | ||
1.一种基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,其包括以下步骤:
(1)数据采集:获取微博信息、微博用户信息和每条微博下的评论信息,将获取到的以上信息按照不同文档类型存放至数据库Elasticsearch中;Elasticsearch提供一个分布式的实时全文搜索引擎;
(2)数据分析和网络写手评定:通过Elasticsearch的模糊搜索,找出每条微博下评论信息相似度高的账号,形成疑似网络写手账号集合;根据疑似网络写手账号所发的微博内容再次验证疑似网络写手账号是否为网络写手账号。
2.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,步骤(1)中,通过微博官方API或网络爬虫获取微博信息、微博用户信息和每条微博下的评论信息。
3.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,步骤(1)中,所述的微博信息包括微博内容、微博id、发文时间和发博用户id;所述的微博评论信息包括微博id、评论内容、评论时间、回复数、点赞数和评论数;微博用户信息包括用户id、微博数、粉丝数、注册地域、vip类型、vip等级和是否进行身份认证。
4.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,步骤(1)中,Elasticsearch引擎在处理全文搜索包括以下步骤:
(1.1)分析需要查询的字符串,对字符串进行分词;
(1.2)对分词的结果构建查询,查询结果按score评分排序得到数据集,评分策略使用TF/IDF;
(1.3)返回前k条与之相似的语句。
5.根据权利要求1所述的基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,步骤(2)中,获取疑似网络写手账号集合具体包括以下步骤:
(2.1)计算同一微博下评论之间的相似性,取出评论中的一条数据,使用Elasticsearch对其进行模糊搜索,并得出与之相关度最高的前n条;
(2.2)将(2.1)中获取的评论逐一转化成向量,通过cos函数计算出其相似度,设置相似度阈值,通过大于相似度阈值的占比判断是否为疑似网络写手账号,并将疑似网络写手账号列到疑似网络写手账号的集合中。
6.根据权利要求5所述的基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,计算评论内容间相似度的具体步骤包括:
(2.21)文本分词,去除停用词后得到词表;
(2.22)通过词向量空间模型将步骤(2.21)得到的词表转化为词向量列表,将词向量列表中向量相加求平均;词向量空间模型是将维基百科语料通过中文分词工具分词,去除停用词后,使用gensim工具包中的word2vec工具训练得到的模型,词向量空间模型将词转化成向量;
(2.23)使用向量间余弦相似度方式计算搜索文本与Elasticsearch引擎在处理全文搜索中返回的各句之间相似度;
向量间的余弦值的计算公式为:
式中:A和B为两个评论通过步骤(2.22)转化成的向量。
7.根据权利要求6所述的基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,步骤(2)中,通过网络写手的行为特征再次验证疑似网络写手账号是否为网络写手账号,微博网络写手的行为特征包括:a.企业通过支付网络写手公司费用,雇佣网络写手进行造势或攻击对手;b.企业通过有奖转发等诱惑,使用抽奖机器人进行转发造势;c.企业通过有奖转发等诱惑,吸引真实用户注册小号转发造势。
8.根据权利要求7所述的基于Elasticsearch和微博评论的网络写手检测方法,其特征在于,判断是否为网络写手账号还包括同一批疑似网络写手账号是否多次在相同、相近时间执行相同的任务,具体方式为:获取到疑似网络写手账号的前10条微博,在Elasticsearch中轮训搜索这些微博在相近时间内发布的前m条微博,并通过步骤(2.2)中的方法计算其之间的相似度,前10条微博中的某条超过相似阈值的概率大,标记此条微博为非原创微博,如果此用户的非原创微博占比高,则标记此账号为网络写手账号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州叙简科技股份有限公司,未经杭州叙简科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110778543.6/1.html,转载请声明来源钻瓜专利网。