[发明专利]基于聚类分析的微博广告发布者识别方法及装置在审
申请号: | 201711263641.6 | 申请日: | 2017-11-30 |
公开(公告)号: | CN110019677A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 赵志宏;赵星宇;陈松宇;王譞 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于聚类分析的微博广告发布者识别方法及装置,该微博广告识别方法对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,以此计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别其中的微博广告发布者。实验结果显示该方法具有很高的准确率,证明该方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供实用方法。 | ||
搜索关键词: | 微博 广告发布 广告内容 聚类分析 稀释 垃圾信息识别 广告识别 聚类算法 文本特征 用户特征 用户维 准确率 聚类 发布 | ||
【主权项】:
1.基于基于聚类分析的微博广告发布者识别方法,包括通过对微博用户数据和发帖数据依次进行数据清洗、数据标注、核心微博提取、特征提取、参数选取、聚类分析和结果检测,从而识别出其中的微博广告发布者的步骤;其中:数据清洗:针对用户,将发帖数小于10的用户不纳入计算范围;针对单条微博,将微博中带有转发含义的字段及@符号后的内容进行删除;数据标注:将数据清洗得到的判决结果进行人工标注,分别为“普通用户”和“广告发布者”;核心微博提取:使用中文分词系统提取关键词,每个用户的每条微博都会获得一个关键词列表。Useri={W1,W2,W3,…,Wn}Wi={keyword1,keyword2,…,keywordn},
其中Useri是表示用户i的微博序列,Wi表示其中第i条微博的关键词列表的倒序排列,keyword为具体某个关键词。然后统计每个用户关键词的词频,取最大词频的10个关键词,组成用户关键词列表,并使用该列表查询包含这10个关键词的所有微博,最终得到该用户的核心微博序列C.C={W′1,W′2,…,W′n}特征提取:使用核心微博序列提取微博数据的文本特征和用户特征,其中文本特征分为文本相似度和时序相似度,用户特征分为广告微博关键词倾向性和广告元素数量;参数选取:调整DBSCAN算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts),使得检测结果的F值最高;聚类分析和结果检测:我们选取DBSCAN作为本实验所使用的聚类方法。DBSCAN算法为基于密度的聚类算法,与传统的基于层次的聚类算法不同,该算法可以发现任意形状的聚类簇,且可以在需要时输入过滤噪声的参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711263641.6/,转载请声明来源钻瓜专利网。