[发明专利]基于聚类分析的微博广告发布者识别方法及装置在审
申请号: | 201711263641.6 | 申请日: | 2017-11-30 |
公开(公告)号: | CN110019677A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 赵志宏;赵星宇;陈松宇;王譞 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/9535;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 微博 广告发布 广告内容 聚类分析 稀释 垃圾信息识别 广告识别 聚类算法 文本特征 用户特征 用户维 准确率 聚类 发布 | ||
本发明公开了基于聚类分析的微博广告发布者识别方法及装置,该微博广告识别方法对于用户维度,针对微博广告发布者通过发布大量普通微博来稀释其广告内容的现象,提出核心微博的概念,通过提取核心微博主题及其对应的微博序列,以此计算用户特征和对应微博的文本特征,并使用聚类算法对特征进行聚类,从而识别其中的微博广告发布者。实验结果显示该方法具有很高的准确率,证明该方法在广告内容被人为稀释的情况下能准确地识别微博广告发布者,可以为微博垃圾信息识别、清理等工作提供实用方法。
技术领域
本发明涉及一种计算机技术,主要利用数据挖掘与自然语言处理方法来解决微博数据中的垃圾信息发布者筛选问题,属于计算机技术、数据挖掘及舆情分析交叉技术应用领域。
背景技术
伴随着微博的迅猛发展,越来越多的垃圾信息随之出现,这些信息不仅影响着用户体验,也对微博相关的研究工作造成了极大的负面影响。目前,针对垃圾信息的研究主要集中在单条垃圾微博的分类和筛选,而单条微博粒度下的计算势必需要对整个微博信息流进行处理,超大数据量使得运算效率低下,且现有研究大都使用分类算法进行计算,分类过程中无法对大数据量训练集进行人工标注,数据量的限制导致其计算结果无法保证足够精确。
中国专利申请CN201310410578.X,一种微博广告用户检测方法,涉及社交网络安全领域,特别是涉及一种微博广告用户检测的方法,为解决新浪自带的检测工具对广告用户十分不灵敏的缺陷而发明。本发明的方法包括:收集用户信息,为每个用户添加分类标识;对获得的用户信息进行特征抽取,基于数据挖掘方法得到广告用户和普通用户的内容和行为的特征属性集;根据具有分类标识的特征属性集进行模型训练,得到广告用户判别模型。该发明主要应用于对新浪微博数据进行广告用户自动检测。
但是使用该方法和装置判定的广告用户准确性和数据处理效率还存在一定的偏差。
发明内容
本发明的目的是克服了现有技术的不足而提供了一种效率高、数据量大、可实施性高的聚类分析微博广告发布者识别方法。
为了解决上述存在的技术问题,本发明采用下列技术方案:
通过对微博用户数据和发帖数据依次进行数据清洗、数据标注、核心微博提取、特征提取、参数选取、聚类分析和结果检测,从而识别出其中的微博广告发布者。其中具体步骤为:
数据清洗:针对用户,将发帖数小于10的用户不纳入计算范围;针对单条微博,将微博中带有转发含义的字段及@符号后的内容进行删除。
数据标注:对用户进行手动标注以便于评判实验的准确度,标注分为广告微博发布者和普通微博发布者两类。广告微博发布者的行为特征为:发布内容带有强烈的商业色彩或转发大量低质信息等。
核心微博提取:
广告微博发布者会在广告微博中夹杂大量的普通微博。普通微博的存在会严重影响各个文本特征计算的准确性。另一方面,几乎每个广告微博发布者都会围绕一个或几个类别的实体进行宣传。因此,在这里引入基于关键词的核心微博提取方法。
使用NLPIR中文分词系统提取关键词,每个用户的每条微博都会获得一个关键词列表。
Useri={W1,W2,W3,…,Wn}
Wi={keyword1,keyword2,…,keywordn},
keywordi≤keywordi-1,i>0
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711263641.6/2.html,转载请声明来源钻瓜专利网。