[发明专利]一种基于词分布和文档特征的垃圾评论自动分类方法在审
申请号: | 201510549592.7 | 申请日: | 2015-08-31 |
公开(公告)号: | CN105183715A | 公开(公告)日: | 2015-12-23 |
发明(设计)人: | 王建翔;顾庆;喻黎霞;陈道蓄 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 贺翔 |
地址: | 210000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布 文档 特征 垃圾 评论 自动 分类 方法 | ||
技术领域
本发明涉及计算机应用领域,特别是一种在海量因特网评论中辅助识别垃圾评论的自动分类方法。
技术背景
随着因特网技术的飞速发展,促生了多种新兴的网络通讯和交流方式。网络用户可以方便快捷的发表各种评论。网络交流以其良好的自由性、实时性和便捷性正在逐渐改变人们的沟通方式。
网络技术的发展具有两面性,用户发表评论的自由性和因特网强大的传播能力往往会被一些用户利用,将各种商业广告或恶意信息发布到网络评论中。近年来,垃圾评论在因特网中的蔓延趋势愈演愈烈,以垃圾评论为载体的各种商业广告,虚假宣传更是屡见不鲜。大量存在的垃圾评论不仅极大浪费了网络资源,而且恶意评论会虚造声势、传播负面消息,进而对社会产生负面影响。
因特网中巨大的用户数量和评论发表量对垃圾评论分类和识别带来挑战。目前针对网络中垃圾评论自动识别的分类研究还存在局限性:1)可扩展性不强,大多数分类方法只能针对特定的应用场景,很难进行扩展;2)抽取的特征单一,现有的分类方法只度量评论的相似性,没有综合考虑词分布特征和文档特征;3)对数据集的依赖性强,需要大量的评论标注;不能满足对因特网中垃圾评论自动分类的需求。
本发明方法应用到分词技术和Bayes分类器:单词是最小的具有独立意义的语法单元,汉语句子中的词之间没有明显的区分标记,需要采用分词技术将输入的汉语评论切分为具有独立意义的单词。Bayes分类器基于先验概率,采用贝叶斯公式计算目标评论属于正常评论和垃圾评论的分类概率,其分类结果是选择最大概率所对应的类别。本发明中涉及到自学习策略,自学习策略是一种半监督迭代式训练方法,适用于有标注的网络评论比例较少的情形;将前一轮迭代中得到的分类结果应用到下一轮迭代中,补充有标注的评论集合,从而提高分类结果的准确性。
发明内容
本发明所要解决的技术问题是提供一种基于词分布和文档特征的垃圾评论自动分类方法,该方法计算简单,通用性和扩展性强,只需要少量具有标注的网络评论即可对大量的评论进行实时分类。
为实现上述目的,本发明采用如下的步骤:
1)收集网络评论,对评论分词,得到关键词集合;
2)建立关键词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;
3)提取网络评论的文档特征,训练基于概率的Bayes分类器,计算未标注网络评论的分类概率;
4)对步骤2)和步骤3)中的分类概率计算加权平均,最后采用自学习策略重复上述步骤,直到前后两次计算的分类概率相同或达到给定的迭代次数。
上述步骤1)中收集网络评论并得到关键词集合的处理流程是:首先整合网络评论,得到网络评论集合:D={R1,R2…Rn},其中Ri表示D中的一条评论(1≤i≤n),n为评论总数;根据评论Ri是否带有标注(正常评论=0,垃圾评论=1),将集合D划分为标注集和目标集,前者包含有标注的网络评论,后者包含没有标注的网络评论;标注集又分为正常评论集合N和垃圾评论集合S;
然后利用分词技术,对每一个网络评论分词;对分词后的网络评论,删除以下内容:
●URL链接;
●手机或座机号码;
●数字;
●表情符号和其他特殊的网络符号;
●停用词,包括语气助词、副词、介词、连接词和标点符号;
汇总所有的网络评论分词结果后,得到的关键词集合记为W={w1,w2…ws},其中s是网络评论集合D中所有不同的关键词的数量,w1,w2…ws指各个关键词。
上述步骤2)中训练语言模型计算网络评论分类概率的处理流程是:首先建立词分布矩阵Mn×s和Hn×s,其中n指网络评论的总数,s指全部网络评论中不同的关键词的数量;矩阵元素M(i,x)表示评论Ri中关键词wx在标注集中正常评论下的计算值(1≤i≤n,1≤x≤s),H(i,x)表示评论Ri中关键词wx在标注集中垃圾评论下的计算值,M(i,x)和H(i,x)的计算公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510549592.7/2.html,转载请声明来源钻瓜专利网。