[发明专利]一种基于词分布和文档特征的垃圾评论自动分类方法在审
申请号: | 201510549592.7 | 申请日: | 2015-08-31 |
公开(公告)号: | CN105183715A | 公开(公告)日: | 2015-12-23 |
发明(设计)人: | 王建翔;顾庆;喻黎霞;陈道蓄 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 贺翔 |
地址: | 210000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于词分布和文档特征的垃圾评论自动分类方法,首先收集网络评论,对评论分词得到关键词集合;再建立词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;之后提取网络评论的文档特征,计算未标注网络评论的分类概率;最后对分类概率计算加权平均,重复上述步骤直到前后两次计算的分类概率相同或达到给定的迭代次数。该方法综合考虑网络评论中词分布特征和文档特征,通过自学习策略自动完成网络评论分类,帮助识别其中的垃圾评论的方法。本发明计算简单,通用性和扩展性强,只要少量具有标注的网络评论即可对大量的评论进行实时分类,适用于即时更新的网络评论中快速识别垃圾评论的应用需求。 | ||
搜索关键词: | 一种 基于 分布 文档 特征 垃圾 评论 自动 分类 方法 | ||
【主权项】:
一种基于词分布和文档特征的垃圾评论自动分类方法,其特征在于包含以下步骤:1)收集网络评论,对评论分词,得到关键词集合;2)建立关键词分布矩阵,训练语言模型,计算未标注网络评论属于正常评论和垃圾评论的分类概率;3)提取网络评论的文档特征,训练基于概率的Bayes分类器,计算未标注网络评论的分类概率;4)对步骤2)和步骤3)中的分类概率计算加权平均,最后采用自学习策略重复上述步骤,直到前后两次计算的分类概率相同或达到给定的迭代次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510549592.7/,转载请声明来源钻瓜专利网。