[发明专利]一种垃圾博客检测方法无效
申请号: | 200810120972.9 | 申请日: | 2008-09-09 |
公开(公告)号: | CN101393555A | 公开(公告)日: | 2009-03-25 |
发明(设计)人: | 陈纯;卜佳俊;张峰;仇光;郑淼 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 林怀禹 |
地址: | 310027浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 博客 检测 方法 | ||
1.一种垃圾博客检测方法,其特征在于该方法的步骤如下:
1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断;
2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价;
3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断;
4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。
2.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中正文文本口语化属性是指就单篇文章而言,在文本分类中强化对口语化属性的判断,并以文本内容的口语化属性特征作为判断是否垃圾博客的特征。
3.根据权利要求1所述的一种垃圾博客检测方法,其特征在于:所述步骤1)中文本相似度属性是指就博客作者的所有博客文章而言,使用空间向量模型求余弦的方式,通过计算经过“简化”的各篇博客文章之间的文本相似度,对是否为垃圾博客进行判断,空间向量模型求余弦的计算公式如下:
其中:D表示一篇文章;wik表示文章Di中的一个词条;m表示文章Di中的词条个数;Sim(Di,Dj)表示文章Di和Dj的相似程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810120972.9/1.html,转载请声明来源钻瓜专利网。