[发明专利]基于模板的在线社交网络垃圾信息实时检测方法在审
申请号: | 201510439035.X | 申请日: | 2015-07-23 |
公开(公告)号: | CN105119910A | 公开(公告)日: | 2015-12-02 |
发明(设计)人: | 陈焰;高泓彧;卜凯;朱添田 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模板 在线 社交 网络 垃圾 信息 实时 检测 方法 | ||
1.一种基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,进行检测前先初始化一个空的垃圾模板库,检测时利用所述的垃圾模板库对待检测信息进行模板匹配以进行垃圾信息过滤:
若匹配成功,则认为该信息为垃圾信息,并利用所述的垃圾模板库对后续待检测信息进行模板匹配;
否则,进行如下步骤:
(a)对该待检测信息进行辅助过滤以确定其是否为垃圾信息,以及为垃圾信息时的所属类别并按类别对垃圾信息进行缓存;
(b)根据缓存结果更新所述的垃圾模板库,并利用更新后的垃圾模板库对后续待检测信息进行模板匹配。
2.如权利要求1所述的基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,所述垃圾模板库中的各个垃圾模板为正则表达式,相应的进行模板匹配时基于正则表达式进行。
3.如权利要求1所述的基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,所述步骤(a)利用本文相似度采用基于学习的方法对待检测信息进行辅助过滤。
4.如权利要求3所述的基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,根据分类的垃圾信息更新所述的垃圾模板库时:
统计缓存中所有类垃圾信息的总条数,当总条数大于阈值时,针对每一类垃圾信息分别构建相应的垃圾模板并存入垃圾模板库以更新垃圾模板库。
5.如权利要求4所述的基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,所述阈值为1000。
6.如权利要求5所述的基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,通过如下步骤构建每类垃圾信息的垃圾模板:
(S1)将该类中的垃圾信息分为若干个小类:
(S2)计算该小类垃圾信息的公共超串,再利用所述的公共超串计算得到相应的列缩减矩阵;
(S3)对列缩减矩阵进行列连接,并将列连接后的列缩减矩阵中字段性质相同的元素映射到相同的区域;
(S4)针对经过步骤(S3)处理后的列缩减矩阵的每个区域,将该区域中的内容合并,并利用正则表达式表示该区域的合并结果进而得到相应的垃圾模板。
7.如权利要求6所述的基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,所述步骤(S1)中将含有k个具有连续相同词汇的垃圾信息归为同一小类,k为2~8。
8.如权利要求1~7中任意一项所述的基于模板的在线社交网络垃圾信息实时检测方法,其特征在于,所述步骤(b)更新模板库前还对缓存中的垃圾信息进行去噪,并利用去噪后的结果更新垃圾模板库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510439035.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:小型车自行救援装置
- 下一篇:一种矿用防爆型柴油发电驱动单轨吊车