[发明专利]一种识别垃圾文本的方法和装置在审
申请号: | 201310058680.8 | 申请日: | 2013-02-25 |
公开(公告)号: | CN104008105A | 公开(公告)日: | 2014-08-27 |
发明(设计)人: | 张湘念 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张玉波;宋志强 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 垃圾 文本 方法 装置 | ||
技术领域
本申请涉及信息处理技术领域,尤其涉及一种识别垃圾文本的方法和装置。
背景技术
在互联网络中常常充斥着各种垃圾文本,例如垃圾评论信息等,如何识别出这些垃圾文本是目前急需解决的一个技术问题。
目前,一般根据敏感词库来识别垃圾文本,具体地:
预先根据已经确定的垃圾文本建立敏感词库,对于待处理文本,判断该待处理文本中是否出现了敏感词库中的词,如果是,则将该待处理文本识别为垃圾文本,否则,将该待处理文本识别为非垃圾文本。
可见,目前根据敏感词库来识别垃圾文本的方法存在以下的缺陷:
有些垃圾文本会通过不断变换关键词,来避免与敏感词库中的敏感词相同,例如,当某用户发送了垃圾广告评论“各种化妆品,尽在我的淘宝店”时,敏感词库编辑人员将“淘宝店”加入到敏感词库中,然而,当用户将评论内容改成“各种化妆品,尽在我的淘宝商店”,由于“淘宝商店”并不在敏感词库中,因此将导致敏感词库失效,即将本应为垃圾文本的“各种化妆品,尽在我的淘宝商店”识别为了非垃圾文本。
因此,目前识别垃圾文本的方法的垃圾文本召回率较低。
发明内容
本申请提供了一种识别垃圾文本的方法和装置,能够提高垃圾文本的召回率。
一种识别垃圾文本的方法,该方法包括:
预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息,
采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度;
根据所述差异程度识别待处理文本是否为垃圾文本;
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
一种识别垃圾文本的装置,该装置包括样本库模块、差异程度确定模块和识别模块;
所述样本库模块,用于存储预先采用签名算法计算出的垃圾文本的签名信息;
所述差异程度确定模块,用于采用所述签名算法计算待处理文本的签名,确定待处理文本的签名与样本库模块中存储的签名信息之间的差异程度;
所述识别模块,用于根据所述差异程度识别待处理文本是否为垃圾文本;
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
由上述技术方案可见,本发明通过在样本库中存储垃圾文本的签名,计算待处理文本的签名,而且计算垃圾文本的签名和计算待处理文本的签名所采用的签名算法针对不同文本计算出的签名能够反映不同文本之间的差异程度信息,因此,通过确定待处理文本的签名与样本库中存储的签名信息之间的差异程度,根据所述差异程度能够识别待处理文本是否为垃圾文本。
由于本发明根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本,因此,即便待处理文本与垃圾文本不完全一致,只要两者的差异程度满足预定的条件,本发明也能够将所述待处理文本识别为垃圾文本,因此能够大大提高垃圾文本的召回率。
附图说明
图1是本发明提供的识别垃圾文本的方法流程图。
图2是本发明提供的识别垃圾文本的装置结构图。
具体实施方式
图1是本发明提供的识别垃圾文本的方法流程图。
如图1所示,该方法包括:
步骤101,预先采用签名算法计算垃圾文本的签名,在样本库中存储垃圾文本的签名信息。
步骤102,采用所述签名算法计算待处理文本的签名。
其中,采用所述签名算法针对不同文本计算出的签名能够反映所述不同文本之间的差异程度信息。
步骤103,确定待处理文本的签名与样本库中存储的签名信息之间的差异程度。
步骤104,根据所述差异程度识别待处理文本是否为垃圾文本。
可见,由于图1所示方法根据待处理文本的签名与垃圾文本的签名之间的差异程度来识别待处理文本是否是垃圾文本,因此,即便待处理文本与垃圾文本不完全一致,只要两者的差异程度满足预定的条件,图1所示方法也能够将所述待处理文本识别为垃圾文本,因此能够大大提高垃圾文本的召回率。
其中,所采用的签名算法可以是SIMHASH签名算法,也可以是MINHASH签名算法。
其中,具体可以通过计算待处理文本的签名与垃圾文本的签名之间的汉明距离来确定待处理文本的签名与垃圾文本的签名之间的差异程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310058680.8/2.html,转载请声明来源钻瓜专利网。