[发明专利]信息过滤方法和信息过滤装置有效
申请号: | 201510801120.6 | 申请日: | 2015-11-19 |
公开(公告)号: | CN106776493B | 公开(公告)日: | 2020-03-03 |
发明(设计)人: | 陈尔晓 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/12 | 分类号: | G06F40/12 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 过滤 方法 装置 | ||
本发明实施例公开了信息过滤方法和信息过滤装置。本发明实施例方法包括:获取第一文本集,第一文本集中的第一文本为一条发布消息的内容;获取第二文本集,第二文本集中的第二文本为第一文本集中与其对应的第一文本与第一文本的参考文本的最长公共子序列,第一文本的参考文本为第一文本集中除第一文本以外的文本;获取第三文本集,第三文本集中的第三文本为与其对应的第二文本和第二文本的参考文本的最长公共子序列,第二文本的参考文本为第二文本集中除第二文本以外的文本;当第三文本的长度和与其对应的第一文本的长度的比值不小于第一预置数值时,将第一文本确定为待处理文本。
技术领域
本发明涉及计算机领域,尤其涉及一种信息过滤方法和信息过滤装置。
背景技术
随着网络用户数量的逐年增长,广告商开始在网页上大量投放广告,广告给用户提供信息的同时也给大多数用户带来干扰。为提高用户的使用体验,有必要对网页中的广告进行过滤。
现有技术中主要是采用传统的文本比较相等的方法或者进行关键词查找的方法来判断用户帐号发布的内容是否相同来确定这些内容是否广告。然而,在广告主发布的内容包括没有实际含义的词语或者语句,或者每次发布的内容相似但是语句打乱的情况中,使用现有技术中的分析方法不能很准确地分析出这些文本属于类似的广告,而且计算量较大。
发明内容
本发明实施例提供了一种信息过滤的方法和装置,能够较准确地筛选出广告内容。
本发明实施例提供一种信息过滤方法,包括:
获取第一文本集,第一文本为所述第一文本集中的任意一个文本,所述第一文本为一条发布消息的内容;
获取第二文本集,所述第二文本集中的各文本与所述第一文本集中的各文本一一对应,第二文本为所述第二文本集中的任意一个文本,所述第二文本为所述第一文本集中与其对应的第一文本与所述第一文本的参考文本的最长公共子序列,所述第一文本的参考文本为所述第一文本集中除所述第一文本以外的文本;
获取第三文本集,所述第三文本集中的各文本与所述第二文本集中的各文本一一对应,第三文本为所述第三文本集中的任意一个文本,所述第三文本为与其对应的第二文本和所述第二文本的参考文本的最长公共子序列,所述第二文本的参考文本为第二文本集中除所述第二文本以外的文本;
当所述第三文本的长度和与其对应的第二文本所对应的第一文本的长度的比值不小于第一预置数值时,将所述第一文本确定为待处理文本。
可选的,所述方法还包括:
将所述待处理文本删除或者屏蔽。
可选的,所述获取第一文本集,包括:
确定目标账号;
获取所述目标账号所发布的消息内容,所述第一文本集包括所述目标账号所发布的至少部分消息的内容。
可选的,所述方法还包括:
获取所述目标账号所发布的消息数量和所述待处理文本的数量;
计算所述待处理文本的数量占所述目标账号所发布的消息数量的比例;
当所述比例不小于第二预置值时,禁止所述目标账号发布消息。
可选的,所述方法还包括:
当所述比例小于所述第二预置值且大于第三预置值时,将所述目标账号放入黑名单中。
本发明实施例还提供一种信息过滤装置,包括:
第一获取模块,用于获取第一文本集,第一文本为所述第一文本集中的任意一个文本,所述第一文本为一条发布消息的内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510801120.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置