[发明专利]内容过滤方法及内容过滤装置无效
申请号: | 200810186181.6 | 申请日: | 2008-12-19 |
公开(公告)号: | CN101441653A | 公开(公告)日: | 2009-05-27 |
发明(设计)人: | 陈波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/38;G06K9/62 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 | 代理人: | 方 挺;王艳春 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容 过滤 方法 装置 | ||
技术领域
本发明涉及网络信息搜索,更具体地说,涉及在网络信息搜索中的内容过滤。
背景技术
随着互联网技术的飞速发展,人们不仅可以从单纯的文本,而且可以通过图片、音频和/或视频等多种媒体获取各种信息(也称为“内容”)。
由于现在网络信息的泛滥,当用户搜索某些包含图片的内容时,搜索结果中往往有许多包括文字(抑或带有图像)的图片(简称“小说图片”)。例如,在搜索某个人物有关的图片时,就会出现很多与该人物有关的小说图片。这常常影用户的体验感受。
随着网络信息的迅速膨胀,搜索引擎也在向行业化和细分化发展。垂直搜索是能够针对特定行业、特定业务或专业需求而提供的一种搜索技术。作为已有的网络搜索的细化和延伸,对某类网页资源或结构化资源进行深度整合,从而为用户提供符合专业用户操作行为要求的信息服务。但是,在垂直搜索的技术中,目前对于诸如小说图片等的内容进行过滤的技术还很少。
发明内容
本发明提供一种内容过滤技术,能对不希望的内容进行判断和过滤。
根据本发明的一个方面,一种内容过滤方法包括:将内容进行二值化处理;提取经过二值化处理后的内容中的特征值;和根据所述特征值确定是否将该内容过滤。
根据本发明的另一个方面,一种内容过滤方法包括:将内容进行二值化处理;获取经过二值化处理后的内容的特征值;基于特征值,确定内容的置信概率;和根据置信概率确定是否将该内容过滤。
在本申请中,“内容”可包括网络信息的各种表示形式,例如可以是各种包含图像或文字或兼有二者的网页图片等。
根据本发明另一方面,还提供一种内容过滤装置,包括:二值化模块,将内容进行二值化处理;特征值获取模块,确定经过二值化处理后的内容的特征值;以及过滤模块,根据特征值确定是否将内容进行过滤。
根据本发明另一方面,还提供一种内容过滤装置,包括:二值化模块,将内容进行二值化处理;特征值获取模块,确定经过二值化处理后的内容的特征值;置信概率确定单元,根据内容特征值确定内容的置信概率;以及过滤模块,根据置信概率确定是否将该内容进行过滤。
本发明能够对诸如小说图片之类的不希望的内容进行过滤,并可以用于垂直搜索引擎中,但不以此为限。
附图说明
图1是本发明的一种实施方式的内容过滤方法的流程示意图;
图2是本发明另一种实施方式的内容过滤方法的流程图;
图3是根据本发明的一种实施方式的内容过滤装置的示意图;
图4是根据本发明的另一种实施方式的内容过滤装置的示意图。
具体实施方式
以下将参考附图说明对网络搜索的内容进行过滤的一些实施方式。在这些实施方式中是以对网络搜索中获取的多个图片中过滤掉小说图片为例来说明的。如前所述,小说图片是指包括文字(或文字+图像)的图片。但是这并不应当理解为是对本发明的限制。
参照图1,在一种实施方式中,内容过滤方法包括以下步骤:
在步骤S10,将通过搜索获取的图片(即内容)进行二值化处理,以便于对图片特征的提取。
在步骤S11,从经过二值化处理的图片中提取图片的特征值。图片的特征值可以包括字符排列整齐性和/或字符行的游程分布紧密性,还可以包括字符大小一致性、字符颜色单一性等。
在步骤S12,可以根据所确定的特征值,判断图片是否为小说图片。如是,则过滤该图片。“过滤”可以是将该图片所属的网站降位排序,或者阻止其显示。
目前将图片进行二值化处理所采用的二值化算法有多种,如全局阈值法、自动亮度选取法、笔划特征自适应阈值法和Niblack算法等。
Niblack算法是一种局部二值化算法。灰度阈值通常由局部平均灰度和局部标准方差决定。在一个实施例中,采用改进的Niblack算法,即用固定经验阈值来代替局部标准方差,可以去除大量Niblack算法带来的固有的噪音,便于图片特征提取。改进的Niblack算法的计算公式如下:
T(x,y)=M(x,y)-Th (1)
其中,T(x,y)是坐标为(x,y)的像素点的灰度阈值;M(x,y)是坐标为(x,y)的像素点的局部平均灰度值;Th是固定经验阈值,可以通过大量试验来获取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810186181.6/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法