[发明专利]网页图片过滤方法及系统有效
申请号: | 201010583425.1 | 申请日: | 2010-12-10 |
公开(公告)号: | CN102567319A | 公开(公告)日: | 2012-07-11 |
发明(设计)人: | 李瑞方;张立明 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 何平;曾旻辉 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 图片 过滤 方法 系统 | ||
【技术领域】
本发明涉及网页解析技术,特别是涉及一种网页图片过滤方法及系统。
【背景技术】
现有的网站大多为web网页,这此网页只能通过电脑正常访问和浏览,而在正常情况下,手机等移动终端只能访问wap(Wireless Application Protocol,无线通讯协议)网页。为充分利用现有的web网页资源,常常将适宜于电脑访问的web网页转换为适宜于移动终端访问的wap网页,以使得用户可通过手机等小屏幕移动终端方便地访问和浏览web网页中的主要内容。
然而,在传统的web网页转换过程中,必须将web页面中的图片下载下来,然后根据下载后的图片进行识别,以判断下载后的图片是垃圾图片还是主体图片,从而导致下载图片耗时过长,极大地消耗了网络带宽及处理器资源。
【发明内容】
基于此,本发明实施例提供一种网页图片过滤方法,其可解决现有技术中网络带宽消耗较大的问题。
此外,还有必要提供一种可减少网络带宽消耗的网页图片过滤系统。
一种网页图片过滤方法,包括以下步骤:从网页上的图片中提取对应的图片特征;根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;从所述网页上下载未剔除的图片。
优选地,所述图片特征包括样式信息,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是,则剔除所述垃圾图片的步骤为:从所述样式信息中得到所述图片的尺寸参数;判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则剔除所述垃圾图片。
优选地,所述图片特征还包括图片文件名的信息摘要值,则所述根据所述图片特征判断所述图片是否为垃圾图片,若所述图片的尺寸参数是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则剔除所述垃圾图片的步骤为:判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是,则按照所述图片的文件名计算信息摘要值;根据所述信息摘要值标记重复的图片;判断是否存在已标记的重复图片,若是存在已标记的重复图片,则剔除所述已标记的重复图片。
优选地,所述图片特征包括图片数量,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:获取所述网页中的图片数量;判断所述图片数量是否大于数量阈值,若是大于数量阈值,则从所述网页中提取文件名结构相同且路径特征相同的图片;剔除所述文件名相同且路径特征相同的图片。
优选地,所述图片特征包括图片的替换文本,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述剔除图片的步骤为:以图片的替换文本为特征项计算对应的先验概率;根据所述先验概率及图片的替换文本通过朴素贝叶斯分类算法计算垃圾图片概率和主体概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。
优选地,所述图片特征包括图片的绝对路径,则所述根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片的步骤为:从所述图片的绝对路径中提取图片的文件名或路径特征;以图片的文件名或路径特征为特征项计算对应的先验概率;根据所述先验概率以及与先验概率相对应的文件名或路径特征通过朴素贝叶斯分类算法计算得到垃圾图片概率和主体图片概率;将所述垃圾图片概率和主体图片概率归一化后得到垃圾图片;剔除所述垃圾图片。
一种网页图片过滤系统,至少包括:特征提取模块,用于逐一从网页上的图片中提取图片特征;过滤模块,用于根据所述图片特征判断所述图片是否为垃圾图片,若是垃圾图片,则剔除所述垃圾图片;下载模块,用于从所述网页上下载未剔除的图片。
优选地,所述图片特征包括样式信息,所述过滤模块包括:处理单元,用于从所述样式信息中得到所述图片的尺寸参数;判断单元,用于判断所述图片的尺寸参数是否小于垃圾阈值,若是小于垃圾阈值,则通知剔除单元;剔除单元,用于剔除所述垃圾图片。
优选地,所述图片特征还包括图片文件名的信息摘要值,所述判断单元进一步用于判断所述图片的尺寸参数是否介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,若是介于垃圾阈值与主体阈值之间或提取图片的尺寸参数失败,则按照所述图片的文件名计算信息摘要值,并根据所述信息摘要值标记重复的图片;所述判断单元还用于判断是否存在已标记的重复图片,若是存在已标记的重复图片,则通知所述剔除单元;所述剔除单元进一步用于剔除所述已标记的重复图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010583425.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种过滤微博信息的方法及装置
- 下一篇:一种USB转I2C适配器