[发明专利]网页信息处理方法及装置在审
申请号: | 201410582341.4 | 申请日: | 2014-10-27 |
公开(公告)号: | CN105630780A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 张勇;秦朝;江建和 | 申请(专利权)人: | 小米科技有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 信息处理 方法 装置 | ||
1.一种网页信息处理方法,其特征在于,包括:
检测待检测网页的网页内容中是否包含有图片信息;
当所述网页内容中包含有图片信息时,获取与所述图片信息对应的图片;
对所述图片进行识别,得到所述图片内包含的内容信息;
判断所述内容信息是否为链接地址;
当所述内容信息不为链接地址时,将所述内容信息作为所述待检测网页的文本内容 进行存储;
当所述内容信息为链接地址时,将与所述内容信息对应的链接地址存储到预设地址 库中。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
判断所述图片是否为预设图片类型;
当所述图片为预设图片类型时,确定与所述预设图片类型对应的识别方式,并将所 述识别方式作为对所述图片进行识别所采用的识别方式。
3.根据权利要求2所述的方法,其特征在于,所述判断所述图片是否为预设图片类 型,包括:
判断所述图片内是否包含有预设图片特征;当所述图片内包含有预设图片特征时, 确定所述图片为预设图片类型;
或者,
判断所述图片的名称中是否包含预设字符特征;当所述图片的名称中包含有预设字 符特征时,确定所述图片为预设图片类型。
4.根据权利要求2所述的方法,其特征在于,所述对所述图片进行识别,得到所述 图片内包含的内容信息,包括:
调用与所述预设识别方式对应的识别程序;
利用所述识别程序对所述图片进行识别,得到所述图片内包含的内容信息。
5.根据权利要求1所述的方法,其特征在于,所述检测待检测网页的网页内容中是 否包含有图片信息,包括:
从预设地址库获取待检测网页的链接地址;
利用所述链接地址,获取所述待检测网页所有的网页内容;
判断所述网页内容中是否包含有图片链接地址;
当所述网页内容中包含有图片链接地址时,确定所述网页内容中包含有图片信息。
6.一种网页信息处理装置,其特征在于,包括:
图片信息检测模块,用于检测待检测网页的网页内容中是否包含有图片信息;
图片获取模块,用于当所述网页内容中包含有图片信息时,获取与所述图片信息对 应的图片;
图片识别模块,用于对所述图片进行识别,得到所述图片内包含的内容信息;
内容信息判断模块,用于判断所述内容信息是否为链接地址;
第一存储模块,用于当所述内容信息不为链接地址时,将所述内容信息作为所述待 检测网页的文本内容进行存储;
第二存储模块,用于当所述内容信息为链接地址时,将与所述内容信息对应的链接 地址存储到预设地址库中。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
图片类型判断模块,用于判断所述图片是否为预设图片类型;
识别方式确定模块,用于当所述图片为预设图片类型时,确定与所述预设图片类型 对应的识别方式,并将所述识别方式作为对所述图片进行识别所采用的识别方式。
8.根据权利要求7所述的装置,其特征在于,所述图片类型判断模块,包括:
图片特征判断子模块,用于判断所述图片内是否包含有预设图片特征;第一确定子 模块,用于当所述图片内包含有预设图片特征时,确定所述图片为预设图片类型;
或者,
字符特征判断子模块,用于判断所述图片的名称中是否包含预设字符特征;第二确 定子模块,用于当所述图片的名称中包含有预设字符特征时,确定所述图片为预设图片 类型。
9.根据权利要求7所述的装置,其特征在于,所述图片识别模块,包括:
调用子模块,用于调用与所述预设识别方式对应的识别程序;
识别子模块,用于利用所述识别程序对所述图片进行识别,得到所述图片内包含的 内容信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小米科技有限责任公司,未经小米科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410582341.4/1.html,转载请声明来源钻瓜专利网。