[发明专利]网页主图识别方法和装置有效
申请号: | 201611259514.4 | 申请日: | 2016-12-30 |
公开(公告)号: | CN108268488B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 秦首科;韩友;徐培治;邱学忠;马小林 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 陈姗姗 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 识别 方法 装置 | ||
本申请公开了一种网页主图识别方法和装置,该方法包括:基于网页中各图片的页面属性,筛选出候选主图;根据候选主图的信息主题,对候选主图的原始图片进行裁剪,得到对应的图片构图;以及确定出信息主题与所述网页的主题匹配的候选主图;以及将匹配的候选主图所对应的图片构图识别为所述网页的主图。应用本发明,可识别出有效突出网页的主题的主图,提升网页信息的传递效率,提高用户体验。
技术领域
本公开一般涉及互联网技术领域,具体涉及一种网页主图识别方法和装置。
背景技术
随着互联网技术的发展,图文并茂形态的网页越来越多。商业推广中,网页中的图片可以直观地向用户传达所包含的内容;而且,相比文字展示,网页中的图片展示可提供更多的信息,更利于网民直观快速选定感兴趣的内容,尤其是图片质量和信息明显高于其他图片的网页主图,最能体现网页的主题。因此,实际应用中,为了提高商业推广的点击率,可以充分挖掘广告主的图片物料,在商业推广中展示突出网页的主题的主图。
目前,现有技术中存在一种主图识别方案可抓取网页中的关键图片:根据网页地址获取网页的DOM(Document Object Model,文档对象模型)结构;根据网页的DOM结构定位网页的中心节点;正则匹配中心节点及其兄弟节点处的图片,对正则匹配出的图片进行格式过滤和属性过滤(选出符合指定高度和宽度的图片),输出符合过滤条件的图片;将输出的图片作为抓取到的网页的关键图片。
然而,本发明的发明人发现,通过现有网页主图识别方案抓取的主图无法准确表达网页的主题,从而导致网页信息传递效率低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种能够挖掘出有效突出网页的主题的主图的方案,从而提升网页信息的传递效率,提高用户体验。
第一方面,本申请实施例提供了一种网页主图识别方法,包括:
基于网页中各图片的页面属性,筛选出候选主图;
根据候选主图的信息主题,对候选主图的原始图片进行裁剪,得到对应的图片构图;
确定出信息主题与所述网页的主题匹配的候选主图;以及
将匹配的候选主图所对应的图片构图识别为所述网页的主图。
第二方面,本申请实施例还提供了一种网页主图识别装置,包括:
属性筛选单元,配置用于基于网页中各图片的页面属性,筛选出候选主图;
构图裁剪单元,配置用于根据候选主图的信息主题,对候选主图的原始图片进行裁剪,得到对应的图片构图;
主题匹配单元,配置用于确定出信息主题与所述网页的主题匹配的候选主图;以及
主图识别单元,配置用于将匹配的候选主图所对应的图片构图识别为所述网页的主图。
第三方面,本申请实施例还提供了一种计算设备,包括一个或多个处理器以及存储器,所述存储器包含可由所述处理器执行的指令以使得所述处理器执行本申请实施例提供的网页主图识别方法。
本申请实施例提供的网页主图识别方案,在根据页面属性筛选出候选主图后,通过对候选主图的原始图片的裁剪,以得到能够更加突出信息主题的图片构图;将信息主题与网页的主题匹配的图片构图作为网页的主图,不仅能够表达网页的主题,还可有效突出网页的主题,提升网页信息的传递效率。进一步地,通过图片类型对候选主图进行过滤,可保障最终确定的网页主图的高质量需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了其中可以应用本申请实施例的示例性系统架构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611259514.4/2.html,转载请声明来源钻瓜专利网。