[发明专利]网页结构优化方法、装置、设备和存储介质有效
申请号: | 201911410543.X | 申请日: | 2019-12-31 |
公开(公告)号: | CN111125587B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 蒋庆宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 结构 优化 方法 装置 设备 存储 介质 | ||
本申请实施例公开了一种网页结构优化方法、装置、设备和存储介质,涉及网页处理技术领域。具体实现方案为:响应用户的网页触发行为,确定用户访问的目标网页;确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信息是通过对候选网页中元素的结构分析得到;若检测到所述原始结构信息与所述目标结构信息不一致,则根据所述目标结构信息,对所述目标网页中元素的结构进行转化,以向用户展示结构转化后的目标网页。本申请实施例通过对候选网页结构进行自动化离线分析,预先确定网页中元素的目标结构信息,实现了在线的网页结构优化,避免了网页结构优化中的人工参与,降低网页结构优化成本,提高网页结构优化效率和准确率。
技术领域
本申请实施例涉及计算机技术领域,尤其涉及网页处理技术领域,具体涉及一种网页结构优化方法、装置、设备和存储介质。
背景技术
在当今互联网浏览环境下,广大互联网用户浏览着设计良莠不齐、充斥不良内容的网站。目前依赖于站长将网页渲染成统一结构,由于站点数量十分庞大,基于人工的处理方式不仅效率低、时效性差,而且对人工的开发能力要求较高,增加投入成本,降低准确性,难以实现在线的网页结构优化。
发明内容
本申请实施例提供了一种网页结构优化方法、装置、设备和存储介质,能够实现在线的网页结构优化,降低网页优化成本,提高网页优化效率和准确率。
第一方面,本申请实施例提供了一种网页结构优化方法,包括:
响应用户的网页触发行为,确定用户访问的目标网页;
确定所述目标网页中元素的原始结构信息和目标结构信息;其中,所述目标结构信息是通过对候选网页中元素的结构分析得到;
若检测到所述原始结构信息与所述目标结构信息不一致,则根据所述目标结构信息,对所述目标网页中元素的结构进行转化,以向用户展示结构转化后的目标网页。
上述申请中的一个实施例具有如下优点或有益效果:通过对候选网页结构进行自动化离线分析,预先确定网页中元素的目标结构信息,实现了在线的网页结构优化,避免了网页结构优化中的人工参与,降低网页结构优化成本,提高网页结构优化效率和准确率。
可选的,所述确定所述目标网页中元素的原始结构信息和目标结构信息,包括:
若检测到所述目标网页为所述候选网页,则根据所述候选网页中元素与原始结构信息之间的映射关系,确定所述目标网页中元素的原始结构信息;
根据元素类型与目标结构信息之间的映射关系,确定所述目标网页中元素的目标结构信息。
上述申请中的一个实施例具有如下优点或有益效果:基于预先确定的候选网页中元素的原始结构信息,以及各类元素的目标结构信息,实现在线实时提取结构信息,提高结构信息的在线提取效率和准确性。
可选的,通过对候选网页中元素的结构分析得到所述目标结构信息,包括:
识别所述候选网页中网页数据所属的元素,并提取元素的原始结构信息,以得到所述候选网页中元素与原始结构信息之间的映射关系;
根据所述候选网页所属站点中同类元素与原始结构信息之间的映射关系,确定所述站点内该类元素与目标结构信息之间的映射关系。
上述申请中的一个实施例具有如下优点或有益效果:通过对候选网页结构进行自动化离线分析,预先确定候选网页中元素的原始结构信息,以及各类元素的目标结构信息,为在线实时的信息提取提供依据,提高了在线处理效率。
可选的,所述识别所述候选网页中网页数据所属的元素,包括:
驱动浏览器,得到所述候选网页的网页数据;
根据所述网页数据的特征,识别所述网页数据所属的元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911410543.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种污泥浓缩脱水一体机
- 下一篇:一种UI界面设计绘图装置