[发明专利]生成网页模板的方法及装置有效
申请号: | 201310606200.7 | 申请日: | 2013-11-25 |
公开(公告)号: | CN103678509B | 公开(公告)日: | 2017-11-10 |
发明(设计)人: | 马晓辉 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙)11391 | 代理人: | 康正德,薛峰 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 网页 模板 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,具体涉及一种生成网页模板的方法及装置。
背景技术
网页模板可以用于抽取网页的内容,比如有的搜索引擎在抓取网站时使用了定向采集技术,定向采集的蜘蛛使用网页模板把网站的相关内容抽取出来,获得格式化的内容,包括网页的标题、作者、发表时间和正文等信息。
现有的一种生成网页模板的方法为:首先,根据页面的URL(Uniform Resource Locator,统一资源定位符),下载页面的源代码;其次,根据页面的源代码对页面结构进行自动分析,计算出页面中各结构的哈希值;然后,根据页面的源代码人工判断页面中哪些结构对应标题,哪些结构对应正文,哪些结构对应发表时间等,并进行标记;最后,生成结构的哈希值与结构的内容类型的对应关系,得到网页模板。
现有的生成网页模板方法至少存在如下缺点:
人工标记页面结构的内容类型是通过文本编辑进行的,网页模板里面有大量的不相关的内容,有的网页模板甚至有好几万行,导致人工标记的效率非常低;
网页模板中的各种内容夹杂在网页代码中,由于网页内容没有直观的呈现出来,如果对网页设计语言不熟,则不容易确定页面结构的内容类型,人工标记时就容易出错,导致生成的网页模板的准确性不高,进而导致根据该网页模板进行内容抽取的准确性也不高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的生成网页模板的方法及装置。
依据本发明的一个方面,提供了一种生成网页模板的方法,所述方法包括:
构建对网页进行标注的可视化效果框架;
获取对网页各部分内容区域进行标注的指示;
记录内容区域与标注指示的对应关系,得到网页模板。
可选地,所述可视化效果框架包括内容区域、位于选中的内容区域上方的蒙版和标注菜单,所述标注菜单包括多种内容类型菜单项;
所述获取对网页各部分内容区域进行标注的指示包括:获取通过标注菜单选择的内容类型。
可选地,在构建对网页进行标注的可视化效果框架之前,所述方法还包括:
获取网页的源代码,根据所述源代码生成所述网页的DOM树;
获取所述DOM树中各节点对应的标签的哈希值;
为所述网页的各标签添加哈希值属性;
所述记录内容区域与标注指示的对应关系,包括:记录内容区域所属标签的哈希值与选择的内容类型的对应关系。
可选地,所述方法还包括:对根据同一资源站点下的多个网页生成的多个网页模板进行统计,提取所述多个网页模板中的相同部分生成最终的网页模板。
可选地,所述获取所述DOM树中各节点对应的标签的哈希值,包括:
为所述网页的各标签添加索引属性;
将添加索引属性后的网页的源代码发送到服务端,以供服务端进行标签的哈希值计算;
接收服务端发送的标签索引值与哈希值的对应关系。根据本发明的另一方面,提供了一种生成网页模板的装置,所述装置包括:
可视化效果框架构建器,适于构建对网页进行标注的可视化效果框架;
标注指示获取器,适于获取对网页各部分内容区域进行标注的指示;
网页模板生成器,适于记录内容区域与标注指示的对应关系,得到网页模板。
可选地,所述可视化效果框架包括内容区域、位于选中的内容区域上方的蒙版和标注菜单,所述标注菜单包括多种内容类型菜单项;
所述标注指示获取器进一步适于:获取通过标注菜单选择的内容类型。
可选地,所述装置还包括:
DOM树生成器,适于获取网页的源代码,根据所述源代码生成所述网页的DOM树;
哈希值获取器,适于获取所述DOM树中各节点对应的标签的哈希值;
哈希值属性添加器,适于为所述网页的各标签添加哈希值属性;
所述网页模板生成器进一步适于:记录内容区域所属标签的哈希值与选择的内容类型的对应关系,得到网页模板。
可选地,所述装置还包括统计器,适于对根据同一资源站点下的多个网页生成的多个网页模板进行统计,提取所述多个网页模板中的相同部分生成最终的网页模板。
可选地,所述哈希值获取器进一步适于:
为所述网页的各标签添加索引属性;
将添加索引属性后的网页的源代码发送到服务端,以供服务端进行标签的哈希值计算;
接收服务端发送的标签索引值与哈希值的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310606200.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种推荐列表调整方法和装置
- 下一篇:提供调整检索页筛选显示的方法和系统