[发明专利]一种提取网页正文的方法和装置有效
申请号: | 200810225720.2 | 申请日: | 2008-11-07 |
公开(公告)号: | CN101408898A | 公开(公告)日: | 2009-04-15 |
发明(设计)人: | 张海涛 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中博世达专利商标代理有限公司 | 代理人: | 申 健 |
地址: | 100871北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 网页 正文 方法 装置 | ||
技术领域
本发明涉及网络技术领域,尤其涉及一种提取网页正文的方法和装置。
背景技术
随着市场竞争的日趋激烈,各大网站的网页内容如果只靠本站网页内容,显得内容单调,无法提高点击率,也无法提高本站的知名度。为提高点击率,则必须使网页内容多样化,增加更多的热门话题等,网页内容转载由此而产生。人工转载,更新速度慢,效率低,还要耗费很大的人力和财力,由此爬虫软件就成为网页内容转载的主导软件,以快速、准确提取网页正文。
目前,爬虫软件提取网页正文的方法都是正则提取法,包括:根据每个网页的模板预先设定一些规则;然后,根据这些规则提取网页正文。
发明人发现现有技术中存在如下问题:
正则提取法需要花费大量精力去维护各大网站网页的模板提取规则,由于互联网上的网站网页模板太多,网页模板更新比较频繁,所以用户无法及时、准确地维护这些模板规则,也就无法及时、准确地提取这些网页正文。
发明内容
本发明提供一种提取网页正文的方法和装置,以快速、准确地提取网页中的正文。
为达到上述目的,本发明采用如下技术方案:
一种提取网页正文的方法,包括:
获取页面段的开始标签和结束标签;
根据所述开始标签和结束标签确定所述页面段的开始位置和结束位置;
根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;
将网页中权值最大的页面段提取为网页正文。
一种提取网页正文的装置,包括:
获取模块,用于获取页面段的开始标签和结束标签;
分段模块,用于根据所述获取模块获取的开始标签和结束标签确定所述页面段的开始位置和结束位置;
计算模块,用于根据所述页面段的开始位置和结束位置之间各种形式内容的权值计算所述页面段的权值;
提取模块,用于将所述计算模块计算得出的所述网页中权值最大的页面段提取为网页正文。
本发明提供的提取网页正文的方法和装置,通过计算所述页面段的权值,将权值最大的页面段提取为网页正文,而页面段的权值反映了该页面段内容的热门度,因此,根据权值提取网页正文,可以快速、准确地转载热门的内容,且满足内容多样化的要求,从而提高网站的点击率和知名度。
附图说明
图1为本发明提取网页正文的方法流程图;
图2为本发明提取网页正文的装置结构图。
具体实施方式
本发明提供一种提取网页正文的方法:将网页划分成若干页面段,根据页面段中的无链接字符、链接字符、图片、附件、广告等内容计算各个页面段的权值,该页面段内容的热门度越高,则权值越大;然后,将权值最大的页面段提取为网页正文;从而转载该网页内容后,用户的点击率越高,有利于提高本网站的知名度。采用本发明提供的提取网页正文的方法,即使网页的模板发生变化,也能快速、准确地提取热门的网页正文、维护网页内容的多样性。
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为快速、准确地提取网页中的正文,本发明提供一种提取网页正文的方法。下面结合附图对本发明提取网页正文的方法进行详细描述。
在提取网页正文之前,可以预先设置用户点击率高和/或内容更新频率快的网页,优先从该网页中提取网页正文。如图1所示,本发明提供的提取网页正文的方法包括:
S101,获取页面段的开始标签和结束标签。
一个网页包括一个或多个页面段,根据页面段的开始标签和结束标签可以确定网页相应的的页面段。获取页面段的开始标签和结束标签包括:查找标签,判断所述标签是否是开始标签或结束标签;如果是,则进一步判断所述开始标签或结束标签是否是所述页面段的开始标签或结束标签;获取所述页面段的开始标签和结束标签。
其中,标签可以是HTML(Hypertext Markup Language,超文本标示语言)标签或XHTML(The Extensible HyperText Markup Language,可扩展超文本标示语言)标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810225720.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:重整装置的停机方法
- 下一篇:三重分离的数据管理方法