[发明专利]网页信息处理装置和网页信息处理方法有效

专利信息
申请号: 201110319563.3 申请日: 2011-10-20
公开(公告)号: CN103064845A 公开(公告)日: 2013-04-24
发明(设计)人: 王放;高勇;郭永福;陈沛 申请(专利权)人: 北京中搜网络技术股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京市盈科律师事务所 11344 代理人: 赵成伟
地址: 100191 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 网页 信息处理 装置 方法
【说明书】:

技术领域

发明涉及信息检索领域,具体而言,涉及一种网页信息处理装置和一种网页信息处理方法。

背景技术

在资讯(或者新闻)搜索领域,资讯的主要元素(标题、发布时间)是资讯的核心要素。标题和发布时间是提供搜索服务的重要依据,其抽取的质量高低决定了资讯搜索的质量和用户体验。目前资讯主要元素的抽取方法基本有三类:基于人工模板方式的抽取、基于自动模板方式的抽取和基于非模板方式抽取。

基于人工模板的抽取方式:先由人工根据对资讯网页结构的分析定义模板(如正则表达式,或简单字符串标识),然后编写程序根据模板对资讯网页进行解析,得到相应的数据。其缺点在于,需要耗费巨大人力资源来编写模板。除此之外,随着目标网站的变化,模板需要及时进行更新,造成后期维护成本也很大。

基于自动模板的抽取方式:先从目标网站获取一部分网页数据,根据机器学习算法进行学习训练,取得公共部分,经人工或自动筛选之后得到模板,然后程序利用模板抽取数据。其缺点在于,算法复杂,同时仍然要对目标网站进行周期监控,以调整模板以适应目标网站的变化。调整模板的周期也比较长,在模板调整完毕以前,抽取的信息都可能是错误的,这很难满足搜索引擎的需要。

非模板方式抽取多基于统计和学习方式来实现。目前主要的算法有基于统计的,基于规则的,基于分块的,基于视觉的等等。其缺点在于,基于分块或基于视觉的页面分割算法由于规则复杂,性能不高,不太适合资讯搜索引擎的应用。

因此,需要一种新的对页面信息进行标题和发布时间进行提取的方法,能够适应不同类型的网页页面,且保证所提取的标题和发布时间的准确度,同时实现方式不会过于复杂,实现成本不会过高。

发明内容

本发明所要解决的技术方案在于,提供一种新的对页面信息进行标题和发布时间进行提取的方法,能够适应不同类型的网页页面,且保证所提取的标题和发布时间的准确度,同时实现方式不会过于复杂,实现成本不会过高。

有鉴于此,本发明提供一种网页信息处理装置,包括:网页处理模块,将网页处理为DOM结构;权重计算模块,遍历所述DOM结构的节点,根据所述DOM结构中的非文本节点的特征,计算所述非文本节点的样式权重,根据所述DOM结构中的文本节点的特征,计算所述文本节点的内容权重,其中,所述非文本节点的样式权重累加到其子节点上;结果筛选模块,根据所述文本节点的样式权重和内容权重,得到所述文本节点的标题权重,以判断是否将所述文本节点的内容作为候选标题,并从所述文本节点的内容中提取时间串,作为候选发布时间;结果生成模块,从所有候选标题和所有候选发布时间,选出所述网页的信息标题和信息发布时间。通过该技术方案,能够通过对网页页面各部分元素的不同特征,来分析其在网页中的重要性,并由此选取标题和发布时间,简单高效。

在上述技术方案中,优选地,所述结果筛选模块比较所述标题权重与全局最大标题权重,并在所述标题权重大于所述全局最大标题权重时,将所述文本节点的内容作为所述候选标题,并使用所述标题权重更新所述全局最大标题权重,如果所述全局最大标题权重不存在,将所述标题权重作为所述全局最大标题权重,并将所述文本节点的内容作为所述候选标题。通过该技术方案,通过各部分元素的特征来进行权重计算,可以通过具体值来,来进行重要性的分析,以选取标题和发布时间。

在上述技术方案中,优选地,还包括:类型分析模块,根据所述文本节点之上的非文本节点的类型,来判断是否启用结果筛选模块。通过该技术方案,对于页面中的某些元素的可以忽略掉,而不对其进行分析,例如A、IMG标签下的文本,就可以忽略,而对于TITLE标签下的文本,则应从中选取候选标题。

在上述技术方案中,优选地,所述权重计算模块还将TITLE下的文本节点的候选标题作为启发信息,并将其他文本节点的内容与所述启发信息比较,以计算所述其他文本节点的权重。所述启发信息还可以包括外锚链文本、网站名称和频道名称。

在上述技术方案中,优选地,还包括:正文选取模块,在所述文本节点的内容满足预定条件时,将所述文本节点的内容作为大段文本,并将第一个大段文本的位置作为所述网页的正文的起始位置,将最后一个大段文本的位置作为所述正文的结束位置;所述结果生成模块根据所述正文的起始位置和结束位置,来从所述所有候选发布时间中选出所述信息发布时间,并根据所述信息发布时间的位置,从所述所有候选标题中选出所述信息标题。通过该技术方案,可以准确地从文本中选取最终的发布时间。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中搜网络技术股份有限公司,未经北京中搜网络技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110319563.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top