[发明专利]一种网页正文抽取方法及装置有效

申请号：	201610986453.5	申请日：	2016-11-03
公开（公告）号：	CN106649560B	公开（公告）日：	2019-09-24
发明（设计）人：	贲兴龙;苏雪阳;韩国辉;袁林;陈晓琳;王睿;刘志明;袁翔	申请（专利权）人：	中国电子科技集团公司第二十八研究所
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;G06F16/958
代理公司：	暂无信息	代理人：	暂无信息
地址：	210007 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页正文抽取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种网页正文抽取方法及装置，属于信息处理技术领域，其中该方法包括以下步骤：获取网页HTML源码中的标题内容；获取网页HTML源码中所有文本块的路径，并建立文本块路径列表；将标题内容与每个文本块的文本块内容进行比较，获得标题内容所在的文本块；根据路径在列表中的顺序，从标题内容所在文本块对应路径的下一个路径开始，计算每个路径对应文本块的标点符号权值；根据标点符号权值进行判断，根据判断结果标记出是正文的文本块。本发明具有可扩展性好、实现简单、正文抽取精度高的优点。

技术领域

本发明涉及信息处理技术领域，具体涉及一种网页正文抽取方法及装置，尤其是涉及一种结合标点符号权值和结构特征的网页正文抽取方法及装置。

背景技术

随着互联网的迅速发展，网络空间存储着越来越多的信息资源，Web页面是其中的一种主要展现形式，其数量越来越庞大。根据第35次中国互联网络发展状况统计报告，中国网页数量达1899亿个，年增长26.6％。近年来，如何对这些海量的Web数据进行分析处理，从中挖掘出有价值的信息成为研究的一个热点问题。以Hadoop为代表的大数据技术给海量Web数据存储和分析提供了有效手段，但是网页上的内容除了主题内容外，通常都会在页面中放置导航条以方便用户访问，还有如广告、版权信息、关联连接等与主题无关的内容，我们称之为“噪音”，这些噪音信息会给Web数据分析处理带来很大影响，严重影响分析结果的准确性。怎样去除这些噪音，将网页中的正文内容提取出来，对Web数据分析有重要意义。

然而，目前的网页正文抽取方法还存在着一些问题，需要进一步改进和完善。比如基于模板的方法需要给不同的网页格式指定对应的抽取模板，虽然具有很高的抽取精度，但是可扩展性较差，维护成本很高，无法大规模运用。比如基于视觉特征的方法实现复杂，效率较低，难以应对海量Web数据的处理。比如基于统计的方法则抽取精度较低。

发明内容

因此，本发明实施例要解决的技术问题在于现有技术中的网页正文抽取方法可扩展性较差、实现复杂、抽取精度较低。

为此，本发明实施例的一种网页正文抽取方法，包括以下步骤：

获取网页HTML源码中的标题内容；

获取网页HTML源码中所有文本块的路径，并建立文本块路径列表；

将标题内容与每个文本块的文本块内容进行比较，获得标题内容所在的文本块；

根据路径在列表中的顺序，从标题内容所在文本块对应路径的下一个路径开始，计算每个路径对应文本块的标点符号权值；

根据标点符号权值进行判断，根据判断结果标记出是正文的文本块。

优选地，所述获取网页HTML源码中的标题内容的步骤包括：

分别获取网页HTML源码中title标签和h1标签的内容；

使用分隔符对title标签的内容进行字符串切分，并将切分结果顺序保存在数组中；

分别判断数组的第一个元素的内容、最后一个元素的内容和h1标签的内容是否是常规非标题性文本；