[发明专利]网页正文抽取方法及装置有效

申请号：	201510527675.6	申请日：	2015-08-25
公开（公告）号：	CN105183801B	公开（公告）日：	2018-07-06
发明（设计）人：	朱国库;蒋文保	申请（专利权）人：	北京信息科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京国之大铭知识产权代理事务所(普通合伙) 11565	代理人：	朱晓蕾
地址：	100192 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标签网页正文抽取抽取文本分布函数网页正文文本块行块源码网页文本相似度保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种网页正文抽取方法及系统，其中方法包括：提取网页HTML源码中的title标签中的文本，以及h标签中的文本；根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题；提取网页HTML源码中的body标签中的标签源码；对body标签中的标签源码进行第一抽取处理，获取第一网页正文；确定行块分布函数，并根据行块分布函数抽取文本块；对文本块进行第二抽取处理，获取第二网页正文。通过本发明采用的网页正文抽取方法及装置，其通用性更好，且可以快速并准确的进行抽取，保证了网页正文抽取的顺利进行。

技术领域

本发明涉及计算机领域，尤其涉及一种网页正文抽取方法及装置。

背景技术

而现有技术中往往采用从HTML网页中解析出DOM(Document Object Model，文档对象模型)树，而对不同类别和不同栏目的网页做基于DOM树结构的网页信息抽取费时费力。

因此，针对网络中不同来源、结构，不同复杂度和规范化程度的网页，需要提出一种新的具有通用性的网页正文抽取方法，以准确地进行正文抽取。

发明内容

本发明旨在至少克服上述缺陷之一提供一种网页正文抽取方法及装置，能够快速准确的进行正文抽取。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了一种网页正文抽取方法，包括：提取网页HTML源码中的title标签中的文本，以及h标签中的文本；根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题；提取网页HTML源码中的body标签中的标签源码；对所述body标签中的标签源码进行第一抽取处理，获取第一网页正文，其中：所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理；确定行块分布函数，并根据所述行块分布函数抽取文本块；对所述文本块进行第二抽取处理，获取第二网页正文，其中：所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理。

另外，所述根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题包括：计算所述title标签中的文本以及所述h标签中的文本的文本相似度，获得第一计算结果；如果所述第一计算结果大于等于第一预设阈值，则确定所述title中的文本作为所述正文标题；如果所述第一计算结果小于所述第一预设阈值，则确定所述h标签中的文本作为所述正文标题。

另外，所述利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理包括：对所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行融合计算，获得第二计算结果；根据所述第二计算结果判断当前信息是否为噪声，进行去噪处理。

另外，所述第一抽取处理在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后，还包括以下至少之一：去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。

另外，所述确定行块分布函数，并根据所述行块分布函数抽取文本块包括：按照固定文本块的块长对所述第一网页正文进行分块，计算每个行块中文本的字符数后构造出行块分布函数；确定骤升点和骤降点，抽取位于所述骤升点和所述骤降点内的文本块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学，未经北京信息科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510527675.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种集成型智能配电箱
下一篇：一种泥水盾构泥膜形成过程的模拟试验装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页正文抽取方法及装置有效

专利文献下载