[发明专利]网页正文抽取方法及装置有效
申请号: | 201510527675.6 | 申请日: | 2015-08-25 |
公开(公告)号: | CN105183801B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 朱国库;蒋文保 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国之大铭知识产权代理事务所(普通合伙) 11565 | 代理人: | 朱晓蕾 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 网页正文抽取 抽取 文本 分布函数 网页正文 文本块 行块 源码 网页 文本相似度 保证 | ||
本发明提供了一种网页正文抽取方法及系统,其中方法包括:提取网页HTML源码中的title标签中的文本,以及h标签中的文本;根据title标签中的文本以及h标签中的文本的文本相似度确定正文标题;提取网页HTML源码中的body标签中的标签源码;对body标签中的标签源码进行第一抽取处理,获取第一网页正文;确定行块分布函数,并根据行块分布函数抽取文本块;对文本块进行第二抽取处理,获取第二网页正文。通过本发明采用的网页正文抽取方法及装置,其通用性更好,且可以快速并准确的进行抽取,保证了网页正文抽取的顺利进行。
技术领域
本发明涉及计算机领域,尤其涉及一种网页正文抽取方法及装置。
背景技术
随着因特网的高速发展,网络上的信息呈爆炸式的增长,一般用户会通过网页浏览各类信息。而网页上的文字主要有两种,包括网页所要表达的正文信息和无关正文的噪声信息,噪声信息包括网站导航、广告、版权声明、相关链接等各类噪声信息,网页所要表达的正文信息被包含在噪声信息中,而对正文抽取就是要将网页的正文信息准确、高效地提取出来。
而现有技术中往往采用从HTML网页中解析出DOM(Document Object Model,文档对象模型)树,而对不同类别和不同栏目的网页做基于DOM树结构的网页信息抽取费时费力。
因此,针对网络中不同来源、结构,不同复杂度和规范化程度的网页,需要提出一种新的具有通用性的网页正文抽取方法,以准确地进行正文抽取。
发明内容
本发明旨在至少克服上述缺陷之一提供一种网页正文抽取方法及装置,能够快速准确的进行正文抽取。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种网页正文抽取方法,包括:提取网页HTML源码中的title标签中的文本,以及h标签中的文本;根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;提取网页HTML源码中的body标签中的标签源码;对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;确定行块分布函数,并根据所述行块分布函数抽取文本块;对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理。
另外,所述根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题包括:计算所述title标签中的文本以及所述h标签中的文本的文本相似度,获得第一计算结果;如果所述第一计算结果大于等于第一预设阈值,则确定所述title中的文本作为所述正文标题;如果所述第一计算结果小于所述第一预设阈值,则确定所述h标签中的文本作为所述正文标题。
另外,所述利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理包括:对所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行融合计算,获得第二计算结果;根据所述第二计算结果判断当前信息是否为噪声,进行去噪处理。
另外,所述第一抽取处理在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,还包括以下至少之一:去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。
另外,所述确定行块分布函数,并根据所述行块分布函数抽取文本块包括:按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点,抽取位于所述骤升点和所述骤降点内的文本块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510527675.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集成型智能配电箱
- 下一篇:一种泥水盾构泥膜形成过程的模拟试验装置