[发明专利]网页正文抽取方法及装置有效
申请号: | 201510527675.6 | 申请日: | 2015-08-25 |
公开(公告)号: | CN105183801B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 朱国库;蒋文保 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国之大铭知识产权代理事务所(普通合伙) 11565 | 代理人: | 朱晓蕾 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 网页正文抽取 抽取 文本 分布函数 网页正文 文本块 行块 源码 网页 文本相似度 保证 | ||
1.一种网页正文抽取方法,其特征在于,包括:
提取网页HTML源码中的title标签中的文本,以及h标签中的文本;
根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;
提取网页HTML源码中的body标签中的标签源码;
对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;
确定行块分布函数,并根据所述行块分布函数抽取文本块;
对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理;
其中,所述确定行块分布函数,并根据所述行块分布函数抽取文本块包括:
按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;
确定骤升点和骤降点,抽取位于所述骤升点和所述骤降点内的文本块。
2.根据权利要求1所述的方法,其特征在于,所述第一抽取处理在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,还包括以下至少之一:
去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。
3.根据权利要求2所述的方法,其特征在于,所述根据所述行块分布函数抽取文本块包括:
记录第一个加入抽取结果的文本块的编号;
计算当前文本块与所述第一个加入抽取结果的文本块之间的距离,获得第三计算结果;
如果所述第三计算结果大于等于第三预设阈值,则判断当前文本块为噪声,进行去噪处理。
4.根据权利要求1所述的方法,其特征在于,所述第二抽取处理在利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后,还包括:
计算经过所述利用所述文本块与所述正文标题的块文本相似度进行过滤处理之后的网页正文中的每一行与所述正文标题的行文本相似度,并计算行平均文本相似度,获得第五计算结果;
如果所述第五计算结果小于第五预设阈值,则根据所述行文本相似度对所述每一行进行行过滤处理。
5.一种网页正文抽取装置,其特征在于,包括:
提取模块,用于提取网页HTML源码中的title标签中的文本,以及h标签中的文本;
确定模块,用于根据所述title标签中的文本以及所述h标签中的文本的文本相似度确定正文标题;
所述提取模块,还用于提取网页HTML源码中的body标签中的标签源码;
抽取模块,用于对所述body标签中的标签源码进行第一抽取处理,获取第一网页正文,其中:所述第一抽取处理至少包括利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理;
所述确定模块,还用于确定行块分布函数;
所述抽取模块,还用于根据所述行块分布函数抽取文本块;对所述文本块进行第二抽取处理,获取第二网页正文,其中:所述第二抽取处理至少包括利用所述文本块与所述正文标题的块文本相似度进行过滤处理;
其中,所述确定模块,用于通过如下方式确定行块分布函数:
按照固定文本块的块长对所述第一网页正文进行分块,计算每个行块中文本的字符数后构造出行块分布函数;确定骤升点和骤降点;
所述抽取模块,用于通过如下方式根据所述行块分布函数抽取文本块:
抽取位于所述骤升点和所述骤降点内的文本块。
6.根据权利要求5所述的装置,其特征在于,所述抽取模块,还用于在利用所述body标签中的标签源码中每一行的行文本密度、行文本与所述正文标题的文本相似度以及行文本的中文字数进行去噪处理之后,进行以下至少之一的处理:
去除HTML编码处理、去除JavaScript脚本处理和去除特殊字符处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510527675.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种集成型智能配电箱
- 下一篇:一种泥水盾构泥膜形成过程的模拟试验装置