[发明专利]基于DOM树和行列分割的Web内容信息提取方法在审
申请号: | 202110258347.6 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113158626A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 陈壮;葛斌;刘威;蔡威林;邰悦;李涵;张延;张宁 | 申请(专利权)人: | 安徽理工大学 |
主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F40/154;G06K9/00;G06K9/34;G06K9/40 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 232001 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dom 行列 分割 web 内容 信息 提取 方法 | ||
1.一种基于DOM树和行列分割的Web内容信息提取方法,其特征在于:所述包括如下步骤:
1)视觉特征去噪;
经过查看网页发现,大量的网页都是由head、foot、left、right、center五部分或者其中某几部分组成,其中大多数的网页均含有head、foot区域,right、left区域选择性拥有,通过视觉特征,去除上下左右部分;
2)正则表达式去噪;
在初步获取的正文文本中,可能仍包含利用视觉特征未去除的噪声信息,这些区域中的元素作为正文包含其中,需要通过正则表达式过滤的方式再次去除网页噪声信息;
3)生成一个新的网页视觉树;
网页预处理之后,将网页转换成DOM树结构,在此基础上,自下向上遍历中生成一个新的网页视觉树,在遍历过程中,为了提高处理效率,利用视觉特征和正则表达式去除那些噪声节点,对通常不含正文文本内容的标签做剪枝处理,得到一个简洁的DOM树,并为新的视觉树中每个提取的节点分配一个判断符:即为每个节点标记两个布尔型变量,代表其子树中是否存在列拆分;
4)识别组成块;
本发明从视觉树对应的根节点展开新的可视化树,首先需要判断是否进行了列拆分,如果当前节点的子节点有子树,即进行列拆分,则增加一个粒度,继续扩展当前节点的子节点;如果当前子树只有行拆分,则不进行扩展,如此重复进行上述操作,当整个树不再进行扩展时,所有的叶节点都是预期的组成块,本发明是基于列拆分,初始分区粒度值从1开始,通过上述过程,就可以获得网页的所有组成块;
5)提取信息块;
本发明使用两个启发式规则通过加权平均来获得信息块的分数,分数最大的组成块即信息块,启发式规则如下:
R1、信息块通过上述过程后是标记数最多的块;
R2、信息块是所有块中面积最大的块。
2.根据权利要求1所述的基于DOM树和行列分割的Web内容信息提取方法,其特征在于:所述视觉特征去噪步骤如下:
1)将网页转化成DOM结构,并得到页面的大小;
2)根据页面大小获得上下左右四部分阈值,记为W1,W2,W3.W4;
3)对页面内除BODY标记外元素取得其绝对坐标及实际大小和由阈值所划分出的区域进行比较,若任意元素E,(a,b)为其所占区域上的左上角原点绝对坐标,(width,height)记为此元素所占区域大小;
如果E.b+E.height=W1,则E属于head区域;
如果E.b=W2,则E属于foot区域;
如果E.a+E.width=W3,则E属于left区域;
如果E.a=W4,则E属于right区域;
所有不属于head,foot,left,right的区域作为结果返回。
3.根据权利要求1所述的基于DOM树和行列分割的Web内容信息提取方法,其特征在于:所述正则表达式如下:
<script[^>]*?>[\s\S]*?</script>
<style[^>]*?>[\s\S]*?</style>
<head[^>]*?>[\s\S]*?</head>
!—[^-]*--
<!--[\s\S]*?-->。
4.根据权利要求1所述的基于DOM树和行列分割的Web内容信息提取方法,其特征在于:在所述计算组成块分数的步骤中,根据以下公式1来计算:公式1:
Score(bi)=α×Areai+(1-α)|bi|
其中,|bi|为块bi中标记数目,Area为块bi的面积,得分最高的块是信息块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽理工大学,未经安徽理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110258347.6/1.html,转载请声明来源钻瓜专利网。