[发明专利]基于统计和网页结构的Web正文内容抽取方法有效
申请号: | 201510977385.1 | 申请日: | 2015-12-23 |
公开(公告)号: | CN105630941B | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 孙健;陆川;汤露阳 | 申请(专利权)人: | 成都云数未来信息科学有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平;陈靓靓 |
地址: | 610000 四川省成都市双流*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于统计和网页结构的Web正文内容抽取方法,根据目标网页的HTML源码文档解析得到DOM树,获取各个文本节点的完整标签路径,计算每条完整标签路径对应的文本统计信息标签路径比,将文本统计信息标签路径比的标准差作为系统阈值,然后依次判定每个文本节点的文本统计信息标签路径比是否大于系统阈值,对其进行内容抽取,否则判定以该文本节点为中心的窗口中文本统计信息标签路径比最大值是否大于系统阈值,如果是再判定该最大值对应的完全标签路径与文本节点完整标签路径的编辑距离是否小于阈值,如果是则对其进行内容抽取,其他情况都过滤其内容。本发明结合网页结构和网页文本统计信息来实现对Web网页正文内容的抽取。 | ||
搜索关键词: | 基于 统计 网页 结构 web 正文 内容 抽取 方法 | ||
【主权项】:
1.一种基于统计和网页结构的Web正文内容抽取方法,其特征在于,包括以下步骤:S1:获取目标网页的HTML源码文档;S2:以深度优先遍历方式将HTML源码文档解析为DOM树,将文本节点以相同符号标识,获取各个文本节点的完整标签路径;S3:根据DOM树统计得到每条完整标签路径对应的文本节点,每个文本节点的字符数,每个文本节点的标点符号数,计算得到每条完整标签路径对应的文本统计信息标签路径比TSRPR(ftpi),其计算公式为:
其中,ftpi表示第i条完整标签路径,i=1,2,…,N,N表示完整标签路径的条数,Qi表示第i条完整标签路径所对应的文本节点数量,
表示第i条完整标签路径所对应的文本节点中文本节点j的字符数,
表示第i条完整标签路径所对应的文本节点中文本节点j的标点符号数;S4:计算N个文本统计路径比TSRPR(ftpi)的标准差,将其作为系统阈值Th;S5:令文本节点序号k=1;S6:如果文本节点k对应的文本统计信息标签路径比TSRPR(k)>Th,进入步骤S9,否则进入步骤S7;S7:在以文本节点k为中心、长度为2r+1的窗口中,其中r≥1,其具体值根据实际需要来设置,搜索得到文本统计标签路径比最大的文本节点k′,如果TSRPR(k′)>Th,进入步骤S8,否则进入步骤S10;S8:计算文本节点k与文本节点k′所对应完整标签路径的编辑距离TPED(k,k′),如果TPED(k,k′)<W,W表示预设阈值,进入步骤S9,否则进入步骤S10;S9:判定文本节点k是正文内容文本节点,抽取其文本内容,进入步骤S11;S10:判定文本节点k不是正文内容文本节点,过滤其文本内容,进入步骤S11;S11:如果k=K,K表示文本节点总数,内容抽取结束,否则令k=k+1,返回步骤S6。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都云数未来信息科学有限公司,未经成都云数未来信息科学有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510977385.1/,转载请声明来源钻瓜专利网。