[发明专利]政策类网页正文提取方法、系统、设备及存储介质有效
申请号: | 202010825873.1 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111966901B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 李钊;卢凤;陈通;王瑞霜;胡传会;魏静 | 申请(专利权)人: | 山东亿云信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F16/958 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250014 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 政策 网页 正文 提取 方法 系统 设备 存储 介质 | ||
1.政策类网页正文提取方法,其特征是,包括:
获取政策网页HTML源代码;
根据政策网页HTML源代码,获取网页正文所在的位置;
根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码;
根据政策网页HTML源代码,获取网页正文所在的位置;详细步骤包括:
(1):采用etree.ElementTree()分析政策类网页的页面组织结构,并将政策类网页的DOM TREE结构中div或p节点下的a、strong或span标签合并到a、strong或span的父节点,保持正文的完整性;
(2):根据政策类网页的页面组织结构逐层获取各节点对应的正文内容;根据网页无效字符及有效正文长度,对正文内容进行过滤;将正文里非文字内容替换为空串,得到只包含文字的正文内容;
(3):定义节点正文内容存储变量;
(4):根据各节点对应的正文内容,获取正文长度,通过append方法对存储变量逐一追加获取到的正文长度;并根据追加的最大正文长度,获取网页组织结构中相同索引的DOMTREE元素信息,输出最大正文长度节点;
(5):分别获取存储变量中的每个长度值和最大正文长度的差值,构建网页正文文本密度列表;根据网页正文文本密度列表,获取value大于设定阈值的索引index,取最小新索引值和最大索引值输出网页正文区间;
(6):判断最大正文长度节点是否在网页正文所在区间内;
如果最大正文长度节点在网页正文区间内,则获取最大正文长度节点的父节点,判断父节点的位置信息与网页正文区间是否相同;如果最大正文长度节点不在网页正文区间内,则输出正文区间的节点;
如果父节点的位置信息与正文区间相同,输出最大正文长度节点的父节点;
如果父节点的位置信息与正文区间不同,获取最大正文长度节点的父节点的父节点;
判断正文区间的所有正文长度与最大正文长度节点的父节点的父节点的文本长度是否相同,如果相同输出最大正文长度节点的父节点的父节点,如果不同,则输出正文区间的节点;
(7):根据得到的符合步骤(6)的节点的XPATH输出,获取网页正文所在位置。
2.如权利要求1所述的方法,其特征是,获取政策网页HTML源代码;所述政策网页HTML源代码,包括但不限于:正文、图片、附件下载链接。
3.如权利要求1所述的方法,其特征是,所述获取政策网页HTML源代码步骤之后,所述根据政策网页HTML源代码,获取网页正文所在的位置步骤之前还包括:政策网页HTML源代码清洗步骤。
4.如权利要求3所述的方法,其特征是,所述政策网页HTML源代码清洗步骤,包括:
判断政策网页HTML源代码编码类型,并根据网页编码类型对获取到的HTML源码进行编码;
通过调用lxml包的Cleaner类,构建HTML网页清洗规则类;
定义Cleaner.clean_html()清洗方法,对包含在SCRIPT、JAVASCRIPT、STYLE标签内的代码进行删除;
获取清洗后的完整正文HTML代码。
5.如权利要求1所述的方法,其特征是,根据政策网页HTML源代码,获取网页正文所在的位置;具体步骤包括:
根据政策网页HTML源码并自动构建页面组织结构;
根据页面组织结构匹配该结构各部分对应的正文内容,通过对各部分正文内容基于文本分布密度和文本长度,获取最长正文内容所在位置,即为网页正文所在的位置。
6.如权利要求1所述的方法,其特征是,根据网页正文所在的位置,获取正文所对应的HTML源代码,输出正文所对应的HTML源代码;具体步骤包括:
(a):根据获取的HTML代码和获取的网页正文所在位置,获取正文对应的HTML代码;
(b):对获取的网页正文HTML代码进行UTF-8编码;
(c):将编码后的网页正文HTML代码输出并保存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东亿云信息技术有限公司,未经山东亿云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010825873.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:业务模块扩展实现方法和系统
- 下一篇:一种多向运动式卸料机构