[发明专利]一种网页正文抽取方法、装置、设备及存储介质在审
申请号: | 202110707708.0 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113378088A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 刘旭东;张尼;薛继东;苏马婧;宋栋;刘红 | 申请(专利权)人: | 中国电子信息产业集团有限公司第六研究所 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F40/14 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 董艳芳 |
地址: | 102209 北京市昌平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 正文 抽取 方法 装置 设备 存储 介质 | ||
1.一种网页正文抽取方法,其特征在于,所述方法包括:
运用正则表达式将网页源码中所有噪声标签和脚本代码进行清洗,清洗后得到网页内容;
获取所述网页内容对应的抽取模板,所述抽取模板中包括至少一个起始文本信息和一个结束文本信息;
运用递归算法逐一遍历所述抽取模板中起始文本信息和结束文本信息,根据起始文本信息和结束文本信息从网页内容中抽取出网页正文段落,将抽取的网页正文段落添加至文本文件中;
计算网页内容中每个起始标签和结束标签之间网页源码的标点符号数量与包含字符数量的最小商值,得到的最小商值作为网页正文判定阈值;
采用滑动窗口算法,根据所述抽取模板中起始文本信息和结束文本信息,确定标签滑动窗口;
根据标签滑动窗口遍历网页内容中标点符号数量与包含字符数量,抽取符合网页正文判定阈值的网页正文字段。
2.根据权利要求1所述的网页正文抽取方法,其特征在于,获取所述网页内容对应的抽取模板,所述抽取模板中包括至少一个起始文本信息和一个结束文本信息,包括:
将所述网页内容的标签中每个起始标签,通过正则表达式替换成对应所述抽取模板的起始文本信息;
将所述网页内容的标签中每个结束标签,通过正则表达式替换成对应所述抽取模板的结束文本信息。
3.根据权利要求1所述的网页正文抽取方法,其特征在于,运用递归算法逐一遍历所述抽取模板中起始文本信息和结束文本信息,根据起始文本信息和结束文本信息从网页内容中抽取出网页正文段落,将抽取的网页正文段落添加至文本文件中,包括:
运用递归算法逐一遍历所述抽取模板中起始文本信息和结束文本信息,并对每个起始文本信息和每个结束文本信息所对应标签位置进行标注;
通过正则表达式,根据标签的标注位置从网页内容中抽取出每个所述起始文本信息和每个所述结束文本信息对应的网页正文段落,并将抽取出的网页正文段落添加至文本文件中,所述网页正文段落为一段或多段。
4.根据权利要求1所述的网页正文抽取方法,其特征在于,计算网页内容中每个起始标签和结束标签之间网页源码的标点符号数量与包含字符数量的最小商值,得到的最小商值作为网页正文判定阈值,包括:
分别计算网页内容中每个起始标签和与其相对应的结束标签之间网页源码的标点符号数量除以字符数量的商值;
对其中三个最小商值求和后取平均值,将得到的所述平均值作为网页正文判定阈值。
5.根据权利要求1所述的网页正文抽取方法,其特征在于,采用滑动窗口算法,根据所述抽取模板中起始文本信息和结束文本信息,确定标签滑动窗口,包括:
采用双指针方式,获取所述抽取模板中起始文本信息的指针位置,将起始文本信息的指针位置确定为标签滑动窗口的第一边界;
根据标签滑动窗口的第一边界,将指针不断扩大向后至所述抽取模板中结束文本信息的指针位置;
根据结束文本信息的指针位置确定标签滑动窗口的第二边界,即指针的索引区间作为一个标签滑动窗口,所述指针的索引区间指标签滑动窗口的第一边界和标签滑动窗口的第二边界之间的距离。
6.根据权利要求1所述的网页正文抽取方法,其特征在于,根据标签滑动窗口遍历网页内容中标点符号数量与包含字符数量,抽取符合网页正文判定阈值的网页正文字段,包括:
根据标签滑动窗口的第一边界,将指针不断扩大向后至抽取模板中结束文本信息的指针位置;
在扩大标签滑动窗口的同时,计算网页内容中标点符号数量与包含字符数量的比值,直到标签滑动窗口内比值小于等于网页正文判定阈值,停止扩大标签滑动窗口;
移动指针缩小标签滑动窗口,直到标签滑动窗口内的标点符号数量及包含字符数量的比值大于网页正文判定阈值,停止缩小标签滑动窗口;
根据标签滑动窗口,从网页内容中抽取出符合网页正文判定阈值的网页正文字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子信息产业集团有限公司第六研究所,未经中国电子信息产业集团有限公司第六研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110707708.0/1.html,转载请声明来源钻瓜专利网。