[发明专利]网页分割方法、装置及电子设备有效
申请号: | 201710450838.4 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107273491B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 童名文;乐惠骁;夏莹;陈敏;周闯 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F16/957 | 分类号: | G06F16/957 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 宋南 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 分割 方法 装置 电子设备 | ||
1.一种网页分割方法,其特征在于,所述方法包括:
对获取到的待分割网页对应的第一HTML文档进行规范化处理,以符合W3C的标准,获得规范化后的第二HTML文档;
基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表;所述预设的行深度计算规则为:起始深度为0,遇到一个成对的Html标签中的前标签,深度加1;遇到一个成对的Html标签中的后标签,深度减1;遇到单个Html标签中的‘’,深度加1,遇到单个Html标签中的“/”,深度减1;
获取所述第二HTML文档中标题内容,建立以行号为索引的标题表;
基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数;所述预设的行块定义规则为:以去除所述第二HTML文档中所有标签后的文本信息中的行号为轴,取其下方N行,定义为一个行块;
基于所述行块分布函数及所述以行号为索引的标题表,获取多个标题块;
基于所述多个标题块、所述以行号为索引的行深度表及预设的合并块规则,对所述第一HTML文档进行合并块处理,以实现对所述获取到的待分割网页进行分割,重新组织成为新的网页;所述预设的合并块规则包括第一合并规则和第二合并规则,所述第一合并规则为:从块分布的起始开始向下遍历,若整个第一HTML文档中的第一个块不是标题块,则从第一个块开始向下合并,直到遇到第一个标题块为止,所述第一个标题块之前的所有正文块合并为一个内容块;若第一个块为标题块,则顺序向下遍历,直到遇到下一个标题块,所述下一个标题块的块深度小于上一个正文块或标题块,将所述第一个块到所述下一个标题块的前一个块之间的所有块合并为一个内容块;
所述第二合并规则为:遍历整个第一HTML文档的块,若第一个块为标题块,则顺序向下遍历,直到遇到第一个内容块为止,将所述第一个块到所述第一个内容块的前一个块之间的所有块合并为一个内容块,再从第一个内容块开始向下遍历,直至结束。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二HTML文档以及预设的行深度计算规则,获取所述第二HTML文档对应的以行号为索引的行深度表,包括:
根据所述预设的行深度计算规则,从文件头开始按行依次遍历所述第二HTML文档,获得所述第二HTML文档对应的以行号为索引的行深度表。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第二HTML文档中标题内容,建立以行号为索引的标题表,包括:
获取所述第二HTML文档中h标签对之间的标题内容,建立以行号为索引的标题表。
4.根据权利要求1所述的方法,其特征在于,所述多个标题块包括第一行块,所述第一行块属于所述多个行块且满足预设条件,所述预设条件为:以第一行块为中心,上下三个块之内有标题块;且所述第一行块对应的HTML正文信息字数小于等于M,M为常数。
5.根据权利要求1所述的方法,其特征在于,所述基于去除所述第二HTML文档中所有标签后的文本信息及预设的行块定义规则,获得所述文本信息对应的多个行块,再计算所述多个行块各自对应的行块长度,以建立行块分布函数,包括:
以去除所述第二HTML文档中所有标签后的文本信息中的行号为轴,取其下方N行,定义为行块;
计算去掉所述行块中的所有空白符后的字符总数,将计算结果作为所述行块的行块长度;
重复以上步骤,获得所述文本信息对应的多个行块和所述多个行块各自对应的行块长度;
以所述文本信息中的行号为自变量,所述多个行块各自对应的行块长度为因变量,建立行块分布函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710450838.4/1.html,转载请声明来源钻瓜专利网。