[发明专利]基于DOM树的正文抽取方法、装置、设备及存储介质有效
申请号: | 201910680827.4 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110377796B | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 李子茂;江如茜;莫海芳;帖军;毛腾跃;夏梦;刘恋冬 | 申请(专利权)人: | 中南民族大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/957;G06F16/958 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 430074 湖北省武汉*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 dom 正文 抽取 方法 装置 设备 存储 介质 | ||
1.一种基于DOM树的正文抽取方法,其特征在于,所述基于DOM树的正文抽取方法包括:
获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;
根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;
遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;
将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息;
其中,所述预设编号集为预先设置的用于反映所述正文信息块中的文本信息与对应编号的映射关系的集合。
2.如权利要求1所述的基于DOM树的正文抽取方法,其特征在于,所述获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间,具体包括:
获取待抽取网页中正文信息块对应的DOM树的各节点路径;
根据各节点路径获得所述正文信息块对应的正文节点子区间;
根据预设加权值表获取各正文节点子区间对应的文本加权值;
根据所述文本加权值确定中心文本区间。
3.如权利要求2所述的基于DOM树的正文抽取方法,其特征在于,所述根据各节点路径获得所述正文信息块对应的正文节点子区间,具体包括:
根据预设编号集获取各节点路径对应的路径编号值;
将连续的路径编号值对应的节点路径划分为同一正文节点子区间,遍历各节点路径,直至各节点路径全部划分完毕。
4.如权利要求3所述的基于DOM树的正文抽取方法,其特征在于,所述根据预设加权值表获取各正文节点子区间对应的文本加权值,具体包括:
获取各正文节点子区间的文本密度;
根据预设加权值表查找到与各文本密度对应的文本加权值,所述预设加权值表反映各文本密度与各文本加权值的映射关系。
5.如权利要求4所述的基于DOM树的正文抽取方法,其特征在于,所述获取各正文节点子区间的文本密度,具体包括:
对各正文节点子区间进行分析,根据分析结果获得各节点路径中各节点对应的文本长度和各节点路径上的文本节点数量;
根据所述文本长度和所述文本节点数量通过下式计算获得各正文节点子区间的文本密度:
其中,TextDensity为所述文本密度,Texti为n个节点中第i个节点的文本长度,n为节点路径上的文本节点数量。
6.如权利要求5所述的基于DOM树的正文抽取方法,其特征在于,所述根据所述文本加权值确定中心文本区间,具体包括:
根据所述文本加权值的大小对所述正文节点子区间进行排序,并获得排序结果;
根据所述排序结果将最大的文本加权值对应的正文节点子区间作为中心文本区间。
7.一种基于DOM树的正文抽取装置,其特征在于,所述装置包括:
文本确定模块,用于获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;
区间确定模块,用于根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;
信息抽取模块,用于遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;
正文获取模块,用于将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息;
其中,所述预设编号集为预先设置的用于反映所述正文信息块中的文本信息与对应编号的映射关系的集合。
8.一种基于DOM树的正文抽取设备,其特征在于,所述基于DOM树的正文抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于DOM树的正文抽取程序,所述基于DOM树的正文抽取程序配置为实现如权利要求1至7中任一项所述的基于DOM树的正文抽取方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于DOM树的正文抽取程序,所述基于DOM树的正文抽取程序被处理器执行时实现如权利要求1至7中任一项所述的基于DOM树的正文抽取方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910680827.4/1.html,转载请声明来源钻瓜专利网。