[发明专利]文章内容抽取方法、装置、设备及存储介质有效
申请号: | 202210072667.7 | 申请日: | 2022-01-21 |
公开(公告)号: | CN114528811B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 田振;李赟辉 | 申请(专利权)人: | 北京麦克斯泰科技有限公司 |
主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F16/33;G06F16/35 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 朱芳 |
地址: | 100081 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章内容 抽取 方法 装置 设备 存储 介质 | ||
本申请公开了一种文章内容抽取方法、装置、设备及存储介质。该方法包括首先获取目标网页的源码,对目标网页的源码进行DOM树构建;对构建的DOM树进行信息重构后遍历DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,标签中包括该标签对应的位置信息;对预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;对候选标签集合进行多维度特征采集得到各个维度的分值,进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容。可以看出,本申请中通过从不同维度特征进行判定,最终计算出目标文章内容在网页中的位置,可以有效的进行数据抽取。
技术领域
本发明涉及文本提取领域,特别涉及一种文章内容抽取方法、装置、设备及存储介质。
背景技术
当下很多网站中包含的信息丰富而复杂,对于推荐内容的干扰项也比较多,可以包括有导航、标题、正文、时间、甚至广告等内容,甚至有些网站的文字高聚集并非出现在文章部分,而是出现在推荐内容部分,或者广告信息部分,这样对于基于文字聚集程度识别出来的文章内容,则准确性则会大打折扣,从而影响数据分析,识别的效果。
在现有技术中,对网页内容抽取的方法主要是通过标签进行提取,比如常见的抽取页面所有的带有content的特征标签,但此方法对于部分网站适用,部分网站不适用,若网站将标签的特征换位text的话,在批量提取文章内容的时候,就会产生很多噪点数据,甚至提取不到想要的数据,从而影响数据分析的结果。
发明内容
基于此,本申请实施例提供了一种文章内容抽取方法、装置、设备及存储介质,可以能够准确抽取网页内的文章内容并提高文章内容识别的精准度。
第一方面,提供了一种文章内容抽取方法,该方法包括:
获取目标网页的源码,对所述目标网页的源码进行DOM树构建;
对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,所述自定义属性至少包括位置信息属性、父子标签属性;
遍历所述带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,所述标签中包括该标签对应的位置信息;
对所述预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,所述第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合;
对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,所述第二公式具体包括:
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有δ表示分值标准差,并有υ表示维度分值,n表示候选标签数量。
可选地,对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,包括:
对所述候选标签集合中的每个候选标签进行内容文字占比评分、位置全页占比评分、父子标签特征评分以及文本内容特征评分。
可选地,所述对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到目标标签,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京麦克斯泰科技有限公司,未经北京麦克斯泰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210072667.7/2.html,转载请声明来源钻瓜专利网。