[发明专利]文章内容抽取方法、装置、设备及存储介质有效
申请号: | 202210072667.7 | 申请日: | 2022-01-21 |
公开(公告)号: | CN114528811B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 田振;李赟辉 | 申请(专利权)人: | 北京麦克斯泰科技有限公司 |
主分类号: | G06F40/14 | 分类号: | G06F40/14;G06F16/33;G06F16/35 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 朱芳 |
地址: | 100081 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章内容 抽取 方法 装置 设备 存储 介质 | ||
1.一种文章内容抽取方法,其特征在于,所述方法包括:
获取目标网页的源码,对所述目标网页的源码进行DOM树构建;
对构建的DOM树进行信息重构,得到带有自定义属性的DOM树,所述自定义属性至少包括位置信息属性、父子标签属性;
遍历所述带有自定义属性的DOM树,对DOM树中各个节点中的标签进行特征提取得到预选标签集合,其中,所述标签中包括该标签对应的位置信息;
对所述预选标签集合根据预设的噪音文本集合进行初步去噪得到候选标签集合;其中,根据第一公式得到候选标签集合,所述第一公式具体包括:
R1=P-P∩(P1∪P2∪...∪Pn)
R1表示候选标签集合,P表示预选标签集合,P1,P2...Pn表示不同的噪音集合;
对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到标签得分集合,选择最优得分标签所对应的位置信息得到网页内容;
其中,根据第二公式得到标签得分结合,所述第二公式具体包括:
R2表示标签得分集合,W表示归一化后的权重值集合,μ表示分值均值,并有δ表示分值标准差,并有υ表示维度分值,n表示候选标签数量。
2.根据权利要求1所述的方法,其特征在于,对所述候选标签集合进行多维度特征采集得到每个候选标签在各个维度的分值,包括:
对所述候选标签集合中的每个候选标签进行内容文字占比评分、位置全页占比评分、父子标签特征评分以及文本内容特征评分。
3.根据权利要求1所述的方法,其特征在于,所述对每个候选标签在各个维度的分值进行归一化处理,并根据预设的各个维度权重得到目标标签,包括:
根据归一化的分值与各个维度权重比做乘积得到标签得分集合。
4.根据权利要求1所述的方法,其特征在于,对所述目标网页源码进行DOM树构建,包括:
对所述目标网页源码中所有标签及标签对应的位置信息进行DOM树构建。
5.根据权利要求1所述的方法,其特征在于,对所述DOM树中各个节点中的标签进行特征提取得到预选标签集合,包括:
提取所述DOM树中各个节点中的标签中至少包含Text、Article、Post、Conter、List以及Content特征的标签作为预选标签。
6.根据权利要求1所述的方法,其特征在于,所述标签对应的位置信息包括标签的行位置以及总标签位置。
7.根据权利要求1所述的方法,其特征在于,在对所述预选标签集合根据预设的噪音集合进行初步去噪得到候选标签集合之前,还包括:
设置噪音文本集合,所述噪音文本集合中的噪音文本至少包括广告、推荐以及海购。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京麦克斯泰科技有限公司,未经北京麦克斯泰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210072667.7/1.html,转载请声明来源钻瓜专利网。