[发明专利]提取网页正文的方法和装置有效
申请号: | 201711306108.3 | 申请日: | 2017-12-11 |
公开(公告)号: | CN110020312B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 贾宝玉;李杰;周旭 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/9535 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 网页 正文 方法 装置 | ||
1.一种提取网页正文的方法,其特征在于,包括:
根据待提取网页构建访问模型,所述访问模型包括:特征部分和主体部分;
计算所述主体部分的各单位区域与所述特征部分的相似值;其中,计算所述特征部分的第二指标值以及所述主体部分的各单位区域的第二指标值;利用所述特征部分的第二指标值以及所述各单位区域的第二指标值,计算所述特征部分与所述各单位区域的相似值;其中,所述特征部分包括待提取网页的特征信息,所述第二指标值是根据所述特征信息生成的;
根据所述相似值和各单位区域的第一指标值,从所述访问模型中筛选单位正文区域;其中,
根据所述各单位区域的第一指标值,从所述访问模型中选出疑似文本区域,利用所述相似值从所述疑似文本区域中筛选所述单位正文区域;
根据所述单位正文区域确定所述待提取网页的正文的开头和结尾,以得到所述待提取网页的完整正文;其中,
所述根据所述单位正文区域确定所述待提取网页的正文的开头和结尾包括:以所述单位正文区域为中心进行向上和向下单位区域的迭代遍历,判断每一个单位区域是否符合预设正文条件,若不符合预设正文条件,则停止迭代,从而确定所述待提取网页的正文的开头和结尾;
所述判断每一个单位区域是否符合预设正文条件包括:判断每一个单位区域的相似值是否大于预设相似性阈值,若大于,则确定所述单位区域符合预设正文条件;和/或,判断每一个单位区域的链接比是否小于预设链接比阈值,若小于,则确定所述单位区域符合预设正文条件;和/或,判断每一个单位区域的符号比是否大于预设符号比阈值,若大于,则确定所述单位区域符合预设正文条件。
2.根据权利要求1所述的方法,其特征在于,在根据待提取网页构建访问模型之前,所述方法还包括:将所述待提取网页的源码进行标准化处理。
3.根据权利要求1所述的方法,其特征在于,利用所述相似值从所述疑似文本区域中筛选所述单位正文区域包括:
比较所述疑似文本区域中各单位区域的相似值的大小,选取相似值最大的单位区域作为单位正文区域。
4.根据权利要求1所述的方法,其特征在于,在根据所述单位正文区域确定所述待提取网页的正文的开头和结尾之后,所述方法还包括:获取所述待提取网页的正文附加信息,其中,所述正文附加信息包括如下至少一种:正文标题、作者、日期和来源。
5.根据权利要求1所述的方法,其特征在于,所述访问模型为文本对象模型。
6.根据权利要求1所述的方法,其特征在于,所述各单位区域以行为单位。
7.根据权利要求1所述的方法,其特征在于,所述第一指标值用于表示各单位区域的属性信息,包括:各单位区域的单位密度。
8.根据权利要求1所述的方法,其特征在于,所述第二指标值用于表示网页中某区域的属性信息,包括:特征向量值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711306108.3/1.html,转载请声明来源钻瓜专利网。