[发明专利]新闻网站的网页判别处理方法、终端设备及存储介质有效

专利信息
申请号: 201711272600.3 申请日: 2017-12-06
公开(公告)号: CN107908780B 公开(公告)日: 2020-02-21
发明(设计)人: 陈强;栾江霞;章正道 申请(专利权)人: 厦门市美亚柏科信息股份有限公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/9536;G06F16/955;G06F16/958
代理公司: 厦门市精诚新创知识产权代理有限公司 35218 代理人: 方惠春
地址: 361000 福建省厦门市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 新闻 网站 网页 判别 处理 方法 终端设备 存储 介质
【说明书】:

发明公开一种新闻网站的网页判别处理方法、终端设备及存储介质,通过采集当前网页的子网页信息,进而对子网页进行分类,再根据每个分类中子网页链接的标题的平均长度,来筛选出新闻详文页,进而通过当前网页所包含的新闻详文页的个数,判断出新闻版块页,从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据,从而提高新闻数据采集的效率。

技术领域

本发明涉及互联网信息数据采集技术领域,具体是一种新闻网站的网页判别处理方法、终端设备及存储介质。

背景技术

伴随着互联网的快速发展,社会公众和企业单位对互联网数据的依赖越来越强,互联网是提供新闻信息的重要渠道,互联网上的信息数以亿计,由于硬件资源、网络资源的限制,人们很难快速准确的来获取自己关注的新闻信息。

互联网上的新闻网站类型复杂,例如五大门户网站,除新闻网页信息外还会存在大量的的其它内容网页,这在一定程度上加大了用户搜索新闻的难度。

目前存在的一些新闻采集工具,只可以在用户指定的网站中进行搜索采集,有一定的局限性,而且通常也会对大量非新闻网页进行判断,从而大大降低了新闻数据采集的效率。

发明内容

为了解决上述问题,本发明提供一种新闻网站的网页判别处理方法、终端设备及存储介质,通过筛选出新闻详文页,进而判断出新闻版块页,从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据,从而提高新闻数据采集的效率。

本发明一种新闻网站的网页判别处理方法,包括如下步骤:

S0:设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值totalY,采集深度H设置为0,并获取需进行新闻详文页筛选的新闻网站URL,其所在的网页作为当前网页,进入S1步骤;

S1:提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL,并记录其链接文字信息,子网页链接URL的链接文字信息作为子网页链接的标题,同时记录当前网页和子网页链接的关联关系,再将提取的所有子网页链接URL放入第一列表LIST中,进入S2步骤;

S2:对LIST中的子网页链接URL进行过滤,将其中的静态子网页的子网页链接URL过滤出来,标记为非新闻详文页链接,从LIST中剔除,进入S3步骤;

S3:通过字符相似度算法,将LIST中的子网页链接URL进行归类划分,归类为若干个集合Bn,其中n为正整数,进入S4步骤;

S4:获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN,并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn,其中n为正整数,进入S5步骤;

S5:比较lenthANn和lenthAY,若lenthANn大于或等于lenthAY,则判定集合Bn里的子网页链接为新闻详文页链接,并将其所有的子网页链接URL标记为新闻详文页链接URL,若lenthANn小于lenthAY,则标记为非新闻详文页链接URL,并将其保存到第二列表LIST A中,进入S6步骤;

S6:计算集合B1、B2、B3...Bn里所有新闻详文页的个数总和totalB,进入S7步骤;

S7:比较totalB和totalY,若tatalB大于或等于totalY,则判定当前网页为新闻版块页,若tatalB小于totalY,则判定当前网页为非新闻版块页,进入S8步骤;

S8:将Bn中的子网页链接URL所在的子网页作为当前网页,同时采集深度H递增1,比较H和HY,若H小于HY,则返回S1步骤,若H大于或等于HY,则退出。

进一步的,S0中,采集深度阈值HY设置为3。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711272600.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top