[发明专利]新闻网站的网页判别处理方法、终端设备及存储介质有效
申请号: | 201711272600.3 | 申请日: | 2017-12-06 |
公开(公告)号: | CN107908780B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 陈强;栾江霞;章正道 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/955;G06F16/958 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 方惠春 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种新闻网站的网页判别处理方法、终端设备及存储介质,通过采集当前网页的子网页信息,进而对子网页进行分类,再根据每个分类中子网页链接的标题的平均长度,来筛选出新闻详文页,进而通过当前网页所包含的新闻详文页的个数,判断出新闻版块页,从而将新闻版块页作为采集目标并从筛选出的新闻详闻页里采集提取新闻数据,从而提高新闻数据采集的效率。 | ||
搜索关键词: | 新闻 网站 网页 判别 处理 方法 终端设备 存储 介质 | ||
【主权项】:
一种新闻网站的网页判别处理方法,其特征在于:包括如下步骤:S0:设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值tatalY,采集深度H设置为0,并获取需进行新闻详文页筛选的新闻网站URL,其所在的网页作为当前网页,进入S1步骤;S1:提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL,并记录其链接文字信息,子网页链接URL的链接文字信息作为子网页链接的标题,同时记录当前网页和子网页链接的关联关系,再将提取的所有子网页链接URL放入LIST中,进入S2步骤;S2:对LIST中的子网页链接URL进行过滤,将其中的静态子网页的子网页链接URL过滤出来,标记为非新闻详文页链接,从LIST中剔除,进入S3步骤;S3:通过字符相似度算法,将LIST中的子网页链接URL进行归类划分,归类为若干个集合Bn,其中n为正整数,进入S4步骤;S4:获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN,并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn,其中n为正整数,进入S5步骤;S5:比较lenthANn和lenthAY,若lenthANn大于或等于lenthAY,则判定集合Bn里的子网页链接为新闻详文页链接,并将其所有的子网页链接URL标记为新闻详文页链接URL,若lenthANn小于lenthAY,则标记为非新闻详文页链接URL,并将其保存到LIST A中,进入S6步骤;S6:计算集合B1、B2、B3...Bn里所有新闻详文页的个数总和totalB,进入S7步骤;S7:比较totalB和tatalY,若tatalB大于或等于tatalY,则判定当前网页为新闻版块页,若tatalB小于tatalY,则判定当前网页为非新闻版块页,进入S8步骤;S8:将Bn中的子网页链接URL所在的子网页作为当前网页,同时采集深度H递增1,比较H和HY,若H小于HY,则返回S1步骤,若H大于或等于HY,则退出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711272600.3/,转载请声明来源钻瓜专利网。