[发明专利]新闻网站的网页判别处理方法、终端设备及存储介质有效
申请号: | 201711272600.3 | 申请日: | 2017-12-06 |
公开(公告)号: | CN107908780B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 陈强;栾江霞;章正道 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06F16/955;G06F16/958 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 方惠春 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 网站 网页 判别 处理 方法 终端设备 存储 介质 | ||
1.一种新闻网站的网页判别处理方法,其特征在于:包括如下步骤:
S0:设置需进行新闻详文页筛选的新闻网站URL的采集深度阈值HY、子网页链接的标题的平均长度阈值lenthAY和网页里面的新闻详文页的个数总和阈值totalY,采集深度H设置为0,并获取需进行新闻详文页筛选的新闻网站URL,其所在的网页作为当前网页,进入S1步骤;
S1:提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL,并记录其链接文字信息,子网页链接URL的链接文字信息作为子网页链接的标题,同时记录当前网页和子网页链接的关联关系,再将提取的所有子网页链接URL放入第一列表LIST中,进入S2步骤;
S2:对LIST中的子网页链接URL进行过滤,将其中的静态子网页的子网页链接URL过滤出来,标记为非新闻详文页链接,从LIST中剔除,进入S3步骤;
S3:通过字符相似度算法,将LIST中的子网页链接URL进行归类划分,归类为若干个集合Bn,其中n为正整数,进入S4步骤;
S4:获取集合Bn里面每个子网页链接的标题长度lenthNn和所有子网页链接URL的个数总和totalN,并计算集合Bn里面所有子网页链接的标题的平均长度lenthANn,其中n为正整数,进入S5步骤;
S5:比较lenthANn和lenthAY,若lenthANn大于或等于lenthAY,则判定集合Bn里的子网页链接为新闻详文页链接,并将其所有的子网页链接URL标记为新闻详文页链接URL,若lenthANn小于lenthAY,则标记为非新闻详文页链接URL,并将其保存到第二列表LIST A中,进入S6步骤;
S6:计算集合B1、B2、B3...Bn里所有新闻详文页的个数总和totalB,进入S7步骤;
S7:比较totalB和totalY,若tatalB大于或等于totalY,则判定当前网页为新闻版块页,若tatalB小于totalY,则判定当前网页为非新闻版块页,进入S8步骤;
S8:将Bn中的子网页链接URL所在的子网页作为当前网页,同时采集深度H递增1,比较H和HY,若H小于HY,则返回S1步骤,若H大于或等于HY,则退出。
2.如权利要求1所述的新闻网站的网页判别处理方法,其特征在于:S0中,采集深度阈值HY设置为3。
3.如权利要求1所述的新闻网站的网页判别处理方法,其特征在于:S0中,新闻详文页的个数总和阈值totalY设置为10。
4.如权利要求1所述的新闻网站的网页判别处理方法,其特征在于:S1中,通过获取新闻网页源码,再用Bloom Filter算法来提取在当前网页下的包含当前网页URL的若干级域名的所有子网页链接URL。
5.如权利要求4所述的新闻网站的网页判别处理方法,其特征在于:提取的所有子网页链接URL为包含当前网页URL的三级域名的URL。
6.如权利要求1所述的新闻网站的网页判别处理方法,其特征在于:S2中,静态子网页的子网页链接URL为后缀为index.html、index.shtml或index.htm的URL。
7.如权利要求1所述的新闻网站的网页判别处理方法,其特征在于:S5中,还包括对标记为新闻详文页链接URL的子网页链接URL所在的子网页进行网页内容自动解析,保存解析到的网页内容结构化数据。
8.一种新闻网站的网页判别处理终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-7所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-7所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711272600.3/1.html,转载请声明来源钻瓜专利网。