[发明专利]一种新闻列表页判断方法及筛选新闻列表页的方法有效
申请号: | 201410382359.X | 申请日: | 2014-08-06 |
公开(公告)号: | CN104182482B | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 刘晓娜;张凯;程学旗;刘悦;张瑾;余智华 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;李科 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 列表 判断 方法 筛选 | ||
1.一种新闻列表页判断方法,其特征在于,包括:
步骤(1),获取网页,判断所述网页是否为新闻网页,包括:
将所述网页中满足第一正则表达式、锚文本的字符长度大于设定的锚文本长度阀值、并且网页内容中包含时间信息的网页判定为新闻网页,并将其余网页判定为非新闻网页,其中所述第一正则表达式是新闻URL的正则表达式;
如果所述网页不是新闻网页,则在所述网页中采集子网页,并对所述子网页重新执行所述步骤(1);
如果所述网页是新闻网页,则判断所述网页的父网页是否为新闻网页,如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;
步骤(2),根据所述关联信息判断出新闻列表页。
2.根据权利要求1所述的新闻列表页判断方法,其特征在于,所述步骤(1)中在所述网页中采集子网页包括:
记录采集到的子网页的URL信息;
如果子网页的URL信息与所述记录的URL信息不相同,则采集所述子网页。
3.根据权利要求1所述的新闻列表页判断方法,其特征在于,所述步骤(1)中在所述网页中采集子网页包括:
获取所述网页中的链接信息,如果所述链接信息对应的子网页的域名是所述网页的子域名,或者所述链接信息对应的子网页的域名与所述网页的域名相同,则采集所述子网页。
4.根据权利要求1所述的新闻列表页判断方法,其特征在于,所述步骤(1)中在所述网页中采集子网页包括:
如果所述子网页的URL信息表示的深度值小于预设深度阀值,则采集所述子网页。
5.根据权利要求1所述的新闻列表页判断方法,其特征在于,所述步骤(1)中判断所述网页或所述父网页是否为新闻网页还包括:
根据所述网页是否满足第二正则表达式,判断所述网页是否为关注频道内的新闻网页其中所述第二正则表达式是关注频道内网页内容的正则表达式。
6.根据权利要求1所述的新闻列表页判断方法,其特征在于,所述步骤(1)中记录所述网页与所述父网页的关联信息包括:
将所述父网页的深度信息、URL信息、以及所述父网页链出的子网页的URL信息写入文件。
7.一种筛选新闻列表页的方法,其特征在于,包括:
步骤(1),获取多个URL放入待采集队列中;
步骤(2),从所述待采队列中取出URL作为起始页采集其中的网页;
步骤(3),获取采集到的网页,判断所述网页是否为新闻网页,包括:
将所述网页中满足第一正则表达式、锚文本的字符长度大于设定的锚文本长度阀值、并且网页内容中包含时间信息的网页判定为新闻网页,并将其余网页判定为非新闻网页,其中所述第一正则表达式是新闻URL的正则表达式;
如果所述网页不是新闻网页,则将所述网页中的子网页的URL加入所述待采集队列中;
如果所述网页是新闻网页,则判断所述网页的父网页是否为新闻网页,如果所述父网页不是新闻网页,则记录所述网页与所述父网页的关联信息;
步骤(4),判断待采集队列是否为空,如果待采集队列为空且所有采集到的网页都已判断完成,则执行步骤(5);否则执行步骤(2);
步骤(5),对记录的关联信息进行挖掘,筛选出新闻列表页。
8.根据权利要求7所述的筛选新闻列表页的方法,其特征在于,所述步骤(5)中对记录的关联信息进行挖掘包括:
读取记录的关联信息,放入键值结构体中,所述键值结构体中的键为父网页的网页URL信息,值为一个统计结构体,包括每个父网页链出的新闻网页总数量;
根据所述键值结构体筛选出新闻列表页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410382359.X/1.html,转载请声明来源钻瓜专利网。