[发明专利]一种网页分类方法和系统在审
申请号: | 201510484991.X | 申请日: | 2015-08-07 |
公开(公告)号: | CN105117434A | 公开(公告)日: | 2015-12-02 |
发明(设计)人: | 林招;洪婷婷;杨晓磊;陈岩 | 申请(专利权)人: | 北京品友互动信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波 |
地址: | 100022 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 分类 方法 系统 | ||
技术领域
本发明涉及互联网应用技术领域,尤其涉及一种网页分类方法和系统。
背景技术
随着互联网信息需求的扩大,信息定向投放成为一种趋势。为了更有针对性地投放信息,需要对互联网上的人群进行属性分析或标签界定,而这主要通过判断用户访问的媒体网页类型来进行分析。其中,常见的对媒体网页进行分类的方法主要包括:
1)利用url(统一资源定位)的字符串进行分类,如利用sports.qq.com中的字符串“sports”将该网页分类至体育类目;
2)人工识别,由有经验的人员根据网页内容进行网页分类;
3)网页内容关键字频次识别,主要通过解析url对应的html(超文本标记语言)内容,根据其中的关键字频次进行网页分类。
上述各分类方法中,方法3)通过机器学习等算法予以实现,准确度相对较低;方法2)虽然准确度较高,但是效率低;方法1)虽然效率和质量都不错,但是对于主要由日期或数据表示的url的网页分类却显得无可奈何,而这类网页的流量往往非常大,诸如视频网站、电子商务网站以及博客网站中的网页等。
发明内容
本发明的目的是提供一种网页分类方法和系统,可以有效对媒体网页类型进行分类。
根据本发明的一个方面,提供了一种网页分类方法,该方法包括以下步骤:
接收用户输入的域名,基于所述域名得到需要爬取面包屑的网页所对应的地址(url);
基于所述地址爬取所述网页的面包屑;
基于所爬取的面包屑对所述网页进行分类。
进一步地,所述基于所述域名得到需要爬取面包屑的网页所对应的地址的步骤具体包括:
基于所述域名,得到包括所述域名在内的至少部分网页地址;
判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录或/和所述网页是否活跃;
基于所述判断,筛选出需要爬取面包屑的网页所对应的地址。
其中,在筛选出需要爬取面包屑的网页所对应的地址的步骤前,还包括:
对面包屑的有效性进行判断,过滤无效面包屑对应的网页地址。
进一步地,所述基于所述地址爬取所述网页的面包屑的步骤包括:
基于面包屑的提取规则和所述地址,多线程地分别同时爬取并记录所述网页的面包屑。
其中,所述基于面包屑的提取规则爬取所述网页的面包屑具体包括:
对所述网页的html代码进行解析;
设定所述面包屑的开始字段和结束字段,获取所述面包屑的完整字段。
进一步地,所述基于所爬取的面包屑对所述网页进行分类的步骤具体包括:
确定面包屑分类关键字/词,基于所述关键字/词筛选出所述域名下包含所述关键字/词的所有面包屑对应的网页地址;
将所述筛选的网页地址所对应的网页归类于所述面包屑分类关键字/词所确定的类别。
进一步地,所述网页分类方法还包括:
基于所爬取的面包屑对网页进行的分类,对访问所述网页的用户进行属性分类。
根据本发明的另一个方面,还提供了一种网页分类系统,包括:
待分类网页获取装置,用于接收用户输入的域名,基于所述域名得到需要爬取面包屑的网页所对应的地址(url);
面包屑爬取装置,基于所述地址爬取所述网页的面包屑;
网页分类器,基于所爬取的面包屑对所述网页进行分类。
进一步地,所述待分类网页获取装置具体用于:
基于所述域名,得到包括所述域名在内的至少部分网页地址;
判断所述网页地址对应的网页是否存在历史被爬取面包屑的记录或/和所述网页是否活跃;
基于所述判断,筛选出需要爬取面包屑的网页所对应的地址。
其中,所述待分类网页获取装置在筛选出需要爬取面包屑的网页所对应的地址前,还用于:
对面包屑的有效性进行判断,过滤无效面包屑对应的网页地址。
进一步地,所述面包屑爬取装置具体用于:
基于面包屑的提取规则和所述地址,多线程地分别同时爬取并记录所述网页的面包屑。
其中,所述面包屑爬取装置基于面包屑的提取规则爬取所述网页的面包屑中,具体用于:
对所述网页的html代码进行解析;
设定所述面包屑的开始字段和结束字段,获取所述面包屑的完整字段。
进一步地,所述网页分类器具体用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京品友互动信息技术有限公司,未经北京品友互动信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510484991.X/2.html,转载请声明来源钻瓜专利网。