[发明专利]爬虫数据源的处理方法及装置在审
申请号: | 201610061326.4 | 申请日: | 2016-01-28 |
公开(公告)号: | CN107016005A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 杨杰;袁园 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 数据源 处理 方法 装置 | ||
1.一种爬虫数据源的处理方法,其特征在于,所述方法包括:
从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
利用所述特征信息集合表示每个爬虫数据源;
统计每个爬虫数据源的特征信息集合中的各个特征信息;
根据统计结果确定每个爬虫数据源的标签。
2.根据权利要求1所述的方法,其特征在于,所述从行业信息中获取特征信息集合包括:
获取行业信息的结构范围,所述行业信息的结构范围包括:行业以及每个行业下的子行业信息;
从所述行业信息的结构范围中选择子行业信息组成特征信息集合。
3.根据权利要求2所述的方法,其特征在于,从所述行业信息的结构范围中选择子行业信息组成特征信息集合包括:
对所述行业信息的结构范围中的子行业进行卡方检测;
根据检测结果选择符合条件的子行业信息组成特征信息集合。
4.根据权利要求2所述的方法,其特征在于,利用所述特征信息集合表示每个爬虫数据源包括:
记录所述特征信息集合中的子行业在每个爬虫数据源中的出现次数;
用所述子行业在每个爬虫数据源中的出现次数对每个爬虫数据源进行表示。
5.根据权利要求4所述的方法,其特征在于,所述统计每个爬虫数据源的特征信息集合中的各个特征信息包括:
对每个爬虫数据源包含的各个子行业的出现次数的情况进行统计;
按照出现次数的高低对每个爬虫数据源包含的各个子行业进行排序;
根据排序结果对每个爬虫数据源包含的各个子行业进行布尔类型的分类。
6.根据权利要求5所述的方法,其特征在于,根据统计结果确定每个爬虫数据源的标签包括:
根据每个爬虫数据源包含的各个子行业的布尔类型的分类结果确定每个爬虫数据源的标签,并用所述标签给爬虫数据源进行标注。
7.一种爬虫数据源的处理装置,其特征在于,所述装置包括:
获取单元,用于从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
处理单元,用于利用所述特征信息集合表示每个爬虫数据源;
统计单元,用于统计每个爬虫数据源的特征信息集合中的各个特征信息;
确定单元,用于根据统计结果确定每个爬虫数据源的标签。
8.根据权利要求7所述的装置,其特征在于,所述获取单元包括:
获取模块,用于获取行业信息的结构范围,所述行业信息的结构范围包括:行业以及每个行业下的子行业信息;
选择模块,用于从所述行业信息的结构范围中选择子行业信息组成特征信息集合。
9.根据权利要求8所述的装置,其特征在于,所述处理单元包括:
记录模块,用于记录所述特征信息集合中的子行业在每个爬虫数据源中的出现次数;
表示模块,用于利用所述子行业在每个爬虫数据源中的出现次数对每个爬虫数据源进行表示。
10.根据权利要求9所述的装置,其特征在于,所述统计单元包括:
统计模块,用于对每个爬虫数据源包含的各个子行业的出现次数的情况进行统计;
排序模块,用于按照出现次数的高低对每个爬虫数据源包含的各个子行业进行排序;
分类模块,用于根据排序结果对每个爬虫数据源包含的各个子行业进行布尔类型的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610061326.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:火探装置设备管理系统
- 下一篇:一种森林火灾警报装置