[发明专利]爬虫数据源的处理方法及装置在审
申请号: | 201610061326.4 | 申请日: | 2016-01-28 |
公开(公告)号: | CN107016005A | 公开(公告)日: | 2017-08-04 |
发明(设计)人: | 杨杰;袁园 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙)11348 | 代理人: | 王伟锋,刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 数据源 处理 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,特别是涉及一种爬虫数据源的处理方法及装置。
背景技术
网络爬虫是一种按照一定的规则,自动的抓取网络信息的程序或者脚本,给数据源打TAG标签是爬虫爬取数据源时的重要步骤之一。TAG标签是一种自定义的,比分类更准确更具体,可以概括文章主要内容的关键词。例如,在网页的HTML编码中有标题标签(Title Tag)、描述标签(Description Tag)、关键词标签(Keywords Tag)等,爬虫运用TAG标签,可以更容易的搜索到需要获取的内容。
在实际应用中,爬虫在面对大量的需要爬取的数据时,如何准确的对数据源标注TAG标签会存在一定的难度。针对给爬虫数据源标注TAG标签的问题,现有技术中提出了在数据源种子上人工的标注TAG标签的方法,这种方法就是在爬虫数据源的入口种子表中,添加一个带有标记的字段,来存储想要给每个网站标注的具体的TAG标签,虽然这种方法在一定程度上解决了给爬虫数据源标注TAG标签的问题,但是在真实的爬虫环境中会使爬虫数据源的类型变得比较局限。此外,现有技术中还提出了在爬虫内部通过机器自动标注TAG标签的方法,虽然这种方法比人工标注TAG标签更加方便,但是与人工标注TAG标签的方法一样都没能准确的按照数据源的真实内容来标注TAG标签。
发明内容
有鉴于此,本发明提出了一种爬虫数据源的处理方法及装置,主要目的在于解决现有技术中无法对爬虫数据源准确标注标签的问题。
依据本发明的第一个方面,本发明提出了一种爬虫数据源的处理方法,包括:
从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处 理技术对行业信息进行统计处理后得到;
利用所述特征信息集合表示每个爬虫数据源;
统计每个爬虫数据源的特征信息集合中的各个特征信息;
根据统计结果确定每个爬虫数据源的标签。
依据本发明的第二个方面,本发明提出了一种爬虫数据源的处理装置,包括:
获取单元,用于从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到;
处理单元,用于利用所述特征信息集合表示每个爬虫数据源;
统计单元,用于统计每个爬虫数据源的特征信息集合中的各个特征信息;
确定单元,用于根据统计结果确定每个爬虫数据源的标签。
借由上述技术方案,本发明实施例提供的爬虫数据源的处理方法及装置,能够从行业信息中获取特征信息集合,所述特征信息集合通过自然语言处理技术对行业信息进行统计处理后得到,利用所述特征信息集合表示每个爬虫数据源,统计每个爬虫数据源的特征信息集合中的各个特征信息,根据统计结果确定每个爬虫数据源的标签。由于特征信息集合中的特征信息是通过自然语言处理技术选出的具有行业代表性和特征性的行业类别,而不是由人工选择或机器自动选择的,因此在用由自然语言处理技术得到的特征信息表示爬虫数据源的基础上,可以根据每个数据源的特征信息从中选出用于准确分类数据源的标签。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种爬虫数据源的处理方法的流程图;
图2示出了本发明实施例提供的一种爬虫数据源的处理装置的组成框图;
图3示出了本发明实施例提供的另一种爬虫数据源的处理装置的组成框图。
具体实施方式
下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610061326.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:火探装置设备管理系统
- 下一篇:一种森林火灾警报装置