[发明专利]一种面向大数据的特征提取并行处理方法在审
申请号: | 201810697344.0 | 申请日: | 2018-06-29 |
公开(公告)号: | CN109033203A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 刘震;梁旭;黄明;焦璇;黄辉 | 申请(专利权)人: | 大连交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京卓特专利代理事务所(普通合伙) 11572 | 代理人: | 段宇 |
地址: | 116028 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 并行处理 特征提取 大数据 特征数据 分配存储空间 正则表达式 关键词库 目标网址 判断数据 配置信息 匹配搜索 任务数据 数据抓取 搜索引擎 网页文本 页面内容 抓取系统 便利性 匹配对 自定义 网址 文本 采集 互联网 改进 分析 | ||
1.一种面向大数据的特征提取并行处理方法,其特征在于:具体包括如下步骤:
S1:在GPU上为任务数据和特征数据分配存储空间;
S2:提供特征数据关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S3:根据所抓取配置信息,从目标网站的版面索引页开始,逐一抓取所述版面索引页上出现的正文的链接,并深入正文的链接爬取正文分页信息和正文内容,系统利用URL校验的方式将获取到的URL进行去重;
S4:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,通过调用者服务确定数据抓取的服务接口,并通过提供者服务确定响应服务接口的实现服务,进而通过调用实现服务,以对其他业务单据中的数据进行抓取,使得能够实现以核心业务单据为维度,自动对与其关联的业务单据的数据进行抓取,极大地提高了操作的便利性;
S5:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S6:分析页面内容及其组织方式,确定抓取规则;
S7:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
2.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法,其特征在于:所述步骤S5中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。
3.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法,其特征在于:所述步骤S6中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。
4.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法,其特征在于:所述步骤S7中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。
5.根据权利要求1所述的一种面向大数据的特征提取并行处理方法,其特征在于:所述步骤S4中,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能。
6.根据权利要求1所述的一种面向大数据的特征提取并行处理方法,其特征在于:所述步骤S5中当抓取过程出现异常时,记录日志信息,此时并行化分布式互联网数据抓取系统进行重试抓取,直至抓取成功。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连交通大学,未经大连交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810697344.0/1.html,转载请声明来源钻瓜专利网。