[发明专利]一种面向大数据的特征提取并行处理方法在审

申请号：	201810697344.0	申请日：	2018-06-29
公开（公告）号：	CN109033203A	公开（公告）日：	2018-12-18
发明（设计）人：	刘震;梁旭;黄明;焦璇;黄辉	申请（专利权）人：	大连交通大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京卓特专利代理事务所(普通合伙) 11572	代理人：	段宇
地址：	116028 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种面向大数据的特征提取并行处理方法，改变传统大数据的特征提取并行处理方法，在互联网抓取系统的数据抓取方法上进行改进，首先在GPU上为任务数据和特征数据分配存储空间，然后提供特征数据关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集，根据所抓取配置信息，极大地提高了操作的便利性，然后确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度，分析页面内容及其组织方式，确定抓取规则，最后，通过正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据，抓取效率高，抓取的准确性也大大提升。
搜索关键词：	抓取并行处理特征提取大数据特征数据分配存储空间正则表达式关键词库目标网址判断数据配置信息匹配搜索任务数据数据抓取搜索引擎网页文本页面内容抓取系统便利性匹配对自定义网址文本采集互联网改进分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向大数据的特征提取并行处理方法，其特征在于：具体包括如下步骤：S1：在GPU上为任务数据和特征数据分配存储空间；S2：提供特征数据关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集；S3：根据所抓取配置信息，从目标网站的版面索引页开始，逐一抓取所述版面索引页上出现的正文的链接，并深入正文的链接爬取正文分页信息和正文内容，系统利用URL校验的方式将获取到的URL进行去重；S4：URL采集爬虫包含深度优先和广度优先算法，并可配置爬取深度和用户权限，通过调用者服务确定数据抓取的服务接口，并通过提供者服务确定响应服务接口的实现服务，进而通过调用实现服务，以对其他业务单据中的数据进行抓取，使得能够实现以核心业务单据为维度，自动对与其关联的业务单据的数据进行抓取，极大地提高了操作的便利性；S5：确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度；S6：分析页面内容及其组织方式，确定抓取规则；S7：正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连交通大学，未经大连交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810697344.0/，转载请声明来源钻瓜专利网。

上一篇：一种基于Apriori算法的图书推荐方法和系统
下一篇：一种基于万维网的层次积分直方图可视查询方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向大数据的特征提取并行处理方法在审

专利文献下载