[发明专利]一种面向大数据的特征提取并行处理方法在审

申请号：	201810697344.0	申请日：	2018-06-29
公开（公告）号：	CN109033203A	公开（公告）日：	2018-12-18
发明（设计）人：	刘震;梁旭;黄明;焦璇;黄辉	申请（专利权）人：	大连交通大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京卓特专利代理事务所(普通合伙) 11572	代理人：	段宇
地址：	116028 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	抓取并行处理特征提取大数据特征数据分配存储空间正则表达式关键词库目标网址判断数据配置信息匹配搜索任务数据数据抓取搜索引擎网页文本页面内容抓取系统便利性匹配对自定义网址文本采集互联网改进分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向大数据的特征提取并行处理方法，其特征在于：具体包括如下步骤：

S1：在GPU上为任务数据和特征数据分配存储空间；

S2：提供特征数据关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集；

S3：根据所抓取配置信息，从目标网站的版面索引页开始，逐一抓取所述版面索引页上出现的正文的链接，并深入正文的链接爬取正文分页信息和正文内容，系统利用URL校验的方式将获取到的URL进行去重；

S4：URL采集爬虫包含深度优先和广度优先算法，并可配置爬取深度和用户权限，通过调用者服务确定数据抓取的服务接口，并通过提供者服务确定响应服务接口的实现服务，进而通过调用实现服务，以对其他业务单据中的数据进行抓取，使得能够实现以核心业务单据为维度，自动对与其关联的业务单据的数据进行抓取，极大地提高了操作的便利性；

S5：确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度；

S6：分析页面内容及其组织方式，确定抓取规则；

S7：正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据。

2.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法，其特征在于：所述步骤S5中，注意避免应用了防采集措施的网站，如：限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。

3.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法，其特征在于：所述步骤S6中，由于网页是半结构化文档，除了数据内容之外，还包括大量格式和其它多媒体信息，抓取前务必了解网页数据的组织特点，确定目标数据项的识别规则，通过查看源文件进行分析。

4.根据权利要求1所述的一种基于互联网数据抓取系统的数据抓取方法，其特征在于：所述步骤S7中匹配搜索过程中，为了尽可能的增强灵活性，采用了正则表达式。

5.根据权利要求1所述的一种面向大数据的特征提取并行处理方法，其特征在于：所述步骤S4中，提供对URL标签解析功能，包含标题、日期、作者、正文特定标签下的内容提取并分类，提供对搜索出结果的特定标签内关键信息进行抽取，有新闻资讯类网页的正文信息抽取功能。

6.根据权利要求1所述的一种面向大数据的特征提取并行处理方法，其特征在于：所述步骤S5中当抓取过程出现异常时，记录日志信息，此时并行化分布式互联网数据抓取系统进行重试抓取，直至抓取成功。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连交通大学，未经大连交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810697344.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于Apriori算法的图书推荐方法和系统
下一篇：一种基于万维网的层次积分直方图可视查询方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向大数据的特征提取并行处理方法在审

专利文献下载