[发明专利]流量数据中信息点的提取方法及装置有效

专利信息
申请号: 201510843691.6 申请日: 2015-11-26
公开(公告)号: CN105407016B 公开(公告)日: 2019-03-26
发明(设计)人: 汤奇峰;古力米热·艾力肯 申请(专利权)人: 上海晶赞科技发展有限公司
主分类号: H04L12/26 分类号: H04L12/26
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 吴敏
地址: 200072 上海市闸北区灵*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 流量 数据 信息 提取 方法 装置
【说明书】:

流量数据中信息点的提取方法、装置,所述方法包括:根据已知URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。上述的方案可以提高流量数据中信息点的获取量。

技术领域

发明涉及大数据技术领域,尤其涉及一种流量数据中信息点的提取方法及装置。

背景技术

在信息量爆炸的今天,用户每天都在产生大量的流量信息,流量中存在丰富的有价值的数据,这些数据包含了大量的用户信息,这些信息大部分是未被开发使用的,因此,提取这些信息具有十分重要的意义,这些可以被开发使用的数据被称为信息点。

但是,目前提取流量信息点,都是在基于已知的知识点的前提下进行提取的,这种提取流量中信息点的方式受限于对日常事务的认知程度,例如想要从流量数据中获取某个对象的参数值,但是仅仅掌握该参数值是以数字10和11开头的整数,那么利用该知识点从流量数据中探测,得到的信息点即该对象的参数值也都是以10和11开头的值,但实际情况是,该参数值还存在大量以12开头的值,可见,这种方式探测得到的信息量建立在对知识点的掌握程度上,挖掘到的信息量较少。

发明内容

本发明解决的技术问题是如何提高流量数据中信息点的获取量。

为解决上述问题,本发明提供一种流量数据中信息点的提取方法,所述方法包括:

根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;

从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;

将所述关键字字典表中的每组关键字作为探测关键字,从所述流量数据中获取包含所述探测关键字的URL的键值,以获得流量数据中的信息点。

可选地,所述根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集,包括:

将所述已知URL中的键值相关信息转换成第一正则表达式;

使用所述第一正则表达式从所述流量数据中获取包含所述键值的URL集。

可选地,所述流量数据中信息点的提取方法,还包括:

根据所述URL集中的每一组关键字,获得对应的URL的域名和路径,形成一条检测规则,得到检测规则库;

根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,以得到流量数据中的信息点。

可选地,所述根据所述检测规则库中的检测规则,从所述流量数据中获得所述检测规则对应的键值,包括:

将所述检测规则转换成第二正则表达式;

从所述流量数据中获得所述检测规则对应的键值,以获得流量数据中的信息点。

可选地,所述流量数据中信息点的提取方法,还包括:将所述检测规则库中所述域名不同,且所述路径、关键字和键值均相同的检测规则进行合并。

本发明实施例还提供一种流量数据中信息点的提取装置,所述装置包括:

URL集获取单元,适于根据已知的URL中的键值相关信息从所述流量数据中获取包含所述键值的URL集;其中,所述URL包括关键字和键值;

关键字字典表形成单元,适于从所述URL集中提取URL对应的所述关键字,每条URL对应一组关键字,得到关键字字典表;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海晶赞科技发展有限公司,未经上海晶赞科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510843691.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top