[发明专利]大数据分析方法及系统在审

申请号：	201910304232.9	申请日：	2019-04-16
公开（公告）号：	CN110032680A	公开（公告）日：	2019-07-19
发明（设计）人：	郭盛	申请（专利权）人：	北京网聘咨询有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F17/27
代理公司：	北京远大卓悦知识产权代理事务所(普通合伙) 11369	代理人：	史霞
地址：	100102 北京市朝阳区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	大数据用户偏好数据库历史访问记录用户客户端资源服务器分析加密匹配分析方法及系统数据访问请求发送筛选访问请求网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.大数据分析方法，其特征在于，包括以下步骤：

S1、分析网络中每个用户的大数据历史访问记录，生成用户偏好数据库；

S2、用户客户端将用户的大数据访问请求发送至大数据资源服务器；

S3、大数据资源服务器根据用户的数据访问请求，根据用户偏好数据库在大数据资源中筛选出匹配程度高的大数据；

S4、将筛选出匹配程度高的大数据加密后发送给用户客户端；

其中，加密方法具体包括：

将匹配程度高的大数据按照预定字节长度均分成多块数据，并分别对每块进行编号；按照预设的加密算法对每个编号对应的数据进行加密，将加密后的每块数据按编号进行组合即完成对大数据的加密。

2.如权利要求1所述的大数据分析方法，其特征在于，S1中分析网络中每个用户的大数据历史访问记录，提取历史访问记录中的第一关键词；并统计每个第一关键词出现的次数，将每个第一关键词出现的次数作为该第一关键词的权重值，将第一关键词以及权重值存储即生成用户偏好数据库；构建第一关键词的第一词向量；S3中大数据资源服务器根据用户的数据访问请求，提取数据访问请求中的多个第二关键词，构建第二关键词的第二词向量，计算每个第二词向量与第一词向量之间的余弦相似度，将余弦相似度值与对应的权重值相乘得到乘积值，将乘积值由大至小排列，筛选出乘积值较大者所对应的大数据历史访问记录作为匹配程度高的大数据。

3.如权利要求1所述的大数据分析方法，其特征在于，加密方法具体包括：将匹配程度高的大数据按照预定字节长度分成多个区间，将每个区间分成字节长度分别为L1、L2、L3的三块数据，分别对每个区间的L1、L2、L3的三块数据进行编号，按照预设的加密算法对每个区间的L1、L2、L3的三块数据进行加密，将加密后的每块数据按编号进行组合即完成对大数据的加密。

4.如权利要求3所述的大数据分析方法，其特征在于，对每个区间的L1、L2、L3的三块数据分别使用DES、RC5、IDEA加密算法加密。

5.如权利要求2所述的大数据分析方法，其特征在于，分析网络中每个用户的大数据历史访问记录，采用分成工具对历史访问记录进行分词，提取关键词即为第一关键词。

6.大数据分析系统，其特征在于，包括：

分析单元，其用于分析网络中每个用户的大数据历史访问记录；

第一提取单元，其用于提取历史访问记录中的第一关键词，并统计每个第一关键词出现的次数，将每个第一关键词出现的次数作为该第一关键词的权重值；

第一词向量构建单元，其用于构建第一关键词的第一词向量；

大数据资源服务器单元，其用于接收用户的数据访问请求；

第二提取单元，其用于提取数据访问请求中的多个第二关键词；

第二词向量构建单元，其用于构建第二关键词的第二词向量；

匹配计算单元，其用于计算每个第二词向量与第一词向量之间的余弦相似度，并将余弦相似度值与对应的权重值相乘得到乘积值，将乘积值由大至小排列，筛选出乘积值较大者所对应的大数据历史访问记录作为匹配程度高的大数据；

加密计算单元，其用于将匹配程度高的大数据按照预定字节长度均分成多块数据，并分别对每块进行编号；按照预设的加密算法对每个编号对应的数据进行加密，将加密后的每块数据按编号进行组合；

发送单元，其用于将加密后的匹配程度高的大数据发送给用户客户端。