[发明专利]一种大数据信息挖掘方法在审

专利信息
申请号: 201510611191.X 申请日: 2015-09-21
公开(公告)号: CN105354208A 公开(公告)日: 2016-02-24
发明(设计)人: 瞿亚军;卞长存;刘通 申请(专利权)人: 江苏讯狐信息科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 224000 江苏省盐城市城南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 信息 挖掘 方法
【权利要求书】:

1.一种大数据信息挖掘方法,其特征在于,其包括以下步骤:

(1)建立输入的数据集;

(2)对数据进行筛选:将数据集中的干扰数据筛除掉,选择出与挖掘目标相关的数据,组成新的数据集;

(3)数据预处理:通过聚类算法,对数据进行预处理;

(4)对信息数据进行预挖掘:对所述步骤(3)中预处理后的数据进行预挖掘,从而在预处理的数据集中进行知识发现;

(5)挖掘评估:对预挖掘的数据进行评估,得到其代表的知识模式;

(6)评估判断:如果岁挖掘的数据评估合格,则进入步骤(7),如果不合格,则转至所述步骤(2);

(7)信息数据显示:利用可视化技术或其它显示技术将挖掘到的信息数据直观显示给用户。

2.根据权利要求1所述的一种大数据信息挖掘方法,其特征在于,所述步骤(1)中,建立输入的数据集的格式为:Di={e1,e2,…,en),其中,n为大于等于3的自然数;聚簇的个数为k;所述步骤(3)中数据预处理的具体步骤为:首先计算聚类中心点Cij及相应的对象个数mij,其中,i=1,2,…,n,j=1,2,…,k;Cij的计算公式为:

Cij=Σi=1,j=1i=n,j=n(Cij×mij)/Σi=1,j=1i=n,j=nmij;]]>

然后,中心站点随机产生k个初始聚簇中心,并发送到从站点Si(i=1,2,…,n);之后计算直到每个聚类不再发生变化;

所述步骤(4)中,对信息数据进行预挖掘的具体步骤为:

用AP算法对聚类先不发生变化的聚簇中心数据点进行聚类,得到初始模型,当出现某一个新的点到达时,找出与该点的距离最近的聚簇中心点,并利用欧式距离公式计算出之间的距离d,如果若d小于阈值ε,则更新初始的模型,如果d大于阈值ε,则将该点暂时放入暂存盒,如果重新达到聚类标准,则重新建立初始模型,之后清空暂存盒,其中,更新初始的模型的方法为将现有的初始模型中的中心点和暂存盒中的点用加权算法进行聚类,得到更新初始的模型。

3.根据权利要求2所述的一种大数据信息挖掘方法,其特征在于,所述挖掘评估(5)的具体步骤为:

首先将用户聚类分成C类,在每一类用户中找出一个点代表此类用户对每个项目的评分,具体表示为C1(Ri1,Ri2……R1n),对于待预测的评分,先利用相似度计算当前用户与哪类用户最接近,再在类中求出最近邻,根据最近邻的评价值而做出预测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏讯狐信息科技有限公司,未经江苏讯狐信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510611191.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top