[发明专利]一种基于剪枝条件的不确定数据序列扫描方法及系统在审
申请号: | 202110780355.7 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113344140A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 王文标;林瀚 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 剪枝 条件 不确定 数据 序列 扫描 方法 系统 | ||
本发明提出一种基于剪枝条件的不确定数据序列扫描方法和系统,充分利用概率计算过程中概率变化所满足的条件,以及K近邻问题只需找出前k大而无需求出具体值的特点,为传统的样本扫描算法设置剪枝条件,大大减少了算法需要扫描的样本数量,有效提高扫描效率。
技术领域
本发明涉及数据扫描技术领域,具体涉及一种基于剪枝条件的不确定数据序列扫描方法及系统。
背景技术
近年来,在空间数据库研究领域,K近邻算法是一个研究重点与热点。K近邻算法是在数据挖掘与机器学习中一种简单而常用的监督学习算法,在解决分类问题和回归问题中都有应用。公开号为CN102289466A的中国发明专利申请于2013年11月13日公开了一种基于区域覆盖的k近邻查询方法,通过将空间进行网格划分,数据点保存在对应的网格中,再将网格作为四分树的叶子结点存储起来,同时将网格作为一个移动对象保存在Voronoi图中,查询时首先根据对象的坐标找到其所在的网格,进而找到该网格在Voronoi图中的位置,该网格内的对象按照距离的升序组织成结果链表,同时根据Voronoi图把相邻的网格按距离的升序放入访问链表中,进行距离比较,最终找到该对象的K个最近邻。该方法综合利用Voronoi图和虚拟网格四分树的索引结构,利用哈希表快速查找定位,从而提高了查询的效率。
但随着时代的发展和社会的进步,不确定数据开始广泛存在于各个应用领域,传统的针对确定数据的K近邻算法对这些数据进行处理时,已经无法满足实际的应用需求。在现有的不确定数据序列扫描方法中,原有的样本扫描方式没有充分利用K近邻问题只需要找出前K大而无需求处具体值的特点,使得需要扫描的样本的数量远远超出实际需要的数量。
发明内容
本发明的目的是针对现有技术存在的缺陷,提供一种基于剪枝条件的不确定数据序列扫描方法及系统,大大减少扫描算法需要扫描的样本数量,提高算法效率。
为解决上述技术问题,本发明的技术方案如下:
一种基于剪枝条件的不确定数据序列扫描方法,设数据集D中有N个不确定数据序列,每个序列包含m个样本,给定查询序列Q和结果集大小k,包括以下步骤:
S1:计算数据集D中所有不确定序列Xi的所有样本与查询序列Q的距离将距离与样本所属不确定序列编号保存在samples数组中,使samples[(i-1)*m+j]·i=i,
S2:以distance为键值,对samples数组的元素建立小顶堆heap;
S3:初始化长度为N的scanned数组和res数组,使其所有元素为0,初始化变量logp=N*lnm;
S4:初始化大小为k的数据结构answer;
S5:循环从小顶堆heap的堆顶取元素直到堆空,每步执行如下过程:
S51:令当前元素为sample,i=sample.i,dis=sample.distance;
S52:计算当前样本对所属的不确定序列Xi的最邻近概率PNN(Q,Xi)的贡献elogp-ln(m-scanned[i])-N*lnm,将其更新累加到res数组的对应元素res[i]中;
S53:以(i,res[i])更新数据结构answer;
S54:更新scanned数组的对应元素,使scanned[i]+=1;
S55:判断scanned[i]是否与m相等,若是,则跳出循环结束扫描过程;
S56:更新变量logp+=ln(m-scanned[i])-ln(m-scanned[i]+1);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110780355.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种焚烧窑用推料机构
- 下一篇:基于样本扫描的不确定数据序列K近邻方法及系统