[发明专利]一种基于剪枝条件的不确定数据序列扫描方法及系统在审
申请号: | 202110780355.7 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113344140A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 王文标;林瀚 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 剪枝 条件 不确定 数据 序列 扫描 方法 系统 | ||
1.一种基于剪枝条件的不确定数据序列扫描方法,设数据集D中有N个不确定数据序列,每个序列包含m个样本,给定查询序列Q和结果集大小k,其特征在于,包括以下步骤:
S1:计算数据集D中所有不确定序列Xi的所有样本与查询序列Q的距离将距离与样本所属不确定序列编号保存在samples数组中,使samples[(i-1)*m+j]·i=i,
S2:以distance为键值,对samples数组的元素建立小顶堆heap;
S3:初始化长度为N的scanned数组和res数组,使其所有元素为0,初始化变量logp=N*lnm;
S4:初始化大小为k的数据结构answer;
S5:循环从小顶堆heap的堆顶取元素直到堆空,每步执行如下过程:
S51:令当前元素为sample,i=sample.i,dis=sample.distance;
S52:计算当前样本对所属的不确定序列Xi的最邻近概率PNN(Q,Xi)的贡献elogp-ln(m-scanned[i])-N*lnm,将其更新累加到res数组的对应元素res[i]中;
S53:以(i,res[i])更新数据结构answer;
S54:更新scanned数组的对应元素,使scanned[i]+=1;
S55:判断scanned[i]是否与m相等,若是,则跳出循环结束扫描过程;
S56:更新变量logp+=ln(m-scanned[i])-ln(m-scanned[i]+1);
S57:在扫描的每步中,当前任意不确定序列Xi的已累加概率res[i]与它最邻近概率满足不等式:
0≤PNN(Q,Xi)-res[i]≤elogp-N*lnm
因此,对于任意两个不确定序列Xi1和Xi2,若存在:
res[i1]-res[i2]>elogp-N*lnm
则有:
PNN(Q,Xi1)≥res[i1]>res[i2]+elogp-N*lnm≥PNN(Q,Xi2)
即只要res数组中第k大和第k+1大的元素之间的差超过elogp-N*lnm,那么最邻近概率前k大和第k+1大之间的差值diff,判断diff>elogp-N*lnm是否成立,则跳出循环结束扫描过程;
S6:获取数据结构answer中维护的答案。
2.根据权利要求1所述的一种基于剪枝条件的不确定数据序列扫描方法,其特征在于,在所述步骤S57中扫描的每步中,res[i]的增加量为:
elogp-ln(m-scanned[i])-N*lnm
其与elogp-N*lnm的减少量相同,因此,概率的累加为是来自elogp-N*lnm的分配。
3.根据权利要求1所述的一种基于剪枝条件的不确定数据序列扫描方法,其特征在于,在所述步骤S6中,所述数据结构answer维护着当前最大的k+1个已累加概率以及它们对应的不确定序列编号,其中包含以概率p为键值的小顶堆answer.heap,将编号i映射到堆中节点的映射表answer.map,以及当前大小answer.size。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110780355.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种焚烧窑用推料机构
- 下一篇:基于样本扫描的不确定数据序列K近邻方法及系统