[发明专利]基于样本扫描的不确定数据序列K近邻方法及系统在审
申请号: | 202110780361.2 | 申请日: | 2021-07-09 |
公开(公告)号: | CN113344141A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 王文标;林瀚 | 申请(专利权)人: | 中山大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 样本 扫描 不确定 数据 序列 近邻 方法 系统 | ||
本发明提出一种基于样本扫描的不确定数据序列K近邻方法,包括通过计算所有不确定序列的所有样本与查询序列的距离,将距离与样本所属不确定序列编号一同进行保存和排序;构建并初始化第一数组、第二数组和控制变量;对排序后的样本数组从第一个样本开始扫描;根据控制变量计算当前样本对其所属的不确定序列的概率贡献后更新累加到第二数组对应的元素中并根据当前样本所属的不确定序列更新第一数组对应的元素;判断待测不确定序列在第一数组中对应的元素是否不小于每个不确定序列的样本数,若是,则待测不确定序列的所有样本已经完成扫描,找出其中最大的K个元素;否则,扫描下一个样本;本方法高效解决了不确定序列的K近邻问题。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于样本扫描的不确定数据序列K近邻方法及系统。
背景技术
随着信息采集技术的发展进步和现实应用中需求的不断增大,不确定数据开始大量地出现。不确定数据已经广泛存在于各个应用领域,而传统的针对确定数据的管理和挖掘的技术无法有效地对这些数据进行处理,也就不能满足现实应用的要求。因此,针对不确定数据的管理和挖掘的问题开始进入人们的视野,并得到越来越多的重视。
K近邻算法是在数据挖掘与机器学习中一种简单而常用的监督学习算法,在解决分类问题和回归问题中都有应用。公开号为CN109522408A的中国发明专利申请于2019年3月26日公开了一种信息流素材创意文本的分类方法,包括基于关联分析提取频繁特征词集合及其关联的训练文本和利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数K,再基于近邻类别进行文本分类。该方法在执行分类时虽然降低时间复杂度,且能够较好提高分类的准确性,但其并不适用于不确定序列模型的K近邻问题,无法保证比朴素算法更优的时间复杂度。
发明内容
本发明的目的是针对现有技术存在的缺陷,提供一种能高效解决不确定序列的k近邻问题的基于样本扫描的不确定数据序列K近邻方法及系统。
为解决上述技术问题,本发明的技术方案如下:
基于样本扫描的不确定数据序列K近邻方法,包括以下步骤:
S1:获取待计算的数据集,包括所有不确定序列和查询序列;
S2:计算所有不确定序列的所有样本与查询序列的距离,将距离与样本所属不确定序列编号一同保存在样本数组中;
S3:根据距离从小到大对样本数组进行排序;
S4:构建第一数组、第二数组和控制变量,并对第一数组、第二数组和控制变量进行初始化;
其中:所述第一数组用于记录每个不确定序列已被扫描的样本数;所述第二数组用于记录当前扫描到的样本为每个不确定序列累加的概率贡献;控制变量用于计算当前样本对其所属的不确定序列的概率贡献;
S5:对排序后的样本数组从第一个样本开始扫描;根据控制变量计算当前样本对其所属的不确定序列的概率贡献后更新累加到第二数组对应的元素中,同时,根据当前样本所属的不确定序列更新第一数组对应的元素;
S6:判断待测不确定序列在第一数组中对应的元素是否不小于每个不确定序列的样本数,若是,则待测不确定序列的所有样本已经完成扫描,执行步骤S7;否则,返回步骤S5,扫描下一个样本;
S7:扫描第二数组,找出其中最大的K个元素,其在数组的位置即是带计算数据集中的K近邻的编号。
其中,在所述步骤S1中,待计算的数据集D包括N个不确定序列和查询序列Q,其中,第i个不确定序列Xi的所有样本表示为1≤i≤N,1≤j≤m,m为不确定序列Xi的样本数量;
因此,在所述步骤S2中,所有不确定序列Xi的所有样本与查询序列Q的距离表示为将距离与样本所属不确定序列编号i一同保存在样本数组samples中,使得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110780361.2/2.html,转载请声明来源钻瓜专利网。