[发明专利]一种蠕虫时间序列分类典型样本确认方法在审
申请号: | 202010922633.3 | 申请日: | 2020-09-04 |
公开(公告)号: | CN112115989A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 梁建海;宋新海;方英武;苗壮;景斌强 | 申请(专利权)人: | 西安外事学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00;G06N3/12 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 杨凤娟 |
地址: | 710077 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蠕虫 时间 序列 分类 典型 样本 确认 方法 | ||
本发明公开了一种蠕虫时间序列分类典型样本确认方法,首先,进行时序的类内欧氏距离计算,获得小于距离平均值的备选时序组和距离平均值;新时序进入类内训练,根据距离结果,确认该时序是否满足时序组距离要求,达到要求,进入时序组;其次,对备选时序组与其它类型时序之间的类间距离进行计算;对新时序与其它类的典型时序组进行计算,确定与类间距离的关系,大于类间距离则新时序完全符合典型时序样本的要求;最后,检验其分类准确率,作出相应的标记;采用公认时序数据库进行实验验证,结果证明,蠕虫时间序列分类典型样本确认方法可以获得每个类型的典型样本,确保样本的有效性,类型划分更清晰。
技术领域
本发明涉及模式分类中的增量学习技术领域,具体涉及一种蠕虫时间序列分类典型样本确认方法。
背景技术
模式分类的建模过程中,训练样本往往由人为划分产生,训练集样本的数量对于获取充分信息量具有明确的作用,训练样本数量过小,获得的信息量不能够完成代表样本数量,无法完成学习任务;同样,样本数量过大,也会造成冗余样本带来的过拟合,造成泛化能力下降,因此,如何从已知时序类型的时间序列原始样本中选定合适的训练样本,去除重复信息和导致过拟合的样本,成为影响模式分类效果的关键因素之一;
时间序列分类的典型样本集需要具有普遍性和代表性,确保从训练样本集中获得的分类结果对于所有样本都适用,为完成这个目标,需要给出定量的指标来衡量训练样本集的典型性;
现有技术利用统计分析技术和类属函数,通过计算训练样本集中样本的相关类属度值对训练样本的典型性进行度量,度量过程采用的方法包括计算样本的相关性检验和对样本进行聚类分析,所获得的典型样本集都来自空间距离近的点,而距离较远的点会从样本集中分离出来,但采用相关性分析和聚类分析后获得的样本,由于缺乏类别判断的检验,分类能力可能会出现明显下降;同时,增量样本加入时,需要进行全部样本的重新学习,典型样本的加入需要进行全部学习,分类结果会受到较大的影响。
典型样本的选取过程中,把整个样本集都作为候选样本,逐一加入到训练集中,对模型进行训练;模型训练包括神经网络等模型。训练误差满足要求的前提下,选择信息量最大的样本加入训练集,更新网络训练过程。但基于上述方式所获得的典型样本受最终样本数量的影响,当样本集中含有明确的干扰性样本,数据噪声偏大,会对典型样本集的确认产生影响;
采用类属函数的目标是确保在最终典型训练样本集中尽可能多地保留有类属值最大的训练样本,但由于被评估个体距离最近的训练样本数由人为设定,类属定义属于人工判断而不按照计算结果进行;同时,获取相关性相当显著的训练样本时,只最终采用其中的某一个样本作为典型样本,从高维属性的角度限制了数据在每个维度的投影;所得上述样本集会偏离真实意义上的数据位置,最终造成分类结果的准确性下降;
在遗传学的而研究过程中,根据运动爬行痕迹对蠕虫类型进行区别是遗传学研究的重要方法,蠕虫在平板上的运动轨迹表示为时间序列,这些时序序列具有相应的类型标志,如何确保时间序列样本在分类过程中的作用,需要对样本的典型性进行确认,而在现有技术中,并没有关于蠕虫运动样本典型性确认的研究。
发明内容
针对上述存在的问题,本发明旨在提供一种蠕虫时间序列分类典型样本确认方法,通过对蠕虫训练样本进行类内的欧氏距离计算,按类内距离和对样本进行排序,选择距离值大于类内均值的时序组,对更新状态下的新时序和时序组进行距离计算,根据其距离值,确定该时间是否符合时序组的要求,判断时序类型,进而判断蠕虫类型,本方法能够确保典型时序最大限度逼近真实样本,具有确保在样本更新状态下,典型时序能够确保其类内距离最小,更新过程不需要进行样本的全部遍历计算的特点。
为了实现上述目的,本发明所采用的技术方案如下:
一种蠕虫时间序列分类典型样本确认方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安外事学院,未经西安外事学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010922633.3/2.html,转载请声明来源钻瓜专利网。