[发明专利]一种海量数据多模态特征抽取与模式识别方法与系统在审
申请号: | 201810804121.X | 申请日: | 2018-07-20 |
公开(公告)号: | CN109034236A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 李臣明;徐立中;陈哲;王慧斌;张丽丽;王鑫;石爱业 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 俞晓明 |
地址: | 211199 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量数据 预处理 数据预处理模块 特征分析模块 多模态特征 模式识别 特征抽取 特征选择 抽取 结果输出模块 模式识别技术 模式识别模块 特征抽取模块 时间复杂度 高维数据 镜头切割 特征集合 特征数据 特征维数 提取信息 训练样本 样本类别 原始信息 视频段 特征词 误操作 放入 分词 数据库 损害 | ||
本发明公开了模式识别技术领域的一种海量数据多模态特征抽取与模式识别方法及系统,包括数据预处理模块、特征分析模块、特征抽取模块、模式识别模块、数据库以及结果输出模块;所述数据预处理模块对海量数据原始信息进行去燥、分词以及视频段的镜头切割的预处理,所述特征分析模块用于提取信息内容中的特征词,并将其放入已选特征集合中;本发明通过数据的预处理选择特征值,这对高维数据的特征选择和特征抽取,得到训练样本少且特征维数高的特征数据集,并同时在样本类别数未知的情况下设计时间复杂度较低的特征选择,采用c均值聚类算法得到特征抽取值,其计算的误差小,避免各种误操作和故障带来的危险和损害。
技术领域
本发明公开了一种海量数据多模态特征抽取与模式识别方法与系统,具体为模式识别技术领域。
背景技术
模式识别是一个与人类的认知、视觉和听觉紧密相连的问题,其核心研究问题之一就是特征抽取。从模式样本的原始信息中提炼出最有利于模式分类的有效信息即为特征抽取,因此,在特征抽取的过程中,其本质可以看成在一定准则下的优化问题,同时在特征抽取的过程中也极大的降低了模式分类的维数。在众多的科学领域的研究中,科学工作者经常需要处理海量的多模态数据,如全球气候模式、恒星光谱、人类基因分布以及遥感和视频图像等,因此,模式的特征提取问题的研究具有广泛的应用前景。
在现有的多模态特征抽取与模式识别方法中,均没有考虑到稳定模态之间的过渡模态,且在过渡状态下,过程更容易遭受各种误操作和故障带来的危险和损害。为此,我们提出了一种海量数据多模态特征抽取与模式识别方法与系统投入使用,以解决上述问题。
发明内容
本发明的目的在于提供一种海量数据多模态特征抽取与模式识别方法与系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种海量数据多模态特征抽取与模式识别方法及系统,该方法的具体步骤如下:
S1:从多模态的海量数据中选择一个特征值,使得该特征值与已入选的特征组合到一起所得到的可分性判断依据最大,直到特征数增加到M为止,用Xk表示在第k步时的特征集合,其搜索算法如下:
S11:开始时,从N个特征中选择一个J(xi)最大的特征,加入已选特征集,X1{xi};
S12:在第k步,Xk中包含已经选择的k个特征,对未入选的N—k个特征计算,J(Xk∪{xj}),其中j=1,2,…,N-k,并且按照由大到小排序,将可分性判断依据最大的特征xi加入的Xk,Xk+1=Xk∪{xi};
S13:直到所选的特征数等于M为止;
S2:采用基于离散变换的方式进行特征抽取,即:
S21:设原始特征N为矢量X=(x1,x2,…,xN)T,均矢量m=E[X],相关矩阵协方差矩阵对X作标准正交变换,将其变为矢量Y=(y1,y2,…,yN)T;
S22:进行特征抽取时,用Y的M项来代替X,这种代替必然会存在误差,并对该误差进行估计,即:令引入的均方误差为
S23:当要从N维特征中抽取M维特征时,只需统计出相关矩阵RX,然后计算其特征值和特征矢量,选择对应特征值最大的前M个特征矢量作为N×M 特征变换矩阵T;
S3:采用c均值聚类算法对特征抽取去除冗余。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810804121.X/2.html,转载请声明来源钻瓜专利网。