[发明专利]一种海量数据多模态特征抽取与模式识别方法与系统在审
申请号: | 201810804121.X | 申请日: | 2018-07-20 |
公开(公告)号: | CN109034236A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 李臣明;徐立中;陈哲;王慧斌;张丽丽;王鑫;石爱业 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 俞晓明 |
地址: | 211199 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了模式识别技术领域的一种海量数据多模态特征抽取与模式识别方法及系统,包括数据预处理模块、特征分析模块、特征抽取模块、模式识别模块、数据库以及结果输出模块;所述数据预处理模块对海量数据原始信息进行去燥、分词以及视频段的镜头切割的预处理,所述特征分析模块用于提取信息内容中的特征词,并将其放入已选特征集合中;本发明通过数据的预处理选择特征值,这对高维数据的特征选择和特征抽取,得到训练样本少且特征维数高的特征数据集,并同时在样本类别数未知的情况下设计时间复杂度较低的特征选择,采用c均值聚类算法得到特征抽取值,其计算的误差小,避免各种误操作和故障带来的危险和损害。 | ||
搜索关键词: | 海量数据 预处理 数据预处理模块 特征分析模块 多模态特征 模式识别 特征抽取 特征选择 抽取 结果输出模块 模式识别技术 模式识别模块 特征抽取模块 时间复杂度 高维数据 镜头切割 特征集合 特征数据 特征维数 提取信息 训练样本 样本类别 原始信息 视频段 特征词 误操作 放入 分词 数据库 损害 | ||
【主权项】:
1.一种海量数据多模态特征抽取与模式识别方法,其特征在于:该方法的具体步骤如下:S1:从多模态的海量数据中选择一个特征值,使得该特征值与已入选的特征组合到一起所得到的可分性判断依据最大,直到特征数增加到M为止,用Xk表示在第k步时的特征集合,其搜索算法如下:S11:开始时,
从N个特征中选择一个J(xi)最大的特征,加入已选特征集,X1{xi};S12:在第k步,Xk中包含已经选择的k个特征,对未入选的N—k个特征计算,J(Xk∪{xj}),其中j=1,2,…,N‑k,并且按照由大到小排序,将可分性判断依据最大的特征xi加入的Xk,Xk+1=Xk∪{xi};S13:直到所选的特征数等于M为止;S2:采用基于离散变换的方式进行特征抽取,即:S21:设原始特征N为矢量X=(x1,x2,…,xN)T,均矢量m=E[X],相关矩阵
协方差矩阵
对X作标准正交变换,将其变为矢量Y=(y1,y2,…,yN)T;S22:进行特征抽取时,用Y的M项来代替X,这种代替必然会存在误差,并对该误差进行估计,即:令
引入的均方误差为
S23:当要从N维特征中抽取M维特征时,只需统计出相关矩阵RX,然后计算其特征值和特征矢量,选择对应特征值最大的前M个特征矢量作为N×M特征变换矩阵T;S3:采用c均值聚类算法对特征抽取去除冗余。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810804121.X/,转载请声明来源钻瓜专利网。