[发明专利]一种海量数据多模态特征抽取与模式识别方法与系统在审
申请号: | 201810804121.X | 申请日: | 2018-07-20 |
公开(公告)号: | CN109034236A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 李臣明;徐立中;陈哲;王慧斌;张丽丽;王鑫;石爱业 | 申请(专利权)人: | 河海大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 俞晓明 |
地址: | 211199 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 海量数据 预处理 数据预处理模块 特征分析模块 多模态特征 模式识别 特征抽取 特征选择 抽取 结果输出模块 模式识别技术 模式识别模块 特征抽取模块 时间复杂度 高维数据 镜头切割 特征集合 特征数据 特征维数 提取信息 训练样本 样本类别 原始信息 视频段 特征词 误操作 放入 分词 数据库 损害 | ||
1.一种海量数据多模态特征抽取与模式识别方法,其特征在于:该方法的具体步骤如下:
S1:从多模态的海量数据中选择一个特征值,使得该特征值与已入选的特征组合到一起所得到的可分性判断依据最大,直到特征数增加到M为止,用Xk表示在第k步时的特征集合,其搜索算法如下:
S11:开始时,从N个特征中选择一个J(xi)最大的特征,加入已选特征集,X1{xi};
S12:在第k步,Xk中包含已经选择的k个特征,对未入选的N—k个特征计算,J(Xk∪{xj}),其中j=1,2,…,N-k,并且按照由大到小排序,将可分性判断依据最大的特征xi加入的Xk,Xk+1=Xk∪{xi};
S13:直到所选的特征数等于M为止;
S2:采用基于离散变换的方式进行特征抽取,即:
S21:设原始特征N为矢量X=(x1,x2,…,xN)T,均矢量m=E[X],相关矩阵协方差矩阵对X作标准正交变换,将其变为矢量Y=(y1,y2,…,yN)T;
S22:进行特征抽取时,用Y的M项来代替X,这种代替必然会存在误差,并对该误差进行估计,即:令引入的均方误差为
S23:当要从N维特征中抽取M维特征时,只需统计出相关矩阵RX,然后计算其特征值和特征矢量,选择对应特征值最大的前M个特征矢量作为N×M特征变换矩阵T;
S3:采用c均值聚类算法对特征抽取去除冗余。
2.根据权利要求1所述的一种海量数据多模态特征抽取与模式识别方法,其特征在于:所述步骤S23中,特征抽取的具体过程为:利用训练样本集合估计出相关矩阵计算RX的特征值,并由大到小排序;选择前M个特征矢量作为一个变换矩阵T=[T1,T2,…TM];在训练和模式识别时,每一个输入N维特征矢量X可转换为M维的新特征矢量Y=TTX。
3.根据权利要求1所述的一种海量数据多模态特征抽取与模式识别方法,其特征在于:所述步骤S3中,c均值聚类算法的具体步骤为:
S31:选择初始划分,并计算每个聚类的均值以及误差平方和;
S32:选择一个备选样本y,设y∈Γi;
S33:若样本数目为1,则转入S32中,否则继续;
S34:计算ρj,当j≠i时,当j=i时,
S35:考察ρj中的最小者ρk,若ρk<ρi,则把y从Γi移到Γk中;
S36:重新计算聚类i和k的值,并修改误差平方和。
4.一种海量数据多模态特征抽取与模式识别系统,其特征在于:包括数据预处理模块、特征分析模块、特征抽取模块、模式识别模块、数据库以及结果输出模块;
所述数据预处理模块对海量数据原始信息进行去燥、分词以及视频段的镜头切割的预处理,并将处理后的信息分别传送到所述特征分析模块中;
所述特征分析模块用于提取信息内容中的特征词,并将其放入已选特征集合中;
所述特征抽取模块通过离散变换的方式经过分类后的数据进行特征抽取,并上传至所述模式识别模块中;
所述模式识别模块利用高斯平滑的方式对数据进行处理,并消除不规则的噪声;
所述结果输出模块与系统主机之间进行通信,将经过特征抽取和模式识别过滤后的结果输出至显示屏显示;
所述数据库用于存储数据信息,同时通过RS-232串口由系统主机实时调用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810804121.X/1.html,转载请声明来源钻瓜专利网。