[发明专利]一种面向大规模数据集的两层活动聚类识别方法有效

申请号：	201810538902.9	申请日：	2018-05-30
公开（公告）号：	CN108875597B	公开（公告）日：	2021-03-30
发明（设计）人：	郑增威;杜俊杰;孙霖;霍梅梅;陈垣毅	申请（专利权）人：	浙江大学城市学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	杭州九洲专利事务所有限公司 33101	代理人：	张羽振
地址：	310015***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种面向大规模数据集的两层活动聚类识别方法，包括：1)基于稀疏编码的活动聚类；2)特征选择以及组分类器的训练；3)特征选择以及组内分类器的训练。本发明的有益效果是：本发明在大规模数据集上将活动按照相似度划分成不同组别，选择出更具针对性的特征，提高了活动识别的准确性；本发明的两层活动聚类识别模型的分类效果相比于单层的分类模型有着明显的提升，选择出的特征更具有针对性；本发明的特征选择方法更能选择出重要的特征，能使用更少的特征来达到令人满意度的分类准确度。
搜索关键词：	一种面向大规模数据活动识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种面向大规模数据集的两层活动聚类识别方法，其特征在于，包括如下步骤：1)基于稀疏编码的活动聚类1.1)对样本数据根据公式(1)进行稀疏编码，求解稀疏系数α，其中A是训练数据，D是字典，α是待求解的稀疏系数；A＝Dα (1)1.2)根据公式(2)计算不同活动类别之间的距离，得到n×n大小的矩阵M，n是活动类别数；其中Δi,j是活动Ai和Aj之间的距离，距离越小，活动之间越相似，f是特征的数量，Ni,k是1)中求解得到αi,k在第k个特征上非0系数的数量，Si是活动Ai的样本数量；1.3)根据矩阵M将互相选择的活动聚类到相同的活动组Gk中，得到初步活动组集G＝{G1,G2...Gk}，并将Ai和Aj从活动集A中移除；1.4)搜索活动集A，从矩阵M中查询每一个Ap∈A的最相似活动Aq,若Aq∈G，则将Ap加入Aq对应的活动组中，并将Ap从活动集A中移除；1.5)重复步骤1.4)，直至活动集A为空集，或者A中活动数量不再发生改变；1.6)若A不为空集，则将A中剩余所有活动聚类到一个新的活动组Gm中，将Gm加入G中；1.7)输出活动组集G，完成活动的分组；2)特征选择以及组分类器的训练2.1)根据步骤1)完成的活动组集，将同一个活动组看成同一类活动进行特征选择,特征选择方法如公式(3)所示：其中Wk是第k个特征的权重值,var(fk)是第k个特征的方差，var(fk,i)是第k个特征在活动i上的方差；2.2)根据步骤2.1)中选择出的特征进行组分类器训练，获得第一层分类器，该分类器用于将活动分类到某个活动组中；3)特征选择以及组内分类器的训练3.1)针对每个活动组，在不同的组内使用公式(3)分别进行特征选择；3.2)根据每个活动组中选择出的特征，分别进行组内分类器的训练，获得第二层分类器，该分类器用于将活动分类到最终具体的活动。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学城市学院，未经浙江大学城市学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810538902.9/，转载请声明来源钻瓜专利网。

上一篇：一种基于DSSNN神经网络的铁路场景图像语义分割方法
下一篇：一种指纹识别组件及其制作方法、电子设备

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种面向大规模数据集的两层活动聚类识别方法有效

专利文献下载