[发明专利]一种基于多视图集成学习的语义化活动识别方法有效
申请号: | 201610918275.2 | 申请日: | 2016-10-21 |
公开(公告)号: | CN106502398B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 吕明琪;陈铁明 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06N20/00;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于加速度传感器和多视图集成学习的语义化活动识别方法,包括如下步骤:(1)基于简单身体活动描述语义化活动,构建简单身体活动特征视图;(2)基于潜在主题分布描述语义化活动,构建潜在主题分布特征视图;(3)基于半监督技术对多种视图进行协同学习,并对学习结果进行融合得到语义化活动识别模型。本发明基于多视图描述语义化活动,提高了识别模型的泛化能力和适应能力;基于协同学习技术利用未标注数据训练识别模型,克服了有标注样本不足的问题。 | ||
搜索关键词: | 一种 基于 加速度 传感器 视图 集成 学习 语义 活动 识别 方法 | ||
【主权项】:
1.一种基于多视图集成学习的语义化活动识别方法,其特征在于:所述语义化活动识别方法包括以下步骤:(1)基于简单身体活动描述语义化活动,构建简单身体活动特征视图,步骤如下:(1‑1)简单身体活动识别模型训练:给定一个简单身体活动训练集,即大量标注了简单身体活动类型、长度为w的加速度数据序列,首先,从每个加速度数据序列中抽取各类时域特征和频域特征,形成运动特征向量;然后,基于运动特征向量和简单身体活动类型标注,训练得到简单身体活动识别模型;(1‑2)简单身体活动序列生成:对每一个语义化活动样本,即一个长度为W的加速度数据序列,其中W>w,首先,将其分割为多个大小为w的数据窗口,形成数据窗口序列;然后,从每个数据窗口中抽取上述运动特征向量,并将其输入训练得到的简单身体活动识别模型,得到简单身体活动识别结果;最后,将数据窗口序列转化为简单身体活动序列;(1‑3)简单身体活动特征视图构建:首先,从每个简单身体活动序列中抽取简单身体活动特征,包括如下三类:集合特征:计算每种简单身体活动类型出现次数与简单身体活动序列长度的比值;序列特征:首先,将简单身体活动序列中所有连续出现的同类型多个简单身体活动压缩为1个,得到压缩简单身体活动序列;然后,从压缩简单身体活动序列中挖掘出长度为2到长度为M的所有序列模式;最后,计算每个序列模式在简单身体活动序列所对应的压缩简单身体活动序列中出现的次数;时间特征:首先,计算每种简单身体活动类型的所有单次持续时间;然后,计算每种简单身体活动类型单次持续时间的均值、中值和标准差;然后,基于上述简单身体活动特征构建特征向量,并将其作为描述语义化活动的简单身体活动特征视图;(2)基于潜在主题分布描述语义化活动,构建潜在主题分布特征视图,步骤如下:(2‑1)加速度数据序列窗口化:对每一个语义化活动样本,将其分割为多个大小为w的数据窗口,形成数据窗口序列;然后,从每个数据窗口中抽取上述运动特征向量,并对运动特征向量进行归一化;(2‑2)数据窗口聚类序列生成:首先,基于运动特征向量间的欧式距离度量数据窗口间距离,对数据窗口进行聚类,使得每个数据窗口对应一个数据窗口聚类;然后,将数据窗口序列转化为数据窗口聚类序列;(2‑3)潜在主题分布特征视图构建:首先,将数据窗口聚类看成“词”,将数据窗口聚类序列看成“文档”,基于LDA算法挖掘潜在主题,并得到“文档”的“主题”分布;然后,基于“文档”的“主题”分布得到数据窗口序列包含不同潜在主题的概率向量,并将其作为描述语义化活动的潜在主题分布特征视图;(3)基于半监督技术对两种特征视图进行协同学习,并对学习结果进行融合得到语义化活动识别模型;给定有标注语义化活动样本集L和无标注语义化活动样本集U,训练语义化活动识别模型的步骤如下:(3‑1)有监督训练:首先,基于简单身体活动特征视图为L中所有样本构建简单身体活动特征向量,并基于语义化活动类型标注和简单身体活动特征向量训练识别模型SM;然后,基于潜在主题分布特征视图为L中所有样本构建潜在主题分布特征向量,并基于语义化活动类型标注和潜在主题分布特征向量训练识别模型TM;(3‑2)半监督训练:首先,基于识别模型SM对U中所有样本进行识别,为每类语义化活动挑选出识别置信度最高的n个样本,将识别结果作为其标注,得到伪标注样本集并放入L;然后,基于识别模型TM对U中所有样本进行识别,为每类语义化活动挑选出识别置信度最高的n个样本,将识别结果作为其标注,得到伪标注样本集并放入L;(3‑3)算法迭代:若U中样本数量不足或迭代次数超过指定阈值,则输出SM和TM,反之,则转向步骤(3‑1);(3‑4)模型融合:对有标注语义化活动样本集L中每一个样本,分别使用SM和TM对其进行识别,得到SM和TM识别其为每类语义化活动的概率,进而得到2个概率向量;然后,将这2个概率向量和语义化活动类型标注作为新的样本,构建新的样本集NL;最后,基于NL、采用Logistic Regression算法训练得到最终的语义化活动识别模型FM。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610918275.2/,转载请声明来源钻瓜专利网。