[发明专利]一种人脸自动标注方法及系统有效
申请号: | 201310115471.2 | 申请日: | 2013-04-03 |
公开(公告)号: | CN103218603A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 丁宇新;张逸彬;燕泽权;戴蔚;高德坤;柴光忍 | 申请(专利权)人: | 哈尔滨工业大学深圳研究生院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/54;G06K9/62 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科;孙伟 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 标注 方法 系统 | ||
技术领域
本发明涉及一种人脸标注方法及系统,尤其涉及一种进行人脸自动准确标注方法及系统。
背景技术
视频人脸标注是视频信息挖掘的一种,现存并通用的技术是使用人工方式进行标注,其标注流程如图1。在传统手工标注的过程中,效率低下,耗时耗力。并且由于存在人为差异可能导致前后标注不一致。现有技术的视频人脸自动标注也只是基本处于实验研究阶段,并没有一个有效、稳定并且能准确自动标注的系统出现。
发明内容
本发明解决的技术问题是:构建一种人脸自动标注方法及系统,克服现有技术不具备有效、稳定并且能准确的自动标注系统的技术问题。
本发明的技术方案是:提供一种人脸自动标注方法,包括如下步骤:
人脸检测:从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻一帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列;
说话人脸序列标注:通过唇动检测模块根据人脸序列中说话人的唇动,检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;
未说话人脸序列标注:先对训练样本中的所有已经完成分类的人脸进行编码,对所有训练人脸通过LC-KSVD算法学习得到一个编码字典,当编码字典学习完成后,计算各个未分类的人脸的编码,用PSM方法定位特征,仿射变换,提取人脸特征并归一化后,使用LC-KSVD算法对该序列人脸的提取出的特征进行编码,并与已经学习到的编码字典进行匹配,设置一个阈值,当两个编码值的欧氏距离小于该阈值时,表示匹配成功,视频人脸分类是通过统计的方法进行分类的,完成标注功能。
本发明的进一步技术方案是:在人脸检测步骤中,还包括对截取的人脸图片进行肤色过滤,首先统计出人脸肤色的阈值特征,进而建立一个肤色模型,最终利用这个肤色模型对人脸图片进行基于像素点的数值分析,将不符合要求的图片过滤掉。
本发明的进一步技术方案是:在人脸检测步骤中,还包括对截取的人脸图片进行唇动过滤,利用嘴部区域在人脸中的几何特征,按照数值比例得到嘴部区域,同时统计人脸中唇色的阈值特征,从而建立唇色模型,最终利用这个唇色模型对经过肤色模型过滤后的人脸图片集合进行数值比对,将那些蕴含在人脸图片集合中的杂质过滤掉。
本发明的进一步技术方案是:在获取人脸序列过程中,在视频镜头在提取结束后,再在将同一镜头内的相邻序列的最后一个图像和前一序列的第一个图像再使用一次跟踪算法,此时调低阈值再检查是否可以聚合到一起,将断裂的序列聚合起来。
本发明的进一步技术方案是:建立数据坐标,横轴为时间、纵轴为姓名、坐标为说话内容,将时间、姓名和说话内容三者融合。
本发明的进一步技术方案是:在人脸跟踪过程设置人脸序列长度下限,将错误人脸剔除。
本发明的技术方案是:构建一种人脸自动标注系统,包括人脸检测单元、说话人脸序列标注单元、未说话人脸序列标注单元,所述人脸检测单元从截取的视频中检测出人脸,获取人脸图片集合,然后过滤出人脸图片集合,同时,获取相邻一帧图片的HSV颜色直方图差值,采用空间颜色直方图的镜头边缘检测算法进行镜头分割,对来自相邻帧的人脸,检测第一帧的目标区域内角点,并使用局部匹配的方法将这些角点延递给下一帧,并进行相应的更新,并统计匹配个数,依据匹配个数的阈值,依此进行下去获取人脸序列;所述说话人脸序列标注模块通过唇动检测模块根据人脸序列中说话人的唇动检测出说话人和未说话人,将说话人、说话内容及说话时间三者融合进行标注;所述未说话人脸序列标注模块读入每个序列上的人脸,逐个定位,再根据定位结果进行仿射变换,并提取变换后特征点附近固定大小圆形区域内的像素灰度值,作为该人脸特征。
本发明的进一步技术方案是:所述未说话人脸序列标注单元还包括分类模块,所述分类模块先对训练样本中的所有已经完成分类的人脸进行编码,对所有训练人脸通过LC-KSVD算法学习得到一个编码字典,当编码字典学习完成后,然后计算各个未分类的人脸的编码,然后进行匹配,设置一个阈值,当两个编码值的欧氏距离小于该阈值时,表示匹配成功。视频人脸分类是通过统计的方法进行分类的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学深圳研究生院,未经哈尔滨工业大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310115471.2/2.html,转载请声明来源钻瓜专利网。