[发明专利]音视频融合的人员入侵检测方法无效
申请号: | 201210455136.2 | 申请日: | 2012-11-13 |
公开(公告)号: | CN102982634A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 张重阳;王德富;郑世宝 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G08B13/00 | 分类号: | G08B13/00;G06K9/00;G10L15/14 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 融合 人员 入侵 检测 方法 | ||
技术领域
本发明涉及一种信息检测领域的方法,具体地,涉及一种音视频融合的人员入侵检测方法。
背景技术
人员入侵检测是广泛应用于智能视频监控。它不仅需要高精度,而且需要很高的实时性能。大多数方法不能同时满足这两个要求。一些简单的运动检测方法可以很容易满足实时性,但虚警率高,如帧差法、背景差分法,它们对光照非常敏感。虽然光流法受光照影响很小,但是巨大的计算量很难满足实时性要求。这类基于运动检测的方法于人员入侵检测,并不能排除动物入侵和光照变化带来的虚警。
最近,Dalal和Triggs提出了一个人员检测方法,论文名称《Histograms of oriented gradients for human detection》(IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2005年),具有很好的检测结果。他们的方法使用方向梯度的直方图的(Histograms of Oriented Gradients,HOG)。这种方法被证实完全可以使用线性支持向量机进行行人分类识别。但这种方法的局限是只能处理320x240的图像。用一种稀疏的扫描方法,大概每幅图像要分割成800个检测窗口。此外,如果人的一部分被挡住,在那个区域的HOG特征经过线性支持向量机判决后归为负样本类。
近年来音视频(Audio and Video,AV)融合算法在视频监控领域的应用已受到关注。音视频协同矩阵能成功地检测和区分异常的音视频事件。然而,在一个不可预知的环境中,很难区分异常的音视频事件是由小动物或光照变化还是由人员入侵引起的。在论文《Semi-supervised adapted HMMs for unusual event detection》(IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2005年)中提出基于音频和视觉模式训练出一个增量的结构化HMM用于检测异常事件的方法,但这种方法要求原始声音信号段的长度至少为2秒,很难满足实时检测的性能。使用音视频融合用于事件检测比用于跟踪的少很多,有待进一步研究。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种音视频融合的人员入侵检测方法,实现更好的实时性和检测精度的平衡。
为实现上述目的,本发明提供一种音视频融合的人员入侵检测方法,包括如下步骤:
步骤一,基于HOG通过检测区域收缩法进行快速人体识别。
本步骤分为两小步:
(1)提取时空检测区域:使用自适应高斯混合模型(Gaussian Mixture Model,GMM)进行前景提取,在时域上采用间隔检测策略(Interval Detection Strategy,IDS),把图像在宽度上分成K部分计算每个子区间的前景像素数量占整个前景的比例(Ratio,R),计算出来的子区间的值大于阈值即被选为检测区域,对于上述得到的检测区域做不平衡扩展(Unbalanced Extension,UBD)和重叠消除(Overlap Elimination,OVE)。
(2)在最终得到的区域上做基于HOG特征提取和人体识别检测。
步骤(1)中,所述的间隔检测是为了满足实时性的要求,在得到的检测区域上做不平衡扩展是因为一个区域不能完整的包含所要检测的目标,并且与之相邻的一个区域可能包含目标其余的大部分信息,然而做完不平衡扩展之后,所得区域可能存在很多重叠的部分,为了避免重复检测和节省系统资源,所以最后要做重叠消除,就得到了检测目标所在的区域。
步骤二,根据步骤一识别出的人体目标,基于MFCC使用高斯混合模型(GMM)分类器进行实时脚步识别。
将音频信号分成固定长度为Wa(Wa小于0.2S)的重叠时间窗口,由于行走特性,一个人在1秒之内一般行走2至3步,因此会存在至少两个段会被归为非脚步,为了提高步骤三中融合算法的精度,将结果做些修正,若之前1s内有至少2次是脚步声,则当前段若被检测为非脚步声更正为脚步声。
步骤三,基于贝叶斯网络(Bayesian Network,BN)的音视频融合决策。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210455136.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:低排放发电厂
- 下一篇:一种燃气管道在役焊接行为的结构分析方法