[发明专利]一种基于标签转移及LSTM模型的人像语义分析的方法及系统在审
申请号: | 201511028331.7 | 申请日: | 2015-12-29 |
公开(公告)号: | CN105678297A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 张冲;赵志宏;陈松宇;黄积杨 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标签 转移 lstm 模型 人像 语义 分析 方法 系统 | ||
技术领域
本发明属于目标检测与图片识别领域,涉及一种基于标签转移及LSTM(时间递归神经网 络)模型的人像图片语义分析的方法。
背景技术
人像图片语义分析在视频监控,虚拟现实,图片搜索,机器学习等领域有广泛的应用, 也是计算机视觉和模式识别领域的重要研究方向。常见的方法分为2种,一种是管道式的方 法,将人像语义分析分成人像的标注,和自然语言描述的生成2个部分。其中常见的方法有 基于行人检测提取包含人像的部位,基于图片的分割和CRF(条件随机场)模型完成人像的 部位标注,然后基于RNN(递归神经网络)构建语言模型,生成自然语言描述。另一种是直 达式的,直接将图片直接转化成自然语言的描述。常见的方法有基于深度学习的卷积神经网 络和递归神经网络构建模型的方法。方法一的优点在于将整个分析过程细分到人像分割,人 像特征提取和部位标注,自然语言描述生成这几个部分,每个部分可以独立调试,并且每个 部分可以很方便地更换算法,不会影响到其他部分的调试。缺点在于每个部分的误差都会对 最终结果造成影响,最终结果需要反复调试。第二种方法的优点在于不需要细分到以上提到 的几个部分,然后利用卷积神经网络在图片特征提取的优势,更好的利用这些特征完成语义 描述,缺点在于调试的难度大大增加。
人像图片语义描述目前的研究大多关注于图片的整体描述,即人像和背景环境的描述, 没有对人像进行细粒度的描述。为了使得描述更加细粒度,有必要对人像进行细粒度的分析 和语义描述。
LSTM(时间递归神经网络)模型采用了特殊隐式单元被证明比传统的RNNs(递归神经 网络)更加有效。目前LSTM(时间递归神经网络)网络或者相关的门控单元同样用于编码 和解码网络,并且在机器翻译中表现良好。
发明内容
本发明的内容在于提供一种基于标签转移及时间递归神经网络模型的人像图片细粒度语 义分析的方法。主要是为单幅图片中的人像提供语言描述,是一中从图片到文本的方法。
为了实现上诉方法的目的,本发明采用的技术方案如下:
基于标签转移及LSTM模型的人像图片细粒度语义分析的方法,包含三个模块:人像检 测模块、人像主要部位标注模块、自然描述语言生成模块。其包含以下步骤:
1)采用BING显著性检测算法预处理图片,提取可能包含人像的候选矩形区域,每个矩 形区域都会相应的得分,得分越高,表示该矩形区域含有物体的可能性越大。候选区域的数 目大概2000个;
2)提取候选矩形区域的左上和右下角的坐标信息,利用IOU算法计算相似矩阵,然后在 利用图谱聚类算法聚类。
相似矩阵的计算公式为:
其中:r(i,j)表示区域i和区域j的相似度,s(i),s(j)表示位置信息,si,sj表示区 域i和区域j的面积,st表示区域i和区域j的重叠面积。
st的计算公式为:st=|min(xi1.xj1)-max(xi0,xj0)|*|min(yi1,yj1)-max(yi0,xi0)|
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201511028331.7/2.html,转载请声明来源钻瓜专利网。