[发明专利]一种基于标签转移及LSTM模型的人像语义分析的方法及系统在审

申请号：	201511028331.7	申请日：	2015-12-29
公开（公告）号：	CN105678297A	公开（公告）日：	2016-06-15
发明（设计）人：	张冲;赵志宏;陈松宇;黄积杨	申请（专利权）人：	南京大学
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/46;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于标签转移 lstm 模型人像语义分析方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于目标检测与图片识别领域，涉及一种基于标签转移及LSTM(时间递归神经网络)模型的人像图片语义分析的方法。

背景技术

人像图片语义分析在视频监控，虚拟现实，图片搜索，机器学习等领域有广泛的应用，也是计算机视觉和模式识别领域的重要研究方向。常见的方法分为2种，一种是管道式的方法，将人像语义分析分成人像的标注，和自然语言描述的生成2个部分。其中常见的方法有基于行人检测提取包含人像的部位，基于图片的分割和CRF(条件随机场)模型完成人像的部位标注，然后基于RNN(递归神经网络)构建语言模型，生成自然语言描述。另一种是直达式的，直接将图片直接转化成自然语言的描述。常见的方法有基于深度学习的卷积神经网络和递归神经网络构建模型的方法。方法一的优点在于将整个分析过程细分到人像分割，人像特征提取和部位标注，自然语言描述生成这几个部分，每个部分可以独立调试，并且每个部分可以很方便地更换算法，不会影响到其他部分的调试。缺点在于每个部分的误差都会对最终结果造成影响，最终结果需要反复调试。第二种方法的优点在于不需要细分到以上提到的几个部分，然后利用卷积神经网络在图片特征提取的优势，更好的利用这些特征完成语义描述，缺点在于调试的难度大大增加。

人像图片语义描述目前的研究大多关注于图片的整体描述，即人像和背景环境的描述，没有对人像进行细粒度的描述。为了使得描述更加细粒度，有必要对人像进行细粒度的分析和语义描述。

LSTM(时间递归神经网络)模型采用了特殊隐式单元被证明比传统的RNNs(递归神经网络)更加有效。目前LSTM(时间递归神经网络)网络或者相关的门控单元同样用于编码和解码网络，并且在机器翻译中表现良好。

发明内容

本发明的内容在于提供一种基于标签转移及时间递归神经网络模型的人像图片细粒度语义分析的方法。主要是为单幅图片中的人像提供语言描述，是一中从图片到文本的方法。

为了实现上诉方法的目的，本发明采用的技术方案如下：

基于标签转移及LSTM模型的人像图片细粒度语义分析的方法，包含三个模块：人像检测模块、人像主要部位标注模块、自然描述语言生成模块。其包含以下步骤：

1)采用BING显著性检测算法预处理图片，提取可能包含人像的候选矩形区域，每个矩形区域都会相应的得分，得分越高，表示该矩形区域含有物体的可能性越大。候选区域的数目大概2000个；

2)提取候选矩形区域的左上和右下角的坐标信息，利用IOU算法计算相似矩阵，然后在利用图谱聚类算法聚类。

相似矩阵的计算公式为：r(i,j)=s(i)∩s(j)s(i)∪s(j)=stsi+sj-st]]>

其中：r(i，j)表示区域i和区域j的相似度，s(i)，s(j)表示位置信息，si，sj表示区域i和区域j的面积，st表示区域i和区域j的重叠面积。

st的计算公式为：st＝|min(xi1.xj1)-max(xi0，xj0)|*|min(yi1，yj1)-max(yi0，xi0)|

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201511028331.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种面向中文专利的实体间非分类关系抽取方法
下一篇：基于卷积及递归神经网络的复杂光学文字序列识别系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于标签转移及LSTM模型的人像语义分析的方法及系统在审

专利文献下载