[发明专利]基于交互输入的图像定位方法、装置、设备和存储介质在审
申请号: | 201811532287.7 | 申请日: | 2018-12-14 |
公开(公告)号: | CN111400523A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 张超;李炯旭;王强 | 申请(专利权)人: | 北京三星通信技术研究有限公司;三星电子株式会社 |
主分类号: | G06F16/53 | 分类号: | G06F16/53;G06F16/58;G06F16/51;G06F40/30;G06T7/73 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 倪斌 |
地址: | 100028 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 交互 输入 图像 定位 方法 装置 设备 存储 介质 | ||
本申请的实施例提供了一种基于交互输入的图像定位方法、装置、设备和存储介质,该方法包括获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息;根据第一特征信息和第二特征信息,在图像中的对象中,对交互输入进行目标定位。
技术领域
本申请涉及人机交互技术领域,具体而言,涉及一种基于交互输入的图像定位方法、装置、设备和存储介质。
背景技术
基于交互输入进行目标定位是人机交互技术的一个重要的研究领域。一方面,在计算机视觉中广泛应用目标检测(object detection)技术。目标检测是计算机视觉中从图像或视频(如视频的某一帧)中检测特定类别对象的一种技术。具体来说,对于输入的图像,能够给出图像中每个对象的包围框(bounding box),并给出对应的对象类别标签(label)。另一方面,在人机交互中,计算机能够根据人类的交流习惯来理解用户的交互输入。例如,对于用户输入的语音,计算机首先采用语音识别技术,将用户发出的语音命令转换成文字,进而生成便于计算机理解用户指令。然后,计算机可以通过句法分析等自然语言处理(Natural Language Processing)的相关技术,提取用户指令中的名词。根据交互输入进行目标定位的人机交互技术将二者结合起来,就能够在一定程度上让计算机理解(定位)用户所指代的某个对象,从而在给定的图像或视频(视频的某一帧)中对用户所指代的对象进行定位。例如,图1a示出了图片中只有一个“飞机”的实例。如果用户说:“飞机”,则计算机能够理解用户所指代的对象,并给出该对象对应的包围框,如图1b所示。
这种人机交互技术在场景中存在与用户所指代对象类别相同的多个实例时会遇到困难,单纯利用目标检测技术无法区分用户所具体指代的对象。例如,如果用户说:“骑摩托车的人”,由于场景中有多个人,对象检测技术无法定位用户具体指代的是哪个实例(人),所以无法给出准确的结果。
对于这类问题,现有技术的一个解决方案是将检测到的多个实例同时显示出来,并给出序号,让用户再次选择具体的序号,来实现定位,如图1c所示。然而,这种方案需要额外的选择确认环节,因此会降低交互的效率。此外,当场景中存在数量较多的实例时(例如多人的合影),标签会过于密集,不利于用户选择。
现有技术的另一种解决方案是,将这类问题当做一种细粒度对象检测的问题(fine-grained object detection),在训练检测模型时,将对象属性信息作为额外的标签(例如:矮个子的男人、戴眼镜的人、红色的汽车等)。这种方案的缺点是,训练模型时需要大量的额外标注。此外,在实际使用时,对于训练集中从未出现过的类别,对象检测的准确度会严重降低。
发明内容
为了解决上述问题中的至少一些问题,本申请实施例提出了一种基于交互输入的图像定位方法、装置、设备和存储介质。
根据本申请的第一方面,提供了一种基于交互输入的图像定位方法,包括:获取与图像对应的第一特征信息以及与交互输入对应的第二特征信息;根据所述第一特征信息和所述第二特征信息,在所述图像中的对象中,对所述交互输入进行目标定位。
在一些实施例中,所述第一特征信息包括所述图像中的对象之间的语义特征信息。
在一些实施例中,获取与图像对应的第一特征信息,包括:获取图像中的每个对象和至少一个其他对象之间的语义特征信息。
在一些实施例中,获取图像中的每个对象和至少一个其他对象之间的语义特征信息,包括:基于图像中各对象的位置信息,获取图像中的每个对象和至少一个其他对象之间的语义特征信息。
在一些实施例中,获取图像中的每个对象和至少一个其他对象之间的语义特征信息,包括:基于图像中的每个对象和至少一个其他对象确定至少一个候选区域;获取所述候选区域内的对象的分类特征信息;获取所述候选区域内的对象之间的区域语义特征信息;基于所述分类特征信息和所述区域语义特征信息生成图像中的每个对象和至少一个其他对象之间的语义特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三星通信技术研究有限公司;三星电子株式会社,未经北京三星通信技术研究有限公司;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811532287.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序