[发明专利]基于场景的视觉辅助信息确定方法、系统、设备及存储介质有效
申请号: | 202210495428.2 | 申请日: | 2022-05-07 |
公开(公告)号: | CN114842368B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 王昊;李伟;谢碧霄;姚旭杨;刘振华;胡婕 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06V20/20 | 分类号: | G06V20/20;G06F16/9032;G06F16/532;G06F16/583 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 孙宝海 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 场景 视觉 辅助 信息 确定 方法 系统 设备 存储 介质 | ||
本公开实施例提供了一种基于场景的视觉辅助信息确定方法、系统、设备及存储介质,涉及人工智能技术领域,用以解决相关技术中存在的助盲系统难以基于使用者实际所处环境进行感知及决策的技术问题。涉及的基于场景的视觉辅助信息确定方法,包括:获取目标对象当前所处场景的图像;根据所述图像提取所述图像特征;获取与所述场景关联的问题文本;根据所述问题文本提取问题文本特征;根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息。本公开实施例实现了对目标对象所处环境的认知和推理,达到了代替目标对象对其所处场景进行识别的目的,提高了视觉辅助效果。
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种基于场景的视觉辅助信息确定方法、系统、设备及存储介质。
背景技术
目前,视障人士与助盲系统的交互大多是根据自身需求基于自然语言模态信息的交互,但由于视障人士无法获知其所处场景的信息,这种交互通常无法满足视障人士在某些特殊场景下的需求。一些助盲系统主要回答一些结构化信息或者自然语言问答的任务,只涉及到对自然语言的处理及识别,并不考虑视障人士实际所处的场景信息,故无法实现基于实际场景对视障人士的问题进行回答。如,大多数助盲系统多依赖于互联网搜索功能,在大多数情况下对用户提出问题的回答只是单纯的互联网搜索结果的呈现,无法满足用户的实际需求。或者,一些助盲系统使用计算机视觉中的目标检测技术来检测路障或寻找物品,但该种方式停留在对物体简单的识别检测上,难以对使用者所处环境的进行感知及决策。
发明内容
本公开实施例提供一种基于场景的视觉辅助信息确定方法、系统、设备及存储介质,以用于至少部分地解决相关技术中存在的助盲系统难以基于使用者实际所处环境进行感知及决策的技术问题。
根据本公开的第一个方面,提供了一种基于场景的视觉辅助信息确定方法,包括:获取目标对象当前所处场景的图像;根据所述图像提取所述图像特征;获取与所述场景关联的问题文本;根据所述问题文本提取问题文本特征;根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息。
可选的,获取与所述场景关联的问题文本,包括:根据所述图像对所述场景进行识别,得到场景信息;根据所述场景信息生成与所述场景关联的问题文本。
可选的,所述方法还包括:获取针对所述问题文本的反馈信息;若所述反馈信息表明所述问题文本无效,获取第一语音信息;根据所述第一语音信息转换得到与所述场景关联的问题文本。
可选的,根据所述场景信息生成与所述场景关联的问题文本,包括:获取工作模式信息;若所述工作模式信息表明当前工作模式为主动提问工作模式,根据所述场景信息确定与所述场景相似度高于阈值的历史场景;根据与所述历史场景对应的历史问题文本生成与所述场景关联的问题文本。
可选的,获取与所述场景关联的问题文本,包括:获取工作模式信息;若所述工作模式信息表明当前工作模式为被动提问工作模式,获取第二语音信息;根据所述第二语音信息转换得到与所述场景关联的问题文本。
可选的,根据所述问题文本提取问题文本特征,包括:根据预设概念词汇表确定所述问题文本中的关键词对应的概念,其中,所述预设概念词汇表中定义了图像中的对象、图像中对象的属性以及图像中对象之间的关系对应的语义嵌入概念;根据所述问题文本中的关键词对应的概念,提取所述问题文本特征。
可选的,根据所述图像提取所述图像特征,包括:将所述图像转化为概率图,所述概率图包括节点以及边,所述节点与所述图像中的对象对应,所述边与所述图像中对象之间的关系对应;根据所述图像特征与所述问题文本特征之间的相关性确定所述问题文本对应的视觉辅助信息,包括:从所述概率图中节点的统一初始分布开始,读取所述问题文本特征;
利用读取的所述问题文本特征通过转移所述边上的概率重新分配在所述节点上注意力;通过计算所述问题特征与所述边之间的相关性,将注意力由当前节点转移至最相关的邻近节点,直至完成状态转移过程,得到所述视觉辅助信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210495428.2/2.html,转载请声明来源钻瓜专利网。