[发明专利]一种利用噪声描述文本的可控推理性视觉问题生成方法在审
申请号: | 202210429636.2 | 申请日: | 2022-04-22 |
公开(公告)号: | CN114880470A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王树徽;毕超 | 申请(专利权)人: | 镇江智栎高科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/583;G06F40/186 |
代理公司: | 重庆莫斯专利代理事务所(普通合伙) 50279 | 代理人: | 刘强 |
地址: | 212000 江苏省镇江市润州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 噪声 描述 文本 可控 理性 视觉 问题 生成 方法 | ||
本发明涉及多媒体领域的视觉问题生成技术领域,尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法,包括输入图片和能得到的有关图片的简单描述;利用锚点场景图生成模块和所述图片及描述生成锚点场景图;以所述锚点场景图为基础利用推理性问题生成模块得到具有显式推理性的自然语言问题,该发明不仅规避了传统方法基于数据驱动产生的模式局限性,也不需要高昂的人工成本,同时生成的问题在内容和难度等方面都是可控的,在不同的应用场景下定制和扩展也很方便,可以根据目的高效、大量地扩增视觉问答数据集。
技术领域
本发明涉及多媒体领域的视觉问题生成技术领域,尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法。
背景技术
视觉问题生成的目标是令机器根据给定的视觉信息自动生成一个自然语言问题。与其他视觉文本生成任务不同,问题生成更注重对视觉信息提炼后提出对人类来说有意义、有逻辑的疑问。近年来,视觉问题生成任务越来越受关注,不仅为视觉问答任务构建了大量的训练数据,同时也被应用于对话系统等人工智能领域。
现有的方法通常会考虑没有附件条件和依据条件信息来生成这两种情况。因此,如何更好地结合、对齐视觉信息,突破数据驱动的模式限制,低成本、可控地生成推理性、可解释性的问题,仍然是亟待解决的问题。
发明内容
本发明的目的在于提供一种利用噪声描述文本的可控推理性视觉问题生成方法,旨在利用给定图片和一些简单描述,自动生成大量内容和难度都可控的有显式推理性的问题,且该过程能够不依赖于数据驱动的训练或大量人工预处理,使得问题与现有数据集产生显著的模式差异,且极大地降低生成成本。
为实现上述目的,本发明提供了一种利用噪声描述文本的可控推理性视觉问题生成方法
本发明的一种利用噪声描述文本的可控推理性视觉问题生成方法,包括:
输入图片和所述图片的描述;
利用所述图片及描述生成锚点场景图;
以所述锚点场景图为基础生成推理性问题并得到具有显式推理性的自然语言问题。
其中,所述利用锚点场景图生成模块和所述图片及描述生成锚点场景图的具体步骤为:
利用场景图生成任务的方法附加物体属性分类训练生成初步场景图;
利用所述初步场景图提取视觉概念;
利用所述视觉概念从有噪声的描述文本中抽取可用信息,并提取其中的实体和三元组关系;
利用显著性检测算法提取出所述图像中的区域;
将所述区域映射到场景图中;
将所述区域的物体作为中心锚点,使得最终锚点场景图的内容聚焦于此并根据推理长度逐层向外扩散,从而获得锚点场景图。
其中,以所述锚点场景图为基础利用推理性问题生成模块得到具有显式推理性的自然语言问题的具体步骤为:
定义函数模板,所述函数模板包含有参数空间、推理过程模板以及文本模板;
根据模板中的程序规则,在现有锚点场景图上进行深度优先搜索;
利用搜索结果找到符合所述模板程序规则的节点链条;
将所述节点链条作为参数回填进所述文本模板中,即实例化出一个自然语言问题;
对所述实例化出的自然语言问题加入推理约束检查。
其中,所述实体为图像中的物体实体,所述三元组关系为所述实体间的主宾关系。
其中,所述三元组关系可用提取到的信息与场景图做匹配,对响应的结点和连边提高相应置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于镇江智栎高科技有限公司,未经镇江智栎高科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210429636.2/2.html,转载请声明来源钻瓜专利网。