[发明专利]一种利用噪声描述文本的可控推理性视觉问题生成方法在审

申请号：	202210429636.2	申请日：	2022-04-22
公开（公告）号：	CN114880470A	公开（公告）日：	2022-08-09
发明（设计）人：	王树徽;毕超	申请（专利权）人：	镇江智栎高科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/583;G06F40/186
代理公司：	重庆莫斯专利代理事务所(普通合伙) 50279	代理人：	刘强
地址：	212000 江苏省镇江市润州***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种利用噪声描述文本可控理性视觉问题生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及多媒体领域的视觉问题生成技术领域，尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法，包括输入图片和能得到的有关图片的简单描述；利用锚点场景图生成模块和所述图片及描述生成锚点场景图；以所述锚点场景图为基础利用推理性问题生成模块得到具有显式推理性的自然语言问题，该发明不仅规避了传统方法基于数据驱动产生的模式局限性，也不需要高昂的人工成本，同时生成的问题在内容和难度等方面都是可控的，在不同的应用场景下定制和扩展也很方便，可以根据目的高效、大量地扩增视觉问答数据集。

技术领域

本发明涉及多媒体领域的视觉问题生成技术领域，尤其涉及一种利用噪声描述文本的可控推理性视觉问题生成方法。

背景技术

视觉问题生成的目标是令机器根据给定的视觉信息自动生成一个自然语言问题。与其他视觉文本生成任务不同，问题生成更注重对视觉信息提炼后提出对人类来说有意义、有逻辑的疑问。近年来，视觉问题生成任务越来越受关注，不仅为视觉问答任务构建了大量的训练数据，同时也被应用于对话系统等人工智能领域。

现有的方法通常会考虑没有附件条件和依据条件信息来生成这两种情况。因此，如何更好地结合、对齐视觉信息，突破数据驱动的模式限制，低成本、可控地生成推理性、可解释性的问题，仍然是亟待解决的问题。

发明内容

本发明的目的在于提供一种利用噪声描述文本的可控推理性视觉问题生成方法，旨在利用给定图片和一些简单描述，自动生成大量内容和难度都可控的有显式推理性的问题，且该过程能够不依赖于数据驱动的训练或大量人工预处理，使得问题与现有数据集产生显著的模式差异，且极大地降低生成成本。

为实现上述目的，本发明提供了一种利用噪声描述文本的可控推理性视觉问题生成方法

本发明的一种利用噪声描述文本的可控推理性视觉问题生成方法，包括：

输入图片和所述图片的描述；

利用所述图片及描述生成锚点场景图；

以所述锚点场景图为基础生成推理性问题并得到具有显式推理性的自然语言问题。