[发明专利]问题应答装置及方法有效

申请号：	201980031584.X	申请日：	2019-12-09
公开（公告）号：	CN112106043B	公开（公告）日：	2022-06-07
发明（设计）人：	张炳卓;崔成镐	申请（专利权）人：	首尔大学校产学协力团
主分类号：	G06F16/783	分类号：	G06F16/783;G06F16/432;G06F16/73;G06N3/08
代理公司：	成都超凡明远知识产权代理有限公司 51258	代理人：	魏彦
地址：	韩国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	问题应答装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种通过问题应答装置执行的问题应答方法，包括如下步骤：基于同一字幕，以一个镜头为单位划分数据集的视频数据中包括的图像帧、音频数据、字幕数据；通过计算包括在镜头中的图像帧、音频数据、字幕数据各自的特征向量来提取镜头特征向量；提取所述数据集中包括的问题答案对中的问题数据和与所述问题数据对应的多个选项数据各自的特征向量；将所述镜头特征向量输入到多层神经网络后，向各层的输出向量赋予基于所述问题数据计算的注意力权重并求和，从而算出视频特征向量；以及基于所述视频特征向量与选项特征向量之间的相似度，在所述多个选项数据中选择最终答案。

技术领域

在本说明书中公开的实施例涉及一种分层视频故事建模和通过使用该分层视频故事建模来应答针对视频的问题的问题应答装置及方法。

2019年课题信息和致谢表示

1-1.课题识别号码：1711081135

1-2.致谢表示：本研究是根据科学技术信息通信部和信息通信技术促进中心的创新成长动力项目的研究结果进行的(IITP-2017-0-01772-003)。

2-1.课题识别号码：1711081008

2-2.致谢表示：本研究是根据科学技术信息通信部和信息通信技术促进中心的SW计算行业原创技术发展(RD，信息化)的研究结果进行的(IITP-2015-0-00310-005)。

背景技术

近来，视频故事建模领域正在发展成一个高难度的领域，它将视觉和自然语言处理研究融合在一起。视觉问答(Visual Question Answering，VQA)技术是处理视觉和自然语言处理的融合领域的代表性技术。VQA技术分析视频中包括的数据，并据此推论对问题的答案，以便可以应答关于视频里包含的意义或情节的问题。

然而，由于包含许多信息的视频本身的特性(与简单的图像不同)和来自该特性的多种类型的问题引起的问题难度增加，因此视频故事问答问题被评估为难以解决的领域。

因此，不仅难以收集数据集，而且之前的视频故事问答数据集具有多个限制。

另外，由于现有的视频问答模型仅使用了字幕和影像的图像帧信息，从而存在难以使用不是从字幕或影像中推断出的关于登场人物的声音中包含的说话者或感情的信息。

因此，需要能够改善视频问答难度的同时，通过区分说话者或感情来推断针对问题的适当应答的方法。

此外，上述的背景技术是发明人为了得出本发明而持有的技术信息或在得出本发明的过程中获得的技术信息，而并不一定是在申请本发明之前已向公众公开的公知技术。

发明内容

发明要解决的问题

在本说明书中公开的实施例的目的在于，提供一种问题应答装置以及方法。

在本说明书中公开的实施例的目的在于，提供一种通过使用对问题的注意力来执行对视频故事的问题应答的问题应答装置以及方法。

在本说明书中公开的实施例的目的在于，提供一种分层地建模视频故事，并基于此来执行问题应答的问题应答装置以及方法。

进而，在本说明书中公开的实施例的目的在于，提供一种通过将包括在视频数据集中的音频信息与图像帧和字幕信息一起使用来区分说话者或感情，从而执行对问题的适当应答的问题应答装置以及方法。

用于解决问题的手段