[发明专利]一种基于概念交互和关联语义的文本视觉问答系统及方法有效

申请号：	202010584144.1	申请日：	2020-06-24
公开（公告）号：	CN111858882B	公开（公告）日：	2022-08-09
发明（设计）人：	高联丽;李向鹏;宋井宽	申请（专利权）人：	贵州大学;电子科技大学
主分类号：	G06F16/583	分类号：	G06F16/583;G06F16/532;G06F16/332;G06V30/19;G06V10/82;G06V20/62;G06V30/416;G06N3/04;G06N3/08
代理公司：	北京正华智诚专利代理事务所(普通合伙) 11870	代理人：	杨浩林
地址：	55000***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于概念交互关联语义文本视觉问答系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于概念交互和关联语义的文本视觉问答系统，其特征在于，包括物体位置提取模块、与所述物体位置提取模块连接的第一全连接层、文本信息提取模块、与所述文本信息提取模块连接的第二全连接层、分别与所述第一全连接层以及第二全连接层连接的OCR-object图卷积网络、与所述OCR-object图卷积网络连接的多门步机制图卷积网络以及与所述多门步机制图卷积网络连接的转换器网络，所述转换器网络与双向转换器表征编码器BERT连接；

所述物体位置提取模块，用于利用预训练的Faster-RCNN快速区域物体检测器模型提取图像中的视觉特征及其对应的位置信息；

所述第一全连接层，用于将所述视觉特征及其对应的位置信息进行融合，得到物体的位置信息；

所述文本信息提取模块，用于利用OCR识别模型检测图像中的文本信息及其对应的位置信息；

所述第二全连接层，用于对所述文本信息及其对应的位置信息进行融合，得到文本的位置信息；

所述OCR-object图卷积网络，用于根据物体的位置信息和文本的位置信息，提取物体的位置信息和文本的位置信息的重叠关系；

所述多门步机制图卷积网络，用于对重叠关系进行编码；

所述双向转换器表征编码器BERT，用于提取问题文本的问题信息；

所述转换器网络，用于根据问题信息以及编码信息得到文本视觉回答；

其中，概念交互为将视觉图像信息，文本信息，问题信息和之前的输出这四个概念共同输入到概念交互转换器网络当中，具体的计算过程如公式所示：

F_t^joint＝[X_J,Q,P_t-1]

F_t^final＝Transformer(F_t^joint)

其中，最终执行J步之后得到的融合特征为X_J，Q表示编码的之后的问题特征，P_t-1表示前t-1个答案的前t-1步的输出，F_t^final表示经过转换器编码之后的第t步特征，Transformer表示多层转换器网络，F_t^joint表示经过转换器编码之前的第t步特征；