[发明专利]用于图像问答的方法和装置有效

申请号：	201680002903.0	申请日：	2016-05-19
公开（公告）号：	CN107076567B	公开（公告）日：	2020-07-03
发明（设计）人：	高浩渊;毛俊骅;周杰;黄志恒;王蕾;徐伟	申请（专利权）人：	百度（美国）有限责任公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06N3/04;G06N3/08
代理公司：	北京英赛嘉华知识产权代理有限责任公司 11204	代理人：	王达佐;王艳春
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：	呈现了多模态问答(mQA)模型的实施方式以回答与图像的内容相关的问题。在实施方式中，所述模型包括四个部件：用于提取问题表示的长短期记忆(LSTM)部件；用于提取视觉表示的卷积神经网络(CNN)部件；用于存储答案中的语言语境的LSTM部件；以及用于将来自最初三个部件的信息组合并产生答案的融合部件。建构自由式多语言图像问答(FM‑IQA)数据集以训练和评估mQA模型的实施方式。由人类法官通过图灵测试来评估在这个数据集上mQA模型所产生的答案的质量。
搜索关键词：	用于图像问答方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

计算机实施方法，通过产生与图像输入相关的问题输入的答案来改进计算机‑用户交互，所述方法包括：接收呈自然语言形式的问题输入；接收与所述问题输入相关的图像输入；以及将所述问题输入和所述图像输入输入到多模态问答(mQA)模型中，以产生包括按顺序产生的多个字的答案，所述mQA模型包括：第一部件，将所述问题输入编码成密集向量表示；第二部件，用于提取所述图像输入的视觉表示；第三部件，用于提取所述答案中的当前字的表示和所述当前字的语言语境；以及第四部件，利用融合以在所述答案中的当前字后面产生下一字，所述融合包括所述密集向量表示、所述视觉表示和所述当前字的表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度（美国）有限责任公司，未经百度（美国）有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201680002903.0/，转载请声明来源钻瓜专利网。

上一篇：用于移动环境下的基于流的寻址的系统及方法
下一篇：用于认证互操作性的方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于图像问答的方法和装置有效

专利文献下载