[发明专利]基于文本-图像匹配的多模态自动文摘方法有效

申请号：	201710195587.X	申请日：	2017-03-28
公开（公告）号：	CN106997387B	公开（公告）日：	2019-08-09
发明（设计）人：	张家俊;李浩然;周玉;宗成庆	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F16/34	分类号：	G06F16/34;G06K9/00;G06K9/62
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	任岩
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于文本图像匹配多模态自动文摘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本-图像匹配的多模态自动文摘方法，其特征在于，包括：

对多模态信息中的文本信息中的句子进行重要性打分；

对多模态信息中的视频信息通过镜头边界切割，提取视频的关键帧；

对多模态信息中的图像信息和/或视频信息通过文本-图像匹配模型为图像和/或关键帧找到语义对应的文本；以及

根据每一个句子的重要性得分、图片和关键帧所占权重、与文本的语义相关度，以及惩罚冗余项，生成文本摘要。

2.根据权利要求1所述的多模态自动文摘方法，其特征在于，所述文本-图像匹配模型的训练过程包括：

计算数据集中的句子的词向量的平均值，得到句子的句向量；

对数据集中的图像进行编码，对其进行矢量量化，得到图像向量；

通过两个多层感知器分别对句向量和图像向量进行编码，生成文本-图像联合空间的特征表达；以及

通过最大间隔优化方法优化两个多层感知器的模型参数，优化目标使其满足：对于匹配的句子和图像，匹配得分尽量高，对于不匹配的句子和图像，匹配得分尽量低，完成文本-图像匹配模型的训练。

3.根据权利要求2所述的多模态自动文摘方法，其特征在于，所述数据集选用Flickr30K数据集；和/或

所述对数据集中的图像进行编码从而得到图像矢量利用VGG模型实现，通过提取VGG模型的第十九个隐层的特征向量作为图像向量。

4.根据权利要求2所述的多模态自动文摘方法，其特征在于，所述通过文本-图像匹配模型为关键帧找到语义对应的文本包括：

通过语义角色标注，获取文本中的句子的谓词论元结构，并提取句子的论元ARG0、ARG1和谓词，将动作的施事ARG0、谓词与动作的影响ARG1连接为一个句子，作为所述句子的简化句子；

计算简化句子的词向量的平均值，得到简化句子的句向量；

对视频的关键帧进行编码，对其进行矢量量化，得到关键帧向量；

通过文本-图像匹配模型的两个多层感知器分别对简化句子的句向量和关键帧向量进行编码，生成文本-图像联合空间的特征表达；

计算文本-图像联合空间的简化句子的特征表达和关键帧的特征表达之间的余弦相似度，作为简化句子与关键帧的匹配度；以及

利用训练好的文本-图像匹配模型，计算数据集中文本-图像匹配对的平均匹配度得分，作为文本-图像匹配度阈值，将上述得到的简化句子与关键帧的匹配度和文本-图像匹配度阈值进行比较，当简化句子与关键帧的匹配度大于文本-图像匹配度阈值时，则将简化句子的来源句作为关键帧语义对应的文本，视为关键帧和简化句子的来源句语义相关。

5.根据权利要求4所述的多模态自动文摘方法，其特征在于，所述对视频的关键帧进行编码从而得到关键帧向量利用VGG模型实现，通过提取VGG模型的第十九个隐层的特征向量作为关键帧向量。

6.根据权利要求2所述的多模态自动文摘方法，其特征在于，所述文本-图像联合空间的特征表达如下式所示：

x＝W₂·f(W₁·v_s+b_s) (2)

y＝V₂·f(V₁·v_i+b_i) (3)

其中，x和y分别为句子和图像在文本-图像联合空间的特征表达；W₁、W₂、V₁和V₂表示权重矩阵，由随机初始化获得；f(·)表示激活函数，为sigmoid函数；v_s表示句向量；v_i表示图像向量；b_s和b_i表示偏置项。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710195587.X/1.html，转载请声明来源钻瓜专利网。