[发明专利]具备跨语言学习能力的图像自然语言描述生成方法和装置有效

申请号：	201710657104.3	申请日：	2017-08-03
公开（公告）号：	CN107480144B	公开（公告）日：	2020-10-20
发明（设计）人：	李锡荣;蓝玮毓;董建锋	申请（专利权）人：	中国人民大学
主分类号：	G06F40/253	分类号：	G06F40/253;G06F40/58;G06K9/62
代理公司：	北京同立钧成知识产权代理有限公司 11205	代理人：	杨泽;刘芳
地址：	100872 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	具备语言学习能力图像自然语言描述生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种具备跨语言学习能力的图像自然语言描述生成方法和装置，该方法，包括：将英文描述句子通过机器翻译为目标语言描述句子；通过随机采样选取部分目标语言描述句子构成训练样本集；利用通顺样本集和不通顺样本集训练句子通顺度模型；通过句子通顺度模型对候选数据集中的目标语言描述句子进行通顺度评估，根据每个目标语言描述句子的通顺度概率来设置训练图像描述句子生成模型的策略；根据策略训练图像描述句子生成模型，得到训练之后的图像描述句子生成模型。实现依据流畅度评估结果引导训练生成目标语言的图像句子生成模型，降低了不流畅目标语言描述句子对训练过程的影响，提高了目标语言的图像句子生成模型的准确度。

技术领域

本发明涉及图像识别技术领域，尤其涉及一种具备跨语言学习能力的图像自然语言描述生成方法和装置。

背景技术

看图造句(Image captioning)是指给定一张图片，计算机自动产生一个能够描述对应图片主要视觉内容的自然语句。该自然语句用于描述对应图片中主要物体在特定场景中的特定行为。图像的描述句子相比传统的图像描述标签可以包含更多的语义信息，有助于对图像数据进行更好的管理。

但是，目前大型的图像集的描述句子一般采用英语来描述，当涉及到跨语言图像描述时，需要采用人工标注的方式为目标语言采集相应语种的训练数据，或者通过翻译机器将英文描述句子翻译为目标语言描述句子，这些方法的运行成本高，图像语言描述的效率低，可读性差。

发明内容

本发明提供一种具备跨语言学习能力的图像自然语言描述生成方法和装置，以实现依据流畅度评估结果引导训练生成目标语言的图像句子生成模型，降低了不流畅目标语言描述句子对训练过程的影响，提高了目标语言的图像句子生成模型的准确度。

第一方面，本发明实施例提供一种具备跨语言学习能力的图像自然语言描述生成方法，包括：

获取图像集对应的英文描述句子；

将所述英文描述句子通过机器翻译为目标语言描述句子，其中，机器翻译产生的所有目标语言描述句子构成目标语言的候选数据集；

从所述候选数据集中通过随机采样选取部分目标语言描述句子，所述部分目标语言描述句子构成训练样本集；

根据所述目标语言的语法和使用习惯，通过人工标注方式，将所述训练样本集分为通顺样本集和不通顺样本集；