[发明专利]一种基于非成对学习的图像描述自动评价方法有效
申请号: | 202010054911.8 | 申请日: | 2020-01-17 |
公开(公告)号: | CN111291558B | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 赵仲秋;孙月林 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06N3/0442;G06N3/0464 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 成对 学习 图像 描述 自动 评价 方法 | ||
本发明公开了一种基于非成对学习的图像描述自动评价方法,其步骤包括:1、提取被描述图像的视觉特征;2、描述语句的预处理和文本特征提取;3、基于图像特征和文本特征进行语义一致性评价;4、构建额外人工语句语料库;5、利用额外人工语句语料库对待评价描述文本进行语法正确性评价;6、对语义一致性得分和语法正确性得分进行融合,得到综合得分;7、对图像描述生成模型的评价。本发明能脱离参考描述语句,通过直接与图像特征的直接匹配和根据从额外语料库中习得的人类描述习惯,从语义一致性和语法正确性两方面对图像描述语句质量进行评价,从而能更灵活可靠地对风格化的图像描述语句质量进行评价。
技术领域
本发明涉及图像描述评价领域,具体的说是一种基于非成对学习的图像描述自动评价方法。
背景技术
随着科研领域对计算机视觉与自然语言处理相结合领域的兴趣逐渐升温,图像描述任务获得了一定的关注。图像描述任务即根据图像的内容,为图像生成相应的自然语言描述,实现从图像到语言的映射。然而,人工描述具有工作量大、成本高、主观性强等缺点,因而,需要利用计算机及相关算法和技术,在对图像内容准确分析的基础上,实现自动图像描述。随着神经网络的高速发展和注意力机制的引入,自动图像描述模型已经在BLEU、ROUGE、METEOR、CIDEr等传统指标上取得了很高的分数。近几年,关于图像描述的一部分研究焦点从进一步提升描述准确性转向了生成风格化的图像描述,例如可以进行幽默风格和浪漫风格图像描述的SemNet、SemStyle模型;可以进行看图写诗的微软小冰等。
传统的图像描述自动评价方法大多是基于对待评价的候选句和数据集给出的参考句之间的N元组共现的统计进行的。BLEU和METEOR指标引入自机器翻译任务,BLEU是对候选句和参考句中共同出现的N元子句出现次数的加权平均精度统计,而METEOR在此基础上添加了召回率的考量,计算候选句和参考句之间的单精度和单字召回率的加权调和平均数,此外,METEOR还通过最小化对应语句中连续有序块来进行了同义词匹配校准;ROUGE指标是引入自文本摘要任务的基于候选句和参考句间最大长度公共子序列召回率的相似性度量方法;CIDEr将TF-IDF权重应用到候选句与参考句的N元重叠上,并计算它们的N元余弦距离和。SPICE提出了一种新的评估图像描述的计算方法,即将候选句和参考句转换到同一个场景图中,并在过程中对图像字幕的主要特征进行编码,以及提取自然语言的大部分词汇和句法特征。为更加贴合人类评价和规避这些基于规则的方法的盲点,Yin等人提出了一种基于学习的图像描述自动评价方法,更贴合人类评价的同时,它适用于定义过的一些病句情形。
在实际应用中,虽然现有评价指标能一定程度上衡量候选句质量,但现有的图像描述评价指标仍存在以下问题:
(1)基于N元组共现的评价方法主要考察候选句的充分性和忠实性,无法对流畅性进行考量,且无法从语法语义上对病句进行判别,并不符合人类在判别两个语句语义是否一致时的习惯。
(2)N元重叠的方式很难对语句的语义进行捕捉,SPICE虽然对语义敏感,却依然存在忽略语法正确性的倾向,且SPICE还存在倾向对包含重复子句的长句打出高分的问题。
(3)Yin等人虽然提出了基于学习的评价方式,但与原有的基于规则的方法们一样,存在依赖于与有限的数据集给定参考句进行对比的问题。这些参考句风格固定甚至单调,无法覆盖到图像中所有可能被感兴趣的信息。因此,基于与此种参考句对比的现有评价指标并不能很好地对风格化的图像描述进行灵活的评价。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于非成对学习的图像描述自动评价方法,以期能脱离数据集中刻板的参考描述语句,直接将待评价描述语句和图像特征进行匹配,得到描述语句与对应图像的语义一致性评价,并通过从额外的风格化语料库学习人工描述语言习惯,得到描述语句相对于人工描述的语法正确性评价,从而能更贴近人工评价习惯地对图像描述语句质量进行评价,并能更灵活且可靠地对风格化的图像描述语句质量进行评价。
本发明为达到上述发明目的,采用如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010054911.8/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序