[发明专利]一种中文视觉词汇表构建的图像内容自动描述方法有效
申请号: | 202010374110.X | 申请日: | 2020-05-06 |
公开(公告)号: | CN111581961B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 张凯;周建设;刘杰;吕学强 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/216;G06V10/40;G06V10/764;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南昌华成联合知识产权代理事务所(普通合伙) 36126 | 代理人: | 徐苍 |
地址: | 100048 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 视觉 词汇表 构建 图像 内容 自动 描述 方法 | ||
本发明涉及一种中文视觉词汇表构建的图像内容自动描述方法,包括按顺序进行的步骤a,使用中文分词工具将单张图片对应的若干个描述语句进行分词处理,并根据统计的词频有选择地保留词表中的名词、动词和形容词,再将保留下来的词语构成中文视觉词汇表;步骤b,基于中文词汇表预测网络对中文视觉词汇表进行预测获得图像标注信息;步骤c,基于图像自动描述模型,使用编码器提取出图像卷积特征,再使用解码器将图像卷积特征作为初始输入解码为中文描述语句;本发明通过词汇表预测网络对图像词汇表进行预测可以获得图像标注信息,在中文视觉词汇表预测网络中添加残差结构,可以有效地解决随着中文视觉词汇表预测网络层数加深。
技术领域
本发明涉及图像语义理解技术,具体提供一种多通道中文视觉词汇表构建的图像内容自动描述方法。
背景技术
图像语义理解技术融合了计算机视觉和自然语言处理两个研究方向,是目前人工智能领域的一项研究热点,也是缩减图像的低层特征和高层语义之间的语义鸿沟的有效方法。图像语义理解技术为机器提供了处理多模态数据的能力,可以有效地缩减图像的低层特征和高层语义之间的语义鸿沟,其核心技术是结合计算机视觉和自然语言处理的相关知识,对图像的内容进行分析、理解,以文本语义信息的形式反馈。
当前,使用中文对图像描述的语句自动生成质量较低,除了图像处理技术的瓶颈。究其原因,一方面是中文的图像描述数据较少且质量较差,限制了图像内容自动生成的发展,另一方面是中文词语的含义丰富,句子结构复杂,同样也存在着语义理解的难题。
发明内容
鉴于上述现有技术中的存在的难题或缺陷,对图像内容理解的中文句子自动生成是其中一重点突破领域,考虑到图像内容目标检测网络往往只能检测到图中的部分物体信息,并且只能提供物体名词信息,无法提供物体相关的属性和动作等关键的信息,在进行句子自动生成中遇到困难;另一方面,通过挖掘图像的描述文本中可以利用的信息,将图像的描述文本进行分词和词性标注等处理,得到图像的标注信息,进而形成中文视觉词汇表也是一个关键,而且词汇表中不仅包括有名词,还包括了谓词、形容词等,词汇表中信息更加丰富,可以使得在进行模型训练中获得更多的语义信息,进而可以更好的应用到图像内容的自动描述过程。
一种中文视觉词汇表构建的图像内容自动描述方法,包括按顺序进行的如下:
步骤a,使用中文分词工具将单张图片对应的若干个描述语句进行分词处理,并根据统计的词频有选择地保留词表中的名词、动词和形容词,再将保留下来的词语构成中文视觉词汇表;
步骤b,基于中文词汇表预测网络对中文视觉词汇表进行预测获得图像标注信息;
步骤c,基于图像自动描述模型,使用编码器提取出图像卷积特征,再使用解码器将图像卷积特征作为初始输入解码为中文描述语句。
较为优选的,还包括步骤c后的步骤d,基于标签信息匹配的模型对描述生成网络的损失函数进行优化。
较为优选的:所述中文词汇表预测网络由基于卷积神经网络的特征提取网络和特征分类网络两个部分组成,所述特征提取网络将基于标签词表数据集上预训练的数据网络的平均池化的输出当作图像特征,输入所述特征分类网络的输入层,并由所述特征分类网络的输出层输出预测图像所对应的中文标签信息。
较为优选的:所述图像自动描述模型进行预测时,解码器首先接受图像卷积特征,并忽略这一时刻的输出;然后输入一个开始符号Start和预测标签特征后,解码器输出一个由词表中词语被预测的概率组成的向量,根据输出向量选取概率最大的词语作为本时刻输出;再把这个词语和预测标签特征作为下一时刻的输入,继续进行预测,直到预测出结束符号End:
较为优选的:所述编码器包括卷积、下采样和激活操作中的一种或多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010374110.X/2.html,转载请声明来源钻瓜专利网。