[发明专利]一种基于卷积神经网络和无监督语言模型的由图成诗方法有效
申请号: | 202011130476.9 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112257775B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 李浩天;汪鹏;朱佳涛;曹思辰;李翔宇;曾家俊 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06F40/166;G06F40/242;G06F40/30;G06N3/04;G06N3/08;G06N5/02 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 监督 语言 模型 图成诗 方法 | ||
本发明提供一种基于卷积神经网络和无监督语言模型的由图成诗的方法,该方法由图像实体识别与情感识别、基于情感基调的关键词扩展和中国古诗生成三个模块组成。本发明无需用户手动输入用于作诗的文本,用户在使用时只需输入目标图像,该方法将会利用卷积神经网络自动从输入图像中提取实体词与情感词,并根据情感词对提取出的实体词进行相似度扩展来丰富作诗元素,形成关键词集合。本发明采用带有自注意力机制的无监督语言模型,利用双向生成算法根据关键词和情感标签自动生成内容与情感符合图像意境的中国古诗,并且设计了两个层次的内容检查方法来进一步保证生成古诗的质量,达到了良好的古诗生成效果。
技术领域
本发明属于人工智能技术领域,涉及计算机视觉、自然语言处理、中国古诗生成技术,特别涉及一种基于卷积神经网络和无监督语言模型的由图成诗方法。
背景技术
古诗生成是研究计算机自动分析、理解和使用人类语言的一个重要切入点。古诗生成系统旨在根据用户输入的多模态信息生成相应的古诗,这需要系统从输入信息中提取和总结关键信息或特征,输入古诗生成模型中指导古诗生成。随着深度学习发展,基于循环神经网络及其变体的诗歌生成模型被广泛使用。近年来,基于语言模型的古诗生成模型基本实现了在用户给定文本的前提下生成较高质量诗歌的功能。
利用文本信息的古诗生成方法要求用户手动输入文本,由模型从文本中提取、筛选和扩展关键信息作为作诗元素,进而根据关键信息完成相应的古诗生成。这种方法有明显的局限性。一方面这不符合中国古代诗人“触景生情”的做诗习惯,另一方面当所输入的文本涉及现代主题时,生成古诗的内容会不连贯甚至逻辑混乱。此外,这种方法也很难控制生成古诗的情感,缺乏审美价值。
因此有人想到申请一种基于图像内容的古诗词生成方法,申请号是CN201710610311.3,包括以下步骤:1)基于单次多框目标检测框架对图像内容进行目标检测得到物体的名称;2)采用中文词法分析工具对设定数量首唐诗进行分词,得到词汇表,利用word2vec工具对词汇表中每一个词进行特征学习,将每一个词映射到向量空间;3)将得到的物体名称输入word2vec工具后得到物体名称映射向量,计算其与古诗词向量之间的余弦相似度,设定阈值后选择部分作为该物体对应的主题词;4)利用主题词扩展关键词,将关键词输入学习唐诗后得到的RNN模型进行古诗词生成。其虽然使用了从图像中提取出的实体,但并未考虑图像表达的情感,而情感对生成的古诗的风格会有较大影响;此外,该申请利用主题词代替实体词生成古诗,一定程度上减弱了与图像的关联性。本发明采取了不同的技术路线,更加注重图像中表达的情感,模型可自动从图像中提取情感词来确定古诗的感情基调,且该情感词以及实体词将会做为诗歌的内容出现在生成的古诗中,进一步增强了图像与古诗的关联性。
发明内容
为解决上述问题,本发明利用从用户输入的图像中提取到的视觉信息与特征来指导古诗生成,提出了一种基于卷积神经网络和无监督语言模型的由图成诗方法。本方法通过两个并行的卷积神经网络来识别图像中的实体和情感基调,这些被识别出的关键信息将作为初始关键词输入到关键词扩展模块,该模块输出包含多个实体名词和一个情感词的关键词集,最后这些关键词将作为种子词输入到古诗生成模型,在情感标签的指导下完成古诗的生成。本方法生成的古诗具有很强的多样性,并且在语法和连贯性上取得了较高的分数,本专利提供一种基于卷积神经网络和无监督语言模型的由图成诗方法,包括如下模块,其特征在于:
1)图像实体识别与情感识别:以中国古诗中常见的意象和情感为指导,构成实体词集合与情感词集合,利用两个并行的卷积神经网络对输入的目标图像进行分类,从图像中提取相应的实体词与情感词,构成初始关键词集;
2)关键词扩展:对有情感标注的古诗语料进行分词与频数统计,以频数为基准选取高频词构成不同情感基调的关键词词典;对模块1)中的初始关键词集中的多个实体词进行随机选择,将该词投影到向量空间并与对应关键词词典中的每个词进行余弦距离度量,随机选择距离在阈值范围内的关键词作为扩展关键词,构成包含多个实体名词和一个情感词的关键词集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011130476.9/2.html,转载请声明来源钻瓜专利网。