[发明专利]一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法有效
申请号: | 202010880446.3 | 申请日: | 2020-08-27 |
公开(公告)号: | CN112163414B | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 陈启军;何宗涛;刘成菊 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06F40/242;G06N3/04;G06N3/08 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 word2vec lstm 注意力 机制 中文歌词 生成 方法 | ||
本发明涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法,包括以下步骤:1)获取关键词进行预处理;2)输入关键词,基于LSTM和注意力机制的歌词生成模型结合后处理操作,依次生成句中词和结尾词,完成一句歌词的生成;3)重复执行步骤1)‑步骤2),直至生成一篇完整的歌词。与现有技术相比,本发明具有生成歌词可读性强、语义通顺、对仗工整等优点。
技术领域
本发明涉及自然语言处理领域,尤其是涉及一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法。
背景技术
自然语言处理(Natural Language Processing,NLP)是当今人工智能技术的重要分支,其目标是计算机能学习、理解并能够生成人的语言。语言生成是NLP领域的重要任务,涉及语义解析、语义编码、语言模型等多方面技术。传统NLP技术聚焦于语言本身的规则,企图使机器像人一样学习详细的语法规则,构建语法解析树,进而完全掌握自然语言。然而,随着语料库扩大,语法解析树会以指数速率膨胀到令人难以接受的程度,语言本身的多样性、奇异性和上下文相关性也让语言规则的总结工作变成不可能完成的任务。
近年来,基于统计模型的机器学习方法成为主流。该流派不在意语言深层的意义,直接从符号层面入手让计算机统计语言的规律,从而建立合理的语言模型。人工神经网络的出现促进了统计模型的发展,让人们有能力模拟极其复杂的概率分布。现有的语言生成方案往往使用循环神经网络(Recurrent Neural Network,RNN)作为基础,通过大量的学习来模拟语言的分布规律。
然而,简单的RNN网络存在严重的梯度消失问题,很难生成长句与长文章,单阶段的生成方式也无法体现句与句之间复杂的关系。此外,中文语言处理有一些特殊的问题,例如分词、消岐等,这些是主流的英文语料库与英文模型无法处理的,针对中文歌词进行特定研究的更是少之又少。
因此,本发明提出了一种新的中文歌词生成方案,生成了可读性强、语义通顺、对仗工整、甚至还具备一定审美特点的歌词。本发明首先从网络上开放资源收集到中文歌词的原始数据,对数据进行预处理后得到干净的语料库;而后使用词典加条件随机场的方式对已登录词进行分割,使用隐马尔科夫模型对未登录词进行预测分割;再引入Word2Vec方法将词语符号转换成高维嵌入向量对模型进行训练。模型的编码部分使用双向LSTM,可以有效记忆并编码语句中的语义信息;解码部分引入了注意力机制,使得下一句歌词能与上一句产生较强的关联性。最终训练好的模型可以逐句生成通顺的歌词。在此基础上,本发明还设计了独特的模型控制方法,使得模型可以按要求生成指定风格、指定句长、押韵或者藏头的歌词。为了方便使用,本发明最后开发了简单的网页前端,让生成的歌词直观地展示出来。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种生成歌词可读性强、语义通顺、对仗工整的基于Word2Vec、LSTM和注意力机制的中文歌词生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法,包括以下步骤:
1)获取关键词进行预处理;
2)输入关键词,基于LSTM和注意力机制的歌词生成模型并结合后处理操作,依次生成句中词和结尾词,完成一句歌词的生成;
3)重复执行步骤1)-步骤2),直至生成一篇完整的歌词。
所述的关键词包括控制关键词和上一句歌词;
当生成的歌词为首句歌词时,所述的输入关键词为控制关键词;当生成的歌词为后续歌词时,所述的输入关键词为上一句歌词,所述的控制关键词包括歌词风格、歌词剧场、歌词韵脚。
所述的歌词生成模型包括编码器和解码器,所述的编码器为双向LSTM编码器,所述的解码器为单向LSTM加注意力机制解码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010880446.3/2.html,转载请声明来源钻瓜专利网。