[发明专利]基于模糊训练框架的音乐歌词可控生成的方法及系统在审
申请号: | 202211142030.7 | 申请日: | 2022-09-20 |
公开(公告)号: | CN115496063A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 李佳佳;王平;李祖超 | 申请(专利权)人: | 李佳佳;王平;李祖超 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/126;G06N3/08 |
代理公司: | 广东普智律师事务所 44864 | 代理人: | 杨行宇 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模糊 训练 框架 音乐 歌词 可控 生成 方法 系统 | ||
本发明公开了一种基于模糊训练框架的音乐歌词可控生成的方法及系统,该方法包括:将MP3格式的音乐与歌词LRC文件进行预处理得到复合词序列及对应的歌词序列;基于多头注意力机制的编码器‑解码器模型,对原始的音乐旋律与歌词对进行端到端的生成训练,得到编码器的源表示;随机采样训练歌词目标序列以获得约束词,通过模型对约束词进行编码以获得约束词序列的表示;对获得的编码器的源表示以及目标歌词序列增量掩码表示与获得的约束词序列的表示使用双交叉注意力组件进行融合,得到约束词引导的旋律在语言空间的表征向量。本发明在不影响模型可控生成效率的情况下实现了对受限词的约束,缓解可控生成对于数据的需求,提升了可控生成的效果。
技术领域
本发明属于音乐创作与语言生成领域,具体涉及一种基于模糊训练框架的音乐歌词可控生成的方法、系统及计算机程序。
背景技术
机器音乐歌词生成结合了音乐和文学元素,跨越了音乐理解和语言生成两个领域,可以被定义为音乐旋律条件下的语言生成任务。近年来,音乐的理解主要集中在声音和符号层面。然而,由于音频容易受到多种因素的影响,符号作为一种直观的音乐描述形式,更适合作为音乐理解的基础。因此,音乐旋律的符号形式被用于歌词生成的输入,通过将音乐旋律符号转换成符号序列,可以将音乐歌词生成和建模成一个序列到序列生成的模型。
音乐旋律符号化一般以MIDI为代表,MIDI可以看作是一个音乐事件的序列,即经过处理过的标记序列。有别于一般序列任务,音乐符号中一个音符可以在一个持续时间内演奏,多个音符也可以同时进行演奏。
在音乐歌词生成中,当确定目标领域时,特定的短语和单词,如主题或情感,通常会要求在创作的歌词中被提及。歌词生成的可控性是实际创作中一个普遍而重要的要求。
序列到序列生成模型具有较多(参考Bahdanau D在2019年发布的“联合学习对齐和翻译的神经机器翻译”、Gehring J,Auli M,Grangier D等在2017年于国际机器学习会议发布的“卷积序列学习”等),由于其性能的快速改善已在多个任务中(如神经机器翻译)投入使用。序列到序列模型的生成机制是一个黑盒,因为它是一种特殊的深度神经网络模型,这意味着生成是不可控的(参考MoryossefA,Aharoni R,Goldberg Y于2019年在自然语言处理中的性别偏见研讨会论文中的“用黑盒语境注入填补神经机器翻译中的性别和数字差距”)。虽然不可控(或不保证)的生成可以满足基础要求,但是它在一些正式的情景中是不被接受的,尤其是关键数字、时间和专有名词。为了解决这一问题,受限生成任务被提出(参考Hokamp C,Liu Q于2017在第55届计算机语言学协会年会会报发布的“利用栅格束搜索进行序列生成的词法约束译码”),其通过强制在生成输出中包含预先指定的单词和短语来限制生成的决策,从而实现对系统输出的显式控制。
受限生成将人类的先验知识合并到翻译中,它要求限制特定场景下生成的灵活性,现有的工作通常会采用受限波束搜索解码的方法来实现。虽然总体上可以满足要求,但它比一般的端到端生成通常需要更大的波束大小和更长的解码时间,这限制了生成模型在部署中的并发处理能力,并且限制了其实用性。词汇受限(或引导)解码(参考Post M,VilarD于2018在北美计算机语言学协会:人类语言技术,发布的“神经机器翻译的快速词法约束解码”),改进了一般的波束搜索解码,已普遍使用在最近的受限生成研究中。尽管词汇受限解码是限制性翻译的合理选择,但其缓慢的解码速度同样成为了可控生成的瓶颈。
综上,如何在不影响模型可控生成效率的情况下实现对受限词的约束,缓解可控生成对于数据的需求,提升可控生成的效果是歌词可控生成任务中的一个亟待解决的问题。
发明内容
针对现有技术中存在的上述缺陷,本发明的目的是,提供一种基于模糊训练框架的音乐歌词可控生成的方法及系统,基于一种新的模糊训练框架,实现同时包含端到端生成和可控生成的训练模式,支持不同模式下的参数共享,缓解可控生成训练数据不足问题对模型优化的影响,提升音乐歌词可控生成的准确率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于李佳佳;王平;李祖超,未经李佳佳;王平;李祖超许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211142030.7/2.html,转载请声明来源钻瓜专利网。