[发明专利]一种基于软约束的诗词自动生成方法在审
申请号: | 202110676234.8 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113420555A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 刘兴宇;杨迪;杨木润 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 约束 诗词 自动 生成 方法 | ||
1.一种基于软约束的诗词自动生成方法,其特征在于包括以下步骤:
1)网上收集现存古诗词数据,进行数据清洗、分词、关键词提取预处理过程,然后以字为单位对每条诗词数据进行格式化处理形成训练数据,构建古诗词数据训练模型;
2)收集《中华通韵》中的平仄、韵脚信息数据,作为平仄和押韵的判定标准,制作诗词平仄押韵检测工具;
3)古诗词数据训练模型并在训练时引入诗词的格律信息,得到收敛后的模型参数,此模型即为古诗生成模型,之后在古诗生成模型的基础上调低学习率、批量数、训练轮数参数并用词数据继续进行训练,收敛后得到词生成模型;
4)用户输入任意多个关键词,并且指定平仄和需要的韵部,将这些信息送到古诗生成模型和/或词生成模型中,模型自动生成符合要求的诗词内容。
2.按权利要求1所述的基于软约束的诗词自动生成方法,其特征在于:在步骤1)中,网上现存诗词数据进行预处理形成训练数据,具体为:
101)对收集到的诗词数据,进行清洗和分词,古诗中保留五言绝句、七言绝句、五言律诗、七言律诗四种体裁的数据,词中保留词牌频数前200的数据,对数据中的标点符号进行统一,只保留逗号、句号、顿号三种标点符号,经过去重之后以字为单位进行分词;
102)利用tf-idf算法对每条诗词数据提取多个关键词作为输入,随机选取其中1-4个关键词,并将其前后顺序随机打乱,各关键词间用分隔符隔开,组成关键词序列;
103)对分词后的数据按照一定的方式进行格式化,格式化的方法为:诗词体裁+分隔符1+诗词关键词序列+分隔符2+诗词内容,其中诗词的体裁有:五言绝句、七言绝句、五言律诗、七言律诗、各种词牌名,分隔符1为[FOR],分隔符2为[KW];如果词的内容需要分节,可以在词的内容中再加上分隔符3[SEC]。
3.按权利要求1所述的基于软约束的诗词自动生成方法,其特征在于:在步骤2)中收集《中华通韵》中的平仄、韵脚信息数据,制定统一的识别标准,利用收集到的数据制作诗词平仄押韵检测工具,该工具在模型训练过程中对每条训练数据进行平仄押韵的标记,并将这些信息融入模型中。
4.按权利要求1所述的基于软约束的诗词自动生成方法,其特征在于:在步骤3)在模型中引入诗词的格律信息,引入一套格式控制符来约束模型的生成,并以两步骤的方式进行训练,具体如下:
301)将每条数据看作一个样本,利用构造的训练数据训练一个语言模型,语言模型每加载一个批量数据,就利用平仄押韵检测工具对批量数据中的每一条数据进行平仄押韵标记,得到每条数据的格律信息,之后将这些信息表示成向量形式并融合到模型的词嵌入层;
302)用古诗数据进行训练,模型收敛后得到古诗生成模型,之后调低学习率、批量数、训练轮数参数,用词数据继续进行训练至收敛得到词生成模型。
5.按权利要求1所述的基于软约束的诗词自动生成方法,其特征在于:在步骤4)在生成阶段用户可以指定多个关键词和诗词所需的格律,具体为:
401)将用户输入的关键词与体裁信息按照训练时的方式进行格式化:诗词体裁+分隔符1+诗词关键词序列+分隔符2,系统提示输入或选择平仄和押韵信息,之后将构造的输入数据送到古诗生成模型和/或词生成模型中;
402)模型在解码时,按照训练的方式将格律的词嵌入向量加入到对应字的位置上,模型自动在合适的位置预测出逗号和句号,当模型预测的单词为“EOS”的时候,解码过程结束;
403)整个解码过程采用Top-K算法,保证内容的多样性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110676234.8/1.html,转载请声明来源钻瓜专利网。