[发明专利]一种基于软约束的诗词自动生成方法在审
申请号: | 202110676234.8 | 申请日: | 2021-06-18 |
公开(公告)号: | CN113420555A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 刘兴宇;杨迪;杨木润 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F40/30 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 约束 诗词 自动 生成 方法 | ||
本发明公开一种基于软约束的诗词自动生成方法,步骤为:网上收集现存古诗词数据进行预处理,以字为单位对每条诗词数据进行格式化处理形成训练数据,构建古诗词数据训练模型;收集《中华通韵》中的平仄、韵脚信息数据,制作诗词平仄押韵检测工具;古诗词数据训练模型在训练时引入诗词的格律信息生成古诗生成模型,在古诗生成模型的基础上调低学习率、批量数、训练轮数参数用词数据继续进行训练,收敛后得到词生成模型;用户输入任意多个关键词,并且指定平仄和需要的韵部,系统将这些信息送到古诗生成模型和/或词生成模型中,模型自动生成符合要求的诗词内容。本发明方法生成的内容符合诗词格律,使得模型可在统一的框架下生成各种体裁的诗词。
技术领域
本发明涉及一种自然语言处理技术,具体为一种基于软约束的诗词自动生成方法。
背景技术
随着技术的快速发展,面对日益复杂的任务和计算,大规模机器学习被认为是必然的发展趋势,成为工业界和学术界的研究热点,其理论方法已经被广泛应用于解决实际工程应用及科学领域的复杂问题,以统计为基础的机器学习受到人们的关注,并在语音、自然语言、视觉等领域获得成功应用,而近来在传统机器学习发展而来的深度学习方法,在各种任务上表现优异,甚至可以超过人类的水平,人们不断利用深度学习技术去做一些高难度的任务,如图像识别、摘要生成、情感分析、文本生成。
诗词自动生成是神经网络在自然语言处理(NLP,Nature Language Processing)任务上的应用之一,诗词具有语言凝练、语义丰富抽象等特点,一直都是自然语言处理中的难题。目前主流的方法——基于seq2seq框架大多只能生成绝句和律诗,因为它们格式规整,而对于格式要求更为复杂的词则鲜有尝试。近年有基于预训练语言模型来生成词的方法,这种方法是将诗词序列化成格式化的文本序列作为训练数据,该文本序列中包括:form、title、poetry body等内容,form中标识着诗词的类型,通过这种强规则关联的方法,模型能自动从中学到格式的约束,这种方法简单有效,对于大多数类型的诗词,都能做到格式正确、内容流畅,然而对于训练数据较少或内容太长的词牌,效果往往不理想。
发明内容
针对现有技术中诗词自动生成系统难以生成词,并且部分存在不符合诗词格律等不足,本发明要解决的技术问题是提供一种基于软约束的诗词自动生成方法,将诗词的格律信息显式的引入模型中约束其生成,保证生成的内容符合诗词的格律,从而显著提高模型的生成质量。
为解决上述技术问题,本发明采用的技术方案是一种基于软约束的诗词自动生成方法,包括以下步骤:
1)网上收集现存古诗词数据,进行数据清洗、分词、关键词提取预处理过程,然后以字为单位对每条诗词数据进行格式化处理形成训练数据,构建古诗词数据训练模型;
2)收集《中华通韵》中的平仄、韵脚信息数据,作为平仄和押韵的判定标准,制作诗词平仄押韵检测工具;
3)古诗词数据训练模型并在训练时引入诗词的格律信息,得到收敛后的模型参数,此模型即为古诗生成模型,之后在古诗生成模型的基础上调低学习率、批量数、训练轮数参数并用词数据继续进行训练,收敛后得到词生成模型;
4)用户输入任意多个关键词,并且指定平仄和需要的韵部,将这些信息送到古诗生成模型和/或词生成模型中,模型自动生成符合要求的诗词内容。
步骤1)中,网上现存诗词数据进行预处理形成训练数据,具体为:
101)对收集到的诗词数据,进行清洗和分词,古诗中保留五言绝句、七言绝句、五言律诗、七言律诗四种体裁的数据,词中保留词牌频数前200的数据,对数据中的标点符号进行统一,只保留逗号、句号、顿号三种标点符号,经过去重之后以字为单位进行分词;
102)利用tf-idf算法对每条诗词数据提取多个关键词作为输入,随机选取其中1-4个关键词,并将其前后顺序随机打乱,各关键词间用分隔符隔开,组成关键词序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110676234.8/2.html,转载请声明来源钻瓜专利网。