[发明专利]基于深度学习的诗歌生成方法、装置、设备及存储介质在审
申请号: | 201910430866.9 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110134968A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 张荣升;汪硕芃;刘勇;毛晓曦;范长杰 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 柴海平;刘芳 |
地址: | 310052 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题信息 生成模型 存储介质 质量系数 筛选 模型训练 训练语料 主题内容 候选集 学习 关联 | ||
1.一种基于深度学习的诗歌生成方法,其特征在于,包括:
获取待生成诗歌的主题信息和诗歌类型;
将所述主题信息输入所述诗歌类型对应的诗歌生成模型中,生成包括多首诗歌的候选集,所述诗歌类型对应的诗歌生成模型是采用所述诗歌类型对应的训练语料对基于深度学习的transformer模型训练得到;
计算所述候选集中每首诗歌的质量系数;
根据所述质量系数,确定所述候选集中的至少一首诗歌。
2.根据权利要求1所述的方法,其特征在于,所述将所述主题信息输入所述诗歌类型对应的诗歌生成模型中,生成包括多首诗歌的候选集,包括:
将所述主题信息输入所述诗歌类型对应的诗歌生成模型中之后,在进行每一步解码之前,根据所述诗歌类型的格式要求,修改所述诗歌生成模型的解码器,以使解码得到诗歌符合所述诗歌类型的格式要求。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述主题信息输入所述诗歌类型对应的诗歌生成模型中,生成包括多首诗歌的候选集之前,还包括:
获取各诗歌类型对应的第一训练语料;
采用任意一种诗歌类型对应的第一训练语料,对基于深度学习的transformer模型进行模型训练,得到该诗歌类型对应的诗歌生成模型。
4.根据权利要求3所述的方法,其特征在于,所述获取各诗歌类型对应的第一训练语料,包括:
针对任意一种诗歌类型,获取该诗歌类型对应的诗歌作品作为原始语料;
提取所述原始语料中每个诗歌作品的主题词;
根据所述原始语料中每个诗歌作品的主题词,生成所述每个诗歌作品的训练语料,每一条所述训练语料包括一个诗歌作品和该诗歌作品的主题信息,该诗歌作品的主题信息包括该诗歌作品的至少一个主题词;
该诗歌类型对应的第一训练语料包括该诗歌类型对应的诗歌作品的训练语料。
5.根据权利要求4所述的方法,其特征在于,所述采用任意一种诗歌类型对应的第一训练语料,对基于深度学习的transformer模型进行模型训练,得到该诗歌类型对应的诗歌生成模型,还包括:
获取该诗歌类型对应的第二训练语料,所述第二训练语料包括该诗歌类型对应的除诗歌作品外的其他文学作品的训练语料;
采用该诗歌类型对应的第二训练语料,对基于深度学习的transformer模型进行预训练,得到该诗歌类型对应的初始模型;
采用该诗歌类型对应的第一训练语料,对所述初始模型进行模型训练,得到该诗歌类型对应的所述诗歌生成模型。
6.根据权利要求1或2所述的方法,其特征在于,所述计算所述候选集中每首诗歌的质量系数,包括:
对于任意一首诗歌,根据所述主题信息所包含的主题词,计算该诗歌与所述主题信息的关联系数,所述关联系数为该诗歌中出现的所述主题信息所包含主题词的数量占所述主题信息所包含的主题词的总数的比例;
计算该诗歌的字重复度,所述字重复度=该诗歌中出现的不同的字的个数/该诗歌的总字数;
相应地,所述根据所述质量系数,确定所述候选集中的至少一首诗歌,包括:
根据候选集中每首诗歌的与所述主题信息的关联系数和字重复度,确定所述候选集中的至少一首诗歌。
7.根据权利要求1或2所述的方法,其特征在于,所述获取待生成诗歌的主题信息和诗歌类型,包括:
接收用户输入的主题信息和诗歌类型;
或者,
接收用户输入的主题信息;
获取各诗歌类型的预设抽样概率;
根据所述主题信息所包含的主题词,调整各诗歌类型的抽样概率;
根据各诗歌类型的抽样概率,抽样确定所述待生成诗歌的诗歌类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910430866.9/1.html,转载请声明来源钻瓜专利网。