[发明专利]一种古诗词生成方法和装置有效
申请号: | 202010143914.9 | 申请日: | 2020-03-04 |
公开(公告)号: | CN111368056B | 公开(公告)日: | 2023-09-29 |
发明(设计)人: | 韩庆宏;李纪为 | 申请(专利权)人: | 北京香侬慧语科技有限责任公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/30;G06F40/166 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 柳欣 |
地址: | 100080 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 古诗词 生成 方法 装置 | ||
本发明提供了一种古诗词生成方法和装置,其中,该方法包括:获取多个古诗词文本和待生成古诗词的白话文文本;将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。通过本发明实施例提供的古诗词生成方法和装置,可以直接将未标注的古诗词文本输入到生成器中对所述生成器进行预训练,使得预训练生成器具有古诗词的内在结构和语义关系,对古诗词的模式有较强的判断力。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种古诗词生成方法和装置。
背景技术
目前,古诗词是中国古代的一种文体,其特征是以文字为基础来写作,注重典故、骈俪对仗、音律工整且不使用标点。与现代使用的白话文相比,古诗词更为简洁典雅且能够表达更丰富的含义,但现代人很少背诵古诗,只能用白话文进行表达,所以需要将白话文转换成文言文。
相关技术中,基于白话文到古诗词生成方法大都是将其视为一种“机器翻译”任务,也就是把白话文视为源语言,把古诗词视为目标语言,然后使用一个编码-解码模型将白话文“翻译”成古诗词。
然而,当前白话文到古诗词的语料较少,而翻译任务往往需要较多语料才能取得较好的结果,所以上述使用一个编码-解码模型将白话文“翻译”成古诗词的方法无法生成高质量的古诗词。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种古诗词生成方法和装置。
第一方面,本发明实施例提供了一种古诗词生成方法,包括:
获取多个古诗词文本和待生成古诗词的白话文文本;
将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;
利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。
第二方面,本发明实施例还提供了一种古诗词生成装置,包括:
获取模块,用于获取多个古诗词文本和待生成古诗词的白话文文本;
预训练模块,用于将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器;
处理模块,用于利用所述预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词。
第三方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种古诗词生成装置,所述古诗词生成装置包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行上述第一方面所述的方法的步骤。
本发明实施例上述第一方面至第四方年提供的方案中,通过将所述多个古诗词文本输入到生成器中,对所述生成器进行预训练,得到预训练生成器,然后利用预训练生成器对所述白话文文本的文本特征向量进行处理,生成所述白话文文本对应的古诗词,与相关技术中把白话文视为源语言,把古诗词视为目标语言,然后使用一个编码-解码模型将白话文“翻译”成古诗词的方式相比,无需标注大量的能够翻译成古诗词的白话文,可以直接将未标注的古诗词文本输入到生成器中对所述生成器进行预训练,使得预训练生成器具有古诗词的内在结构和语义关系,对古诗词的模式有较强的判断力,从而利用预训练生成器对所述白话文文本的文本特征向量进行处理,就可以生成与白话文文本对应的古诗词,提高了古诗词的生成质量。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京香侬慧语科技有限责任公司,未经北京香侬慧语科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010143914.9/2.html,转载请声明来源钻瓜专利网。