[发明专利]基于BERT句子向量输入的诗词生成方法及装置有效
申请号: | 202011001193.4 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112183058B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 杨婉霞;杨小平;王咏梅;周蓓蓓;刘柯楠 | 申请(专利权)人: | 甘肃农业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 刘红阳 |
地址: | 730070 *** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 句子 向量 输入 诗词 生成 方法 装置 | ||
本发明涉及计算机生成诗句领域,具体为基于BERT句子向量输入的诗词生成方法及装置。解决了目前基于神经网络的诗词生成模型对诗词语义的学习和表示还不够深入和全面的问题。其方法为:首先对诗词语料库中的原始语料预处理和主题词提取,利用预处理后的预料和提取的主题词训练生成第一句的Word‑to‑Line模型和下文生成的Context‑to‑Line模型,在用户输入语句后,利用TextRank算法提取出若干主题词,通过Word‑to‑Line模型对前1‑2个主题词学习分析得到诗词第一句,通过Context‑to‑Line模型对若干主题词和已有生成诗句学习分析生成其余诗句。本方法增加了诗句之间的关系理解,提高了生成诗歌的质量,使生成的诗歌不仅满足格律、用韵等格式要求,而且在流畅性,主题一致性等方面均有明显的改进。
技术领域
本发明涉及计算机生成诗句领域,具体为基于BERT句子向量输入的诗词生成方法及装置。
背景技术
但随着计算机技术和机器学习的发展,使诗词的创作方式和生成手段发生了前所未有的改变,特别是随着深度学习的再次崛起和技术革新,大大提高了生成诗歌的质量。然而,目前基于神经网络的诗词生成模型对诗词语义的学习和表示还不够深入和全面,主要体现在模型的编码层在将文本转换为空间向量时缺失动态的语义信息。因为目前将文本转化为嵌入式矢量的工具主要为word embedding,它不是根据上下文实时计算输出特征矢量,它输出的是一个静态的矢量。另外,word embedding的输入是词级,这就意味着首先要对句子进行分词,然后通过词来获取其对应的词向量,那么分词结果的不准确直接影响输出的特征矢量的涵义有偏差。
发明内容
本发明提供了一种基于BERT句子向量输入的诗词生成方法,解决了目前基于神经网络的诗词生成模型对诗词语义的学习和表示还不够深入和全面的问题,以及根据方法衍生的诗句生成装置,采取新的预训练方式形成不同的诗句生成模块,增加了诗句之间的关系理解,大大提高了生成诗歌的质量,使生成的诗歌不仅满足格律、用韵等格式要求,而且在流畅性,主题一致性等方面均有明显的改进。
本发明的目的之一是基于BERT句子向量输入的诗词生成方法,首先对诗词语料库中的原始语料预处理和主题词提取,利用预处理后的预料和提取的主题词训练生成第一句的Word-to-Line模型和下文生成的Context-to-Line模型,在用户输入语句后,利用TextRank算法提取出若干主题词,通过Word-to-Line模型对前1-2个主题词学习分析得到诗词第一句,通过Context-to-Line模型对若干主题词和已有生成诗句学习分析生成其余诗句。
所述对诗词语料库中的原始语料预处理和主题词提取包括:
将原始语料整理成不包含题目和符号的单独诗句格式;
对单独诗句进行主题词提取。
所述主题词提取方法为:
利用TextRank中文分词工具对诗句进行分词、词性标注以及停用词过滤,保留名词、动词和形容词作为初步候选主题词;
利用词的共现关系构建候选主题词图;
利用计算主题词权重;
对主题词权重倒序排序,得到若干个词最终候选主题词,并保留在原诗句中的顺序。
所述Word-to-Line模型为:
BERT提取出输入主题词序列的token,位置和分割嵌入特征,并将特征转换为字向量后输出;
将字向量输入BiLSTM层对其进行编码,得到正向隐藏状态向量和反向隐藏状态向量;
通过LSTM编码对正反向隐藏状态向量结合,形成最终的隐藏状态向量;
利用Decoder的解码端根据当前的状态和最终隐藏状态向量并结合Attention机制,以字符的形式生成诗句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甘肃农业大学,未经甘肃农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011001193.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化配电柜
- 下一篇:河流两侧盐碱地改良方法