[发明专利]基于BERT句子向量输入的诗词生成方法及装置有效
申请号: | 202011001193.4 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112183058B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 杨婉霞;杨小平;王咏梅;周蓓蓓;刘柯楠 | 申请(专利权)人: | 甘肃农业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 刘红阳 |
地址: | 730070 *** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 句子 向量 输入 诗词 生成 方法 装置 | ||
1.基于BERT句子向量输入的诗词生成方法,其特征在于:首先对诗词语料库中的原始语料预处理和主题词提取,利用预处理后的预料和提取的主题词训练生成第一句的Word-to-Line模型和下文生成的Context-to-Line模型,在用户输入语句后,利用TextRank算法提取出若干主题词,通过Word-to-Line模型对前1-2个主题词学习分析得到诗词第一句,通过Context-to-Line模型对若干主题词和已有生成诗句学习分析生成其余诗句;
所述Word-to-Line模型为:
BERT提取出输入主题词序列的token,位置和分割嵌入特征,并将特征转换为字向量后输出;
将字向量输入BiLSTM层对其进行编码,得到正向隐藏状态向量和反向隐藏状态向量;
通过LSTM编码对正反向隐藏状态向量结合,形成最终的隐藏状态向量;
利用Decoder的解码端根据当前的状态和最终隐藏状态向量并结合Attention机制,以字符的形式生成诗句;
所述Context-to-Line模型为:
BERT提取出输入对应诗句的主题词和已有诗句序列的token,位置和分割嵌入特征,并将特征转换为字向量后输出;
将字向量输入BiLSTM层对其进行编码,得到正向隐藏状态向量和反向隐藏状态向量;
通过LSTM编码对正反向隐藏状态向量结合,形成的最终隐藏状态向量;
利用Decoder的解码端根据当前的状态和最终隐藏状态向量并结合Attention机制,以字符的形式生成诗句。
2.根据权利要求1所述的基于BERT句子向量输入的诗词生成方法,其特征在于:所述对诗词语料库中的原始语料预处理和主题词提取包括:
将原始语料整理成不包含题目和符号的单独诗句格式;
对单独诗句进行主题词提取。
3.根据权利要求2所述的基于BERT句子向量输入的诗词生成方法,其特征在于:所述主题词提取方法为:
利用TextRank中文分词工具对诗句进行分词、词性标注以及停用词过滤,保留名词、动词和形容词作为初步候选主题词;
利用词的共现关系构建候选主题词图;
利用计算主题词权重;
对主题词权重倒序排序,得到若干个词最终候选主题词,并保留在原诗句中的顺序。
4.根据权利要求1所述的基于BERT句子向量输入的诗词生成方法,其特征在于:所述利用TextRank算法提取出主题词时,当提取主题词大于4个时,进行诗词生成;当提取主题词小于4个时,利用BERT的预训练模型,根据输入的语句,预测出与其语义相关的下一句,扩展至若干语句,后对若干语句利用TextRank算法提取出主题词,每句至少提取1-2主题词。
5.根据权利要求1所述的基于BERT句子向量输入的诗词生成方法,其特征在于:所述Word-to-Line模型生成的第一句诗词仅且由主题词分析生成。
6.利用权利要求1-5任意一项深度学习的诗词生成方法的装置,其特征在于:包括:
输入模块:用户进行语音输入或者字符输入;
主题词提取模块:利用TextRank算法提取输入模块中用户输入语句的主题词;
Word-to-Line模型模块:对主题词分析生成诗词第一句;
Context-to-Line模型模块:对主题词和已有生成诗句分析生成其余诗句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于甘肃农业大学,未经甘肃农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011001193.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化配电柜
- 下一篇:河流两侧盐碱地改良方法