[发明专利]基于LSTM模型的现代文到古诗的转换方法及装置在审
申请号: | 201611140395.0 | 申请日: | 2016-12-12 |
公开(公告)号: | CN106598921A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 王东;白紫薇;冯洋;杜新凯;游世学 | 申请(专利权)人: | 清华大学;北京中科汇联科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙)11417 | 代理人: | 李文军 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 lstm 模型 现代文 古诗 转换 方法 装置 | ||
技术领域
本发明涉及一种基于LSTM模型的现代文到古诗的转换方法及装置。
背景技术
读史书使人明智,读诗书使人灵秀,诗词是中国千百年来的文化积淀和民族瑰宝,是语言的精华,是智慧的结晶,是思想的花朵,是人类最纯粹的精神家园。但随着语言的发展,当代人对诗词的了解越来越少,作诗的能力也远远比不上古人。
幸运的是,随着大数据时代的到来,人工智能飞速发展,通过计算机古诗词的自动转换成为可能。例如,可以通给出一个目标主题,机器可以自动生成一首符合该主题的古诗。让机器做诗可以减少人类在写诗中寻词、造句上的困难,使诗人关注诗的主题、意境等更有价值的东西;同时,机器做的诗不受人类传统思维的束缚,创新性极强。这些创新性虽然并不完全合理,但却给诗人丰富的提示,进而激发诗人更多创作灵感,写出更具有奇思妙想的创新型作品。我们相信,古诗的自动生成可以极大激人们对古典文学的兴趣,对我国传统艺术的发展与继承有着重要的作用。
然而,当前依主题指定方式为基础的自动做诗方法具有很大的局限性。一方面,这种方式对主题词的选择要求较高,只有主题词选的合理,生成的古诗才更合理。这对很多普通用户形成很大障碍,我们希望用户只用现代汉语描述出要生成古诗要表达的意境和内容,机器将这一描述浓缩成古诗,因而可极大提高古诗生成系统的适用性。另一方面,依当前主题词指定的方式,诗人只能在大泛围内给出做诗的内容,却不能精确控制做诗的流程。事实上,古诗不仅是词语的合规批凑,更重要的是诗人感情通过写景、叙事过程的递进式升华。当前以主题限定方式生成的古诗,不具有思维的连惯性和活跃性,无法形成合理的表义逻辑,无法形成完整递进的主题表达,因而生成的诗很多只是词语的堆砌,缺乏情感和逻辑性,应用有限。
发明内容
本发明的目的在于克服现有技术的缺点,提供一种基于LSTM模型的现代文到古诗的转换方法及装置。
与传统主题词指定的做诗方法相比,现代文古诗生成要困难的多。一个显著的困难是,现代文的长度一般远大于古诗长度,如果要将现代文转化为古诗,需要提取出其中最有价值的语义信息,并将这些信息用精练的古代汉语表达出来。比如:“现在正是早春二月,春风吹拂,春草萌生,过不了多久,就会绿透江南岸边”可以对应诗词“春风又绿江南岸”,白话文中的“现在正是”,“过不了多久”,“就会”这些词都对表义没有太多帮助。我们需要提取出如“绿”,“江南”,“岸边”等表意比较明确的字,形成句子的意义。如何提取出句义,对合理的古诗生成具有重要意义。
另一方面,一句现代汉语可能有多种转写形式, 如何自然地生成多种表达方式的古诗,也是需要解决的问题。
本发明的目的通过以下技术方案来实现:基于LSTM模型的现代文到古诗的转换方法,所述的LSTM模型包括用于将用户的输入词序列转化为一个固定维度的稠密向量(一个激活状态)的编码部件和根据激活状态调节目标序列的生成的解码部件。
编码和解码部分都是通过LSTM实现。首先,系统将用户的现代文输入句子经过一个双向LSTM网络进行编码,其中每个句子表达成一个语义向量,形成一个语义向量组。这些语义向量作为用户意图的编码。在生成过程中,一个LSTM网络不断循环运行,生成文本的中的每一个字,在生成每一个字的时候,需要将该句所对应的语义向量作为参考输入,使得该句生成与用户要求的表义内容相符合。
引入意图向量的目的是在生成过程中,更加关注输入序列中与输出最为相关的部分。比如:在“现在正是早春二月,春风吹拂,春草萌生,过不了多久,就会绿透江南岸边”中,相比与“现在是”、“就会”我们更加关注“二月”、“江南”等词。
注意,在生成过程中,我们加入断句、押韵、平仄等文体规则,保证了生成的“字串”既能最大程度地符合用户意图的同时,遵循强制的诗词规则。
编码部件:
在编码过程中,我们使用了双向LSTM模型,单向LSTM模型某一时刻的输出只与当前时刻及以前时刻的输入信息有关,而双向LSTM某一时刻的输出还与之后的输入信息有关。
前向的LSTM模型按照信息输入的顺序读取输入序列(),并计算出前向隐层状态()。后向的LSTM模型按与信息输入相反的顺序读取序列(),并计算后向隐层状态(),将前向和后向状态连接在一起得到每个词的解释向量。通过这种方法,我们得到的既包含了该点前面的词的信息,也包含了该点后面的词的信息。
解码部件:
在decoder层中,我们定义条件概率为:
是LSTM是i时刻的隐层状态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京中科汇联科技股份有限公司,未经清华大学;北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611140395.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种笔画编码结合汉字点阵的形近字分类方法
- 下一篇:一种字符串转换方法及系统