[发明专利]基于语料库和格律规则的汉语古诗词自动生成方法有效

专利信息
申请号: 201610850545.0 申请日: 2016-09-26
公开(公告)号: CN106569995B 公开(公告)日: 2019-04-02
发明(设计)人: 李克非;张怡 申请(专利权)人: 天津大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/36
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 李丽萍
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于语料库和格律规则的汉语古诗词自动生成方法,主要是根据诗词的特点和诗句对应关系筛选并生成新的诗句,组成新的诗词,具体步骤如下:1)利用分词工具对诗集进行划分;2)根据原诗句的标点符号将分词结果按照对句的形式录入一诗句语料库中;3)汉语古诗词自动生成的初始设置,包括:根据用户选择所要生成的诗词类型,输入第一句的诗词的诗句;4)得到出现词的候选词集合;5)根据诗词类型和输入诗句生成新诗句,作为给定诗句重复步骤4)至6)生成下一句诗句,直到满足所确定的诗词类型所对应的句数为止。本发明对于给定的诗句,能够自动生成对应的诗句组成连贯的诗词。填补了我国在汉语古诗词自动生成领域方面的不足。
搜索关键词: 基于 语料库 格律 规则 汉语 古诗词 自动 生成 方法
【主权项】:
1.一种基于语料库和格律规则的汉语古诗词自动生成方法,是根据诗词的特点和诗句对应关系筛选并生成新的诗句,从而组成新的诗词,具体步骤如下:步骤一、利用中文分词工具IKAnanlyzer对诗集中的所有诗词的诗句按照标点符号作为句子之间的划分,从而对句子进行分词;步骤二、将步骤一分词后的结果和原诗句的标点符号录入一诗句语料库中,其中,根据原诗句的标点符号将分词后的结果按照对句的形式录入;步骤三、汉语古诗词自动生成的初始设置,包括:根据用户选择所要生成的诗词类型,输入第一句的诗词的诗句,利用中文分词工具IKAnanlyzer对输入诗句进行分词处理;所述诗词类型包括诗体和/或句数;所述诗体至少包括七言诗、五言诗、词格律,若诗词类型中只包括有诗体而没有句数,则需要用户决定需要生成的句数,结合诗体作为最终选择的诗词类型;系统默认生成的诗词类型为七言律诗;步骤四、将步骤三分词处理结果得到的若干个词作为出现词,依次根据各个出现词检查一候选词库,若所述候选词库中没有该出现词,则:在诗句语料库中找出出现词的所有的对句,然后再在所有的对句中找对应位置的词,并统计该词出现的次数,以该次数作为频率,将频度大于1次的词作为候选词,将出现词添加到候选词库,同时在出现词的候选词集合中添加候选词;若候选词库中已经有该出现词,则得到出现词的候选词集合;步骤五、根据用户选择的诗词类型和输入诗句生成一句诗句,包括:根据用户输入诗句的分词判断输入诗句的平仄及如果该诗词类型有押韵原则还包括所押韵,根据输入一句诗句中的出现词从后往前依次生成新词,并由新词组成新诗句;其中:在通过词共现的方法匹配单词的过程中,结合诗词的平仄规律和押韵规律,所述平仄和押韵规律的判断由用户输入诗句和用户选择的诗词类型决定;而且对于诗和词,诗词类型的决定方式不同:在诗中,用户输入的诗句的平仄和韵部决定整首诗的平仄和押韵规律,选择的诗词类型决定诗的字数和句数;在词中:用户输入诗句只决定押韵规律,而平仄规律由用户选择的诗词类型确定;步骤六、将生成的新的诗句,作为给定诗句;步骤七、重复步骤四至步骤六生成下一句诗句,直到满足步骤三中确定的诗词类型所对应的句数,至此生成了一首汉语古诗词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610850545.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top