[发明专利]一种基于主题模型的HSK作文生成方法在审
申请号: | 201811202083.7 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109376347A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 吕学强;游新冬;董志安 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 主题模型 句子 主题关键词 交叉熵 词语 自动生成 连贯性 错别字 语法 写作 应用 | ||
本发明涉及一种基于主题模型的HSK作文生成方法,包括:训练LDA模型,得到句子和文本、词语和文本的分布,计算交叉熵,选择与主题关键词最相近的句子,然后生成文本。本发明提供的基于主题模型的HSK作文生成方法,通过训练LDA主题模型,得到句子和文本、词语和文本的分布,并通过计算交叉熵,选择与主题关键词最相近的句子,然后生成文本,且自动生成的文本在连贯性和逻辑性上效果好,语法错误较少,错别字较少,能够很好地完成写作任务,可以很好地满足实际应用的需要。
技术领域
本发明属于文本信息处理技术领域,具体涉及一种基于主题模型的HSK作文生成方法。
背景技术
在IT行业和互联网高速发展的时代,人们正梦想着使自然语言可计算,以便我们可以在大规模非结构化文本下发掘出隐藏的信息和知识。人工智能(AI)技术正在快速增长。20年前,IBM公司在1997年研制的深蓝(Deep Blue)打败国际象棋世界冠军GarryKasparov,2016年3月AlphaGo以其Monte Carlo树搜索算法击败李世石。这是人工智能研究的一个重要里程碑。
另一方面,AI和大数据的结合为自然语言处理技术带来前所未有的发展。人工智能机器人因其工作原理是基于规则进行逻辑推理,所以适用于程序化劳作,可以处理数据量较大、时效性要求高的工作。大数据支持一些破冰的想法打破了许多行业,甚至写作的传统框架。随着计算机技术和人工智能技术的发展,人类最高智慧而产生的文学写作,已经进入了“电脑制造”的时代。同时也带来写作观念、写作行为和写作思维方式的变化。自然语言生成是诸如知识库或逻辑形式的机器表示系统生成自然语言的自然语言处理任务。可以说,自然语言生成系统就像一个将数据转换为自然语言表示的翻译器。然而,由于自然语言的固有表达性,产生最终语言的方法不同于编译器的方法。
汉语水平考试(HSK)是为测试母语为非汉语者的汉语水平而设立的一项国际汉语能力标准化考试。相当于英语的四级、六级考试,以及托福、雅思考试等。国内外关于英语考试的研究,尤其是英语考试写作的研究已经有丰硕的成果。但是,目前对汉语水平考试写作的研究还较少,尤其是研究现有的自然语言处理技术智能答题的能力。随着HSK在全世界范围的推广,越来越多海外的汉语学习者开始参与HSK考试。国内对于HSK考试的研究也不断加大。
写作题主要考察的是语序,语法,内容和语言逻辑,是很好的研究自然语言生成的课题。写作任务看起来是比较困难的挑战。但是,经过分析写作任务,和训练机器学习模型,也可以将写作任务转化成可训练的文本生成任务。随着大数据技术,自然语言处理以及其他人工智能技术的不断发展,逐渐掀起了用算法自动生成新闻报道的探索和实践。随着新闻写作自动生成技术的不断实践和发展,不断印证了人工智能技术可以帮助人们快速便捷的进行数据处理和整合。在新闻媒体界的发展必将改变新闻媒体的传播内容和传播方式。然而,现有技术的自动生成文本在连贯性和逻辑性上效果欠佳,语法错误出现较多,错别字较多,这些问题亟待改善。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于主题模型的HSK作文生成方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种基于主题模型的HSK作文生成方法,包括:训练LDA模型,得到句子和文本、词语和文本的分布,计算交叉熵,选择与主题关键词最相近的句子,然后生成文本。
进一步地,选用训练数据集训练LDA模型,选用训练数据集的步骤包括:选择“HSK动态作文语料库”作为基本语料库;首先按照语料库中对作文的修改标注,将语料处理为标准作文语料,即按照语料库中标注出的错误和给出的修改,将标注作文处理为规范的作文,将这些规范作文样本,作为标准语料,进行对LDA模型的训练。
进一步地,训练LDA模型的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811202083.7/2.html,转载请声明来源钻瓜专利网。