[发明专利]一种基于主题的文本自动生成方法在审
申请号: | 202010248761.4 | 申请日: | 2020-04-01 |
公开(公告)号: | CN111626020A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 路松峰;李天成 | 申请(专利权)人: | 南京搜文信息技术有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 梁金娟 |
地址: | 211800 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 文本 自动 生成 方法 | ||
本发明公开了一种基于主题的文本自动生成方法,包括如下步骤:1)获取语料库,并对语料库中语句进行预处理,提取经预处理后语句的主题词及词向量;2)构建文本生成模型,并输入步骤1)获取的词向量进行模型参数的训练;3)输入待生成文本,提取待生成文本的主题词,并获取其词向量,将主题词词向量输入至步骤2)中经参数训练后的文本生成模型中生成新文本。通过本发明生成的文本生成语句流畅、连贯,且涉及到所有输入主题词,且与主题词紧紧相关。
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于主题的文本自动生成方法。
背景技术
自然语言生成是自然语言处理以及计算语言学领域中一个基础且富有挑战性的任务,基于主题的文本生成可以看作是一种特殊的自然语言生成。当今自然语言生成的研究方向主要有以下三个:基于模板的方法、基于语法的方法以及基于统计学习的方法。基于模板的方法往往采用大量人工定制的模板,然后预留一些空位来自定的填写。基于语法的方法通过人为设置文章的语法结构来逐步生成文本。而基于统计学的方法关注于学习语料库中语言模型,学习正常的人类是如何写作,学习各种语言成分之间的关系。
传统的自然语言生成是基于规则的,这种方法往往生成的效果比较好,但是需要很多特定领域的专家来制定统一的语法、行文规则,因此时间以及人力成本较高,同时使用这种方法形成的系统通常难以移植,即没有泛化能力。
研究方向从基于规则的方法转变为基于统计的方法的原因主要有以下两个:
计算机硬件的快速发展导致计算能力稳定增加,自从1946年构建起的第一台电子计算机ENIAC起,构成计算机的各个组件每年都发生了天翻地覆的改变,各种硬件成本变得低廉而运算速度却变得更快。大型操作系统的建立以及各种编程语言的发明使得处理各个问题变得方便快捷,人们可以借助于了更加强大、更加智能的计算机。
乔姆斯基语言学理论渐渐丧失主导,基于统计学些的自然语言处理方向逐渐走向主流。
由于统计学主要根据词语和出现的频度来进行处理,但词语仅仅是语义的一部分,无法代表语义,因此由此进行的文本自动生成的语义性很差,也很难表示出与中心思想相关的主题。
发明内容
本发明的目的旨在解决上述问题,从而提供一种基于主题的文本自动生成方法。
为实现上述目的,本发明提供了一种基于主题的文本自动生成方法,该方法包括如下步骤:
1)获取语料库,并对语料库中语句进行预处理,提取经预处理后语句的主题词及词向量;
2)构建文本生成模型,并输入步骤1)获取的词向量进行模型参数的训练;
3)输入待生成文本,提取待生成文本的主题词,并获取其词向量,将主题词词向量输入至步骤2)中经参数训练后的文本生成模型中生成新文本。
进一步地,所述步骤1)通过TFIDF方法来提取语句的主题词,并通过开源的python库gensim来训练主题词的词向量。
进一步地,步骤1)中语句预处理包括:统一标点符号和将英文、数字和表情符号去掉。
进一步地,所述步骤2)具体包括:
1)输入共享向量Ct={C0,C1,…},随着t的变化在不断变化,模型训练之前Ct被随机初始化为K维向量,K为步骤1)中随机抽取的主题词向量的数目,且每一维度的初始值为1,即C0=[c0,1,c0,2,…c0,K]=[1.0,1.0,1.0,1.0,1.0,…],在生成一个新的单词时,第t个向量的第j个分量ct,j由如下公式计算而来:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京搜文信息技术有限公司,未经南京搜文信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010248761.4/2.html,转载请声明来源钻瓜专利网。