[发明专利]一种基于主题的文本自动生成方法在审
申请号: | 202010248761.4 | 申请日: | 2020-04-01 |
公开(公告)号: | CN111626020A | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 路松峰;李天成 | 申请(专利权)人: | 南京搜文信息技术有限公司 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 南京瑞华腾知识产权代理事务所(普通合伙) 32368 | 代理人: | 梁金娟 |
地址: | 211800 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 文本 自动 生成 方法 | ||
1.一种基于主题的文本自动生成方法,其特征在于,包括如下步骤:
1)获取语料库,并对语料库中语句进行预处理,提取经预处理后语句的主题词及词向量;
2)构建文本生成模型,并输入步骤1)获取的词向量进行模型参数的训练;
3)输入待生成文本,提取待生成文本的主题词,并获取其词向量,将主题词词向量输入至步骤2)中经参数训练后的文本生成模型中生成新文本。
2.根据权利要求1所述的一种基于主题的文本自动生成方法,其特征在于,所述步骤1)通过TFIDF方法来提取语句的主题词,并通过开源的python库gensim来训练主题词的词向量。
3.根据权利要求1所述的基于主题的文本自动生成方法,其特征在于,所述步骤1)中语句预处理包括:统一标点符号和将英文、数字和表情符号去掉。
4.根据权利要求1所述的基于主题的文本自动生成方法,其特征在于,所述步骤2)具体包括:
1)输入共享向量Ct={C0,C1,...},随着t的变化在不断变化,模型训练之前Ct被随机初始化为K维向量,K为步骤1)中随机抽取的主题词向量的数目,且每一维度的初始值为1,即C0=[c0,1,c0,2,...c0,K]=[1.0,1.0,1.0,1.0,1.0,...],在生成一个新的单词时,第t个向量的第j个分量ct,j由如下公式计算而来:
ct,j=ct-1,j-αtj
2)主题表示Tt由随着每一步文本的生成而更新,对于每一个时刻t,Tt由以下公式计算而来:
其中topicj是主题词j的词向量,即在时刻t的注意力得分,而αtj和gtj由以下公式表示:
gtj=vaTtanh(Waht-1+Uatopicj)
其中αtj是主题词向量i在时刻t的注意力权重得分,va、Wa以及Ua是LSTM中带训练的参数矩阵,gtj是主题词向量j在时刻t的注意力得分;因此,下一个单词yt的概率分布可以如下定义:
P(yt|yt-1,Tt,Ct)=softmax(g(ht))
每次生成之前,ht由以下公式来更新:
ht=f(ht-1,yt-1)
其中函数g是一个线性函数,而函数f是有LSTM结构决定的激活函数,sofmax为计算概率的激励函数,模型P(yt|yt-1,Tt,Ct)=softmax(g(ht))维护一个共享向量,该向量的每一维表示某个主题词向量将来需要在生成的文本中出现的概率,共享向量可以提高生成文本的主题完整性以及可读性,同时将注意力机制添加到LSTM模型中,注意力机制可以为生成的文本与每个主题词向量计算语义相关性,同时自动选择相关的主题来引导模型生成文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京搜文信息技术有限公司,未经南京搜文信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010248761.4/1.html,转载请声明来源钻瓜专利网。