[发明专利]一种不同分面观点演化趋势引导的文本生成方法有效
申请号: | 201911360607.X | 申请日: | 2019-12-25 |
公开(公告)号: | CN111221964B | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 秦涛;王熙凤;郑庆华;罗敏楠;张玉哲;王伟帆;王浩年 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/0442;G06N3/0464;G06N3/045;G06N3/094 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 马贵香 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 观点 演化 趋势 引导 文本 生成 方法 | ||
1.一种不同分面观点演化趋势引导的文本生成方法,其特征在于,包括以下步骤:
步骤1,构造分类器:以社交网络中特定热点事件的全部博文作为源语料集,通过清洗、分割、归类训练得到分类器,将此分类器作为判别器;
步骤2,观点对抗文本生成:文本生成模型包括一个生成器和三个对抗训练的判别器,生成器生成和语料句子分面相同、观点对抗的文本,三个判别器区分生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法区分生成器生成的句子和源语料句子;
构造分类器过程包括:
1)确定舆情事件的重要分面,对于每个分面,给出一定的关键词或短语描述,称为分面描述;
2)利用源语料集训练word2vec词向量模型,从而获得语料句子和分面描述的词嵌入向量表示;
3)利用源语料集训练编码-解码模型,输入为一个句子的词嵌入向量,优化目标为使解码得到的句子与输入句子相同,这里的编码器、解码器均为长短期记忆网络;
将分面描述和源语料集中每个子句输入训练好的编码器,利用得到的隐含语义向量计算句子和每个分面描述的语义距离,实现源语料集中不同分面的子句提取;
4)给不同分面的语料打上不同的标签,以训练分面分类器,使其可以辨别句子所属分面;
5)针对每个分面的语料,利用基于观点的文本聚类方法,将该分面中的表达不同观点的语料分在不同的簇,表达相同观点的语料分在相同的簇;最后给不同的簇中的文本打上不同的标签,表示其表达了不同的观点;利用得到的带有标签的语料集训练观点分类器,使其能够将区分同一分面内表达不同观点的语料;
观点对抗文本生成过程包括:
(1)文本生成模型构造;文本生成模型包括一个生成器和三个判别器,其中生成器由长短期记忆网络编码器、分面记忆向量、观点记忆向量组成;编码器用于对句子向量表示进行编码;分面记忆向量用来记忆各分面潜在信息,观点记忆向量用来记忆每个分面的各观点潜在信息;三个判别器均采用卷积神经网络;
(2)文本生成模型训练;对于每一条源语料集子句,调用相应的分面记忆向量和观点记忆向量;用语料句子的分面判别器输出初始化与其相对应的分面记忆向量,用其对抗观点判别器的输出初始化对应的观点记忆向量;
生成器的第一层输入为随机噪声,之后的每一层将相应的观点记忆向量和分面记忆向量与上一层输出的隐层向量拼接,并输入到编码器的下一层;生成器生成和语料句子分面内容相同、观点对抗的文本,三个判别器区分出生成器生成的句子和源语料句子,如此反复对抗训练,直到三个判别器均无法判别出生成器生成的句子和源语料句子;
(3)文本生成模型推理;给定一条源语料集句子,调用相应的已经训练好的分面记忆向量和与其形成对抗的观点记忆向量;分面记忆向量、对抗观点记忆向量与初始随机向量拼接输入生成器,生成器则生成与给定语料集句子具有相同分面内容但观点相反且符合该舆情事件语言规律的文本。
2.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,构造分类器具体为:
收集社交网络中特定热点事件的全部博文作为源语料集,对源语料集进行去重、去除URL、@和无关内容清洗工作后,以标点符号为依据将博文分割为多个子句;
根据语料集中子句与分面描述的语义距离将源语料集中的子句按照不同的分面进行归类,以此训练能够区分不同分面语料的分面分类器,将此分类器作为文本生成模型的分面判别器;
利用基于观点的文本聚类方法将每个分面中不同观点语料聚类,以此训练能够区分该分面不同观点的观点分类器,将此分类器作为文本生成模型的观点判别器。
3.根据权利要求1所述的一种不同分面观点演化趋势引导的文本生成方法,其特征在于,生成器最终的隐层输出和原语料句子的嵌入向量表示分别作为分面判别器、内容判别器和观点判别器的输入;判别器优化目标由三部分组成,第一部分是分面判别器对生成文本所属分面的判别与真实语料相差最大,第二部分是观点判别器对生成文本和原语料句子的判别结果相差最小,第三部分是内容判别器对生成文本和原语料句子的判别结果相差最大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911360607.X/1.html,转载请声明来源钻瓜专利网。