[发明专利]一种自由化文本生成方法在审
申请号: | 201611036777.9 | 申请日: | 2016-11-23 |
公开(公告)号: | CN106776540A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王琪鑫;王东;游世学;骆天一;邢超;杜新凯 | 申请(专利权)人: | 清华大学;北京中科汇联科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙)11417 | 代理人: | 李文军 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自由化 文本 生成 方法 | ||
技术领域
本发明涉及计算机人工智能领域,尤其涉及一种自由化文本生成方法。
背景技术
文本自动生成被认为是当代机器智能的重要标志,因为人们在创作文字的时候需要极强的想象力,机器必须能够"学习”文章的行文方式并“模拟”人脑的创作能力,因此极为困难。传统的文本生成有两种方式,包括统计机器翻译概率模型(Statistical Machine Translation, SMT)和神经网络模型(Neural Networks, NN)。
统计机器翻译概率模型SMT是利用机器对用户输入的待翻译语句进行翻译得到目标语句的技术。机器翻译是基于以下原理:将源语句到目标语句的翻译视为一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,机器翻译的任务为查找出概率最大的目标语句作为源语句的翻译结果。换句话说,SMT的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。然而,SMT的机器学习方法是建立在统计的基础上,当数据与数据之间的关系难以用统计来描述时其就无能为力了,此时可以利用神经网络模型NN来解决这一问题。
神经网络模型NN是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。NN具有如下优点:1)并行分布处理;2)高度鲁棒性和容错能力;3)分布存储及学习能力;4)能充分逼近复杂的非线性关系。正是由于上述优点,NN在各个领域得到广泛应用。
然而,在文本创作过程中,SMT和传统的NN均具有无法克服的缺陷:
在文本创作过程中,SMT是将文本创作看作由后一句对前一句的翻译过程,并逐步生成全部文本。该SMT机器学习方法具有如下缺点:1)下一句话的生成只依赖于前一句的信息,无法保证生成文本的完整性,即高度依赖于文本中的局部信息,对输入语句的全局信息考虑不周全;2)其是字词之间的映射概率,在语义的方面建模能力较差,且往往只被应用在语义信息相等或近似的情况下,即其仅仅考虑了字词的信息,在语义信息上考虑十分不全,导致生成的文本语义混乱且不一致。
在文本创作过程中,传统的NN是将用户所给的信息通过神经网络压缩成信息向量,将该信息向量作为初始状态,通过神经网络逐句生成整个文本。该传统的NN具有如下缺点:1)在传统的NN模型训练过程中过于注重语义信息;2)生成的每一个字都只考虑同样的全局信息。由此导致生成的文本单一且较易偏向错误的方向,即不能够根据已生成的信息进行调整使得主题容易产生偏差。
发明内容
本发明所要解决的技术问题在于如何克服现有技术中的文本生成模型无法结合SMT和传统NN两者的优势,即无法实现在训练NN的同时训练字词的映射信息和字词的语义信息的缺陷。
为了解决上述技术问题,本发明提供了一种自由化文本生成方法,包括以下步骤:
S1、将用户输入的关键词组合成字符串;
S2、第一循环神经网络将所述字符串编码成一组维度为i的词向量,并根据词向量生成隐向量;
S3、第二循环神经网络根据所述词向量和隐向量生成第t个字的候选集,并预测第t个字的候选集的概率分布向量,其中t≥1;
S4、按照文本格式要求将候选集中概率分布最大维的字作为预测字Yt进行输出,通过循环迭代生成全部文本。
进一步地,所述步骤S2中一组词向量包含n个词向量,一个词向量对应一个隐向量,其中,n为大于等于1的整数。
进一步地,所述步骤S2中根据词向量生成隐向量,包括以下步骤:
S21、定义一个维度为j的初始隐向量h0和一个函数;
S22、根据函数公式进行循环迭代生成n个隐向量,所述函数公式为:
,
其中,为n个词向量中第k个词向量对应的隐向量,为n个词向量中第k个词向量,A为j*i的矩阵,B为j*j的矩阵,1≤k≤n。
进一步地,所述步骤S3中第二循环神经网络根据词向量和隐向量生成第t个字的候选集之前还包括第二循环神经网络生成第t-1个字的隐层向量。
进一步地,所述步骤S3中预测第t个字的候选集的概率分布,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京中科汇联科技股份有限公司,未经清华大学;北京中科汇联科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611036777.9/2.html,转载请声明来源钻瓜专利网。