[发明专利]一种基于主题词的语言生成方法有效
申请号: | 201710274116.8 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107133224B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 赵鑫;窦洪健;文继荣 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F40/56 | 分类号: | G06F40/56 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 张宇锋 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题词 语言 生成 方法 | ||
本发明提供一种基于主题词的语言生成方法,使用传统的Seq2Seq模型对上下文以及主题词进行训练,在模型编码部分计算出输入Xi的隐层信息所对应的中间层信息ci,同时将主题词的词向量也通过注意力机制生成中间层信息oi,将ci和oi通过所述联合注意力机制的结构,使二者共同影响最终生成不仅与上下文相关,而且和主题词相关的序列。本发明提供的一种基于主题词的语言生成方法,而且使得生成的文本更加流畅以及富有多样性,不仅为用户提供了便捷,而且对潜在用户的购买决策起到了导向作用。
技术领域
本发明涉及一种语言生成方法,特别是一种基于主题词利用深度学习以及注意力机制对语言的生成方法。
背景技术
随着互联网技术的发展,在线用户评论对电商和消费者影响重大。研究表明多数消费者在做出购买决策前会在网上收集产品服务相关信息,并且购买后会在网上分享消费体验和购买评价。此外,大量网络用户在购买产品或服务前会阅读用户评论,并且受到评论内容的影响。因此,海量的在线用户评论是帮助消费者发现产品质量和做出相应购买决策的重要信息源。然而,由于现阶段评论过程的繁琐,导致用户不愿意花费较多的时间用于评价购买的对象,它们通常只是利用较短的通用型词语进行评论,一定程度上影响了潜在消费者的购买决策。如何能够在用户给出的较短的语言文字中,得到尽可能准确的信息,从而能针对性对顾客的提供更加优质的服务,成为众多商家极为关注的问题。
自然语言生成(Natural language Generation,NLG)是将数据翻译转化为自然语言表示,它可以看作是相反的自然语言理解:自然语言理解是对输入的句子生成机器的表示语言,而自然语言生成是将概念转化为文字。近年来,以深度学习为代表的自然语言生成技术异军突起,在网络销售等诸多领域获得广泛的关注。
现有的语言生成方法通常是利用现有的规则或者人工设计的模板,现有的语言生成方法有以下几种:
(1)通过模板生成:构造相应的模板,每个模板中包括一些变量和一些常量,文本生成器根据用户输入的内容,将这些内容作为字符串填充到模板中替代变量。
(2)通过模式生成:该方法利用修辞谓词和操作符来构成文本主题的表达顺序。
(3)通过短语/规则扩展(Rhetorical Structure Theory,RST):该方法认为一段文字的各个组成部分无论是句子、段落甚至由段落构成的章节之间都是按照特定的关系层次内聚起来,根据内聚关系对文本进行生成。
(4)通过属性特征生成:该技术对语言生成的每一部分信息增添属性,直到能够唯一地决定一个输出结果为止。
这些传统的语言生成方法在实际应用时存在以下问题:
(1)通过模板生成虽然简单可行,但生成的文本不完备,质量不高。
(2)通过模式生成虽然生成的文本结构具有层次性,但该方法只适用于结构固定的文章,缺乏灵活性。
(3)RST方法具有较强的灵活性。但是由于句子间具有复杂的语义和语法关系,构建文本规则库并不容易。
(4)基于属性特征的方法概念简单,生成的文本相对灵活,但属性间的内容关系较为复杂,工作量很大,即很难确定什么样的文本变化能够作为属性特征添加进集合中。
随着对语言生成方法的不断改进,现有的比较流行的方法还包括基于循环神经网络(Recurrent Neural Networks,RNNS)和Sequence-to-Sequence(Seq2Seq)的技术。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710274116.8/2.html,转载请声明来源钻瓜专利网。