[发明专利]一种用于对话生成的混合神经网络模型的构建方法有效
申请号: | 201710725762.1 | 申请日: | 2017-08-22 |
公开(公告)号: | CN107506823B | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 黄宜华;陈泳昌;袁春风;赵博 | 申请(专利权)人: | 南京大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06F16/332;G06F40/211;G06F40/284 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 对话 生成 混合 神经网络 模型 构建 方法 | ||
本发明公开了一种用于对话生成的混合神经网络模型的构建方法,包括以下步骤:获取形式为对话语句对的数据集并构建词汇表;生成词嵌入表;初始化特定结构的卷积神经网络,生成对应输入语句的词汇推荐表,判断是否提供了真实输出,若有提供则训练本步中的卷积神经网络的参数;初始化特定结构的循环神经网络,使用上步输出,生成具有语序的词汇标识列表,判断是否提供了真实输出,若有提供则训练本步中的循环神经网络的参数;训练结果满足设定指标后,保存词汇表和词嵌入表,保存卷积神经网络和循环神经网络的参数,即为构建整个模型完毕。本发明解决现有的神经网络对话模型因词汇表长度过大导致的训练速度慢、准确率低、生成语句一般化等问题。
技术领域
本发明涉及人工智能、神经网络与自然语言处理领域,具体是一种用于对话生成的混合神经网络模型的构建方法。
背景技术
在自然语言处理领域,对话生成一直是广受关注同时又颇具难度的课题。在人工智能领域,机器能否像人一样使用自然语言进行对话是判定人工智能是否强大的重要标准之一。在神经网络广泛应用之前,对话生成任务的主要方法依赖于统计方法和检索方法,不仅受限于特定领域,而且在大部分任务中需要人为设置规则进行导向。在神经网络出现后,尤其是卷积神经网络在图像处理领域广泛应用和循环神经网络在文本处理领域取得优秀成果之后,将神经网络用于对话生成也成为了热点研究项目。相对于传统的统计方法、检索方法和制定规则方法,利用神经网络进行对话生成所受的限制更低,可以在任意数据集上进行学习,并且可以取得充分拟合后的优良效果。即使使用特定领域数据集,或者数据集包含大量噪声,神经网络模型依然能够从数据集中抽取知识。并且随着多种深度学习框架的开发和开源,如TensorFlow和PyTorch等,编写神经网络模型也变得更为简易,从而进一步推动了将神经网络模型用于对话生成的热潮。
但是目前实现的多种用于对话生成的神经网络模型,并不能有效地解决对话生成任务中的诸多问题。使用神经网络模型进行对话生成,难以避免生成的语句过于一般化的问题。因为常用语句的出现概率极高,在神经网络进行较好拟合后,使用常用语句进行回答,会使得得分较高,或造成的误差较低,故而神经网络模型用于对话生成极易陷入总是生成一句常用语句的困境。同时,在自然语言处理中,词汇作为基本组成单元,数量庞大。不同于常规处理任务中的少量类别,使用神经网络对词汇进行概率计算和选取时,一个词汇即为一个类别。在对话任务中,神经网络模型需要面临庞大的分类数量,并且类别分布不均,同时伴有罕见分类却极具价值的现象,神经网络模型难以预测此类词汇。目前的神经网络模型并没有解决上述问题,尽管已有相关模型通过随机采样的方法降低了训练时的分类数量,但是这一方法导致预测效果不理想,同时预测效果依赖于采样分布的选取。此外,现有的神经网络模型难以分割成模块,需要作为一个整体进行训练和使用,如果需要更改其中某一部分以达到一些特殊目的,改动麻烦且需要重新训练,造成已有结果的浪费。
发明内容
发明目的:针对上述现有技术存在的问题和不足,本发明的目的是使用一种更为有效的采样方法,从而提升最终生成的对话的质量以及减少训练时长,同时做到分模块训练模型的不同部分,使得在满足规范的前提下,改动模块更为简易。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种用于对话生成的混合神经网络模型的构建方法,包括以下步骤:
(1)根据语句对组成的数据集,拆分语句对生成发起语句集和应答语句集,通过分词获得发起语句集以及应答语句集中每条语句的词汇,统计词汇频度,根据词汇频度构建词汇表;
(2)根据步骤(1)中构建的词汇表,将数据集、发起语句集和应答语句集使用词汇的数字标识表示;
(3)根据步骤(2)中数据集的数字标识表示,经Skip-Gram模型计算得到每个数字标识的词嵌入表示,并分别对应数字标识表示的词汇,生成词嵌入表;
(4)根据特定的卷积神经网络模型参数,初始化构建一个卷积神经网络判别器,用于判别给定语句的词汇数字标识列表作为输入后词汇表中的词汇是否出现;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710725762.1/2.html,转载请声明来源钻瓜专利网。