[发明专利]智能助理的语料构建方法、装置、计算机设备和存储介质在审
申请号: | 201911158765.7 | 申请日: | 2019-11-22 |
公开(公告)号: | CN110955765A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 林志达;吴石松;吴丹 | 申请(专利权)人: | 中国南方电网有限责任公司;南方电网数字电网研究院有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06N3/04;G06N3/08 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 刘艳丽 |
地址: | 510623 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 助理 语料 构建 方法 装置 计算机 设备 存储 介质 | ||
1.一种智能助理的语料构建方法,所述方法包括:
从待构建语料的智能助理对应的电力运营管理系统的系统日志中提取当前问答文本数据;
对所述当前问答文本数据进行文本向量化操作,得到当前问答文本向量;
将所述当前问答文本向量输入到语料构建模型,所述语料构建模型根据从所述系统日志中提取的问答文本数据训练得到;
根据所述语料构建模型的输出结果获得问题文本和答案文本,将得到的所述问题文本和所述答案文本关联,关联后的所述问题文本和所述答案文本作为智能助理的问答语料数据。
2.根据权利要求1所述的方法,其特征在于,所述语料构建模型的训练过程包括:
从所述系统日志中提取问答文本数据,从所述问答文本数据中划分出训练样本集,所述训练样本集包括多个第一问答文本数据;
将所述多个第一问答文本数据进行文本向量化操作,得到第一问答文本向量;
构建对抗网络,所述对抗网络包括生成器模型和所述判别器模型;所述生成器模型用于根据所述第一问答文本向量生成第一问题文本向量以及所述第一问答文本向量对应的第一答案文本向量;所述判别器模型用于对所述第一问答文本以及所述第一答案文本向量的真实性进行判别;
进行基于生成对抗网络的训练,得到所述语料构建模型。
3.根据权利要求2所述的方法,其特征在于,所述进行基于生成对抗网络的训练,得到语料构建模型,包括:
获取默认真实样本集,所述默认真实样本集包括默认真实问题文本和所述默认真实问题文本对应的默认真实答案文本;
将所述默认真实问题文本和所述默认真实答案文本进行文本向量化操作,得到第二问题文本向量和所述第二问题文本向量对应的第二答案文本向量;
通过所述第一问题文本向量、所述第一答案文本向量、所述第二问题文本向量以及所述第二答案文本向量训练所述对抗网络,所述判别器模型用于输出第一概率和第二概率,所述第一概率为判定输入样本来自于所述第一问题文本向量以及所述第一答案文本向量的概率,所述第二概率为判定输入样本来自于所述第二问题文本向量以及第二答案文本向量的概率,所述对抗网络的目标函数用于对所述对抗网络的网络参数进行优化,以使得最小化所述第一概率的目标函数与最大化所述第二概率的目标函数互相博弈达到平衡;
根据训练完成的对抗网络,得到语料构建模型。
4.根据权利要3所述的方法,其特征在于,根据训练完成的对抗网络,得到语料构建模型,包括:
从所述问答文本数据中划分出测试样本集,所述测试样本集包括多个第二问答文本数据;
将所述多个第二问答文本数据进行文本向量化,得到第二问答文本向量;
用所述第二问答文本向量对所述训练完成的对抗网络进行测试,获得测试结果;
若所述测试结果满足测试条件,将所述训练完成的对抗网络作为所述语料构建模型。
5.根据权利要求2至4任意一项所述的方法,所述生成器模型包括问题生成器模型和答案生成器模型;所述问题生成器模型用于根据所述第一问答文本向量生成第一问题文本向量,所述答案生成器模型用于根据所述第一问答文本向量生成第一答案文本向量;
优选地,所述问题生成器模型采用带注意力机制的编码-解码模型,所述带注意力机制的编码-解码模型的编码层和解码层采用GRU模型,所述答案生成器模型采用LSTM模型和对话生成模型。
6.根据权利要求5所述的方法,其特征在于,所述从待构建语料的智能助理对应的电力运营管理系统的系统日志中提取当前问答文本数据,包括:
从所述系统日志中提取初始语料数据和/或用户行为数据;
根据所述初始语料数据、所述用户点击行为数据、所述用户搜索行为数据和/或所述用户对话数据,得到所述当前问答文本数据。
7.根据权利要求2至4任意一项所述的方法,其特征在于,所述语料构建模型的训练过程还包括:
获取问答文本数据的生成时间信息,根据所述生成时间信息将所述问答文本数据划分为所述训练样本集和测试样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国南方电网有限责任公司;南方电网数字电网研究院有限公司,未经中国南方电网有限责任公司;南方电网数字电网研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911158765.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种处理风化型黑白钨矿的选矿工艺方法
- 下一篇:一种避免倾倒的油冷机