[发明专利]一种样本数据处理方法、样本数据处理装置及电子设备在审
申请号: | 201911370094.0 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111198938A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 黄日星;熊友军 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/279;G06F40/30 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李娟 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 数据处理 方法 装置 电子设备 | ||
本申请公开了一种样本数据处理方法、装置、电子设备及计算机可读存储介质,该方法包括:获取用于训练预设的意图识别模型的所有样本数据;根据每一样本数据的意图标签及语言模型标签,确定每一样本数据所属的意图类别及语言模型类别;统计各个意图类别下的样本数据的数量,各个语言模型类别下的样本数据的数量以及所有样本数据的总数量,并基于此计算每一意图类别的意图权重及每一语言模型类别的语言模型权重;基于各个意图类别的意图权重及各个语言模型类别的语言模型权重,确定意图识别模型的损失函数,并以此对意图识别模型进行训练。通过本申请方案,可减小大数据量样本数据与小数据量样本数据对意图识别模型的影响差异,保障训练的有效性。
技术领域
本申请属于数据处理技术领域,尤其涉及一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质。
背景技术
现在已经有越来越多的智能设备具备有人机交互功能。上述人机交互功能的基础是智能设备需要先理解用户的意图,因而,智能设备的意图识别的能力一定程度上影响到了智能设备的人机交互功能的优劣。当前,在对智能设备所采用的意图识别模型进行训练时,经常会出现不同的意图类别所对应的训练语料的数量差异较大的情况,例如,某些常见意图类别有成百上千条训练语料,而某些非常见意图类别只有寥寥几条训练语料,其中的差异可能会有成百上千倍,这会出现因样本数据不平衡而导致训练失败的情况。
发明内容
有鉴于此,本申请提供了一种样本数据处理方法、样本数据处理装置、电子设备及计算机可读存储介质,可减小大数据量样本数据与小数据量样本数据对意图识别模型的影响差异,保障训练的有效性。
本申请的第一方面提供了一种样本数据处理方法,包括:
获取用于训练预设的意图识别模型的所有样本数据;
根据每一样本数据的意图标签及语言模型标签,确定每一样本数据所属的意图类别及语言模型类别,其中,上述语言模型类别包括正样本及负样本;
统计各个意图类别下的样本数据的数量,以及统计各个语言模型类别下的样本数据的数量,以及统计所有样本数据的总数量;
根据每一意图类别下的样本数据的数量及上述总数量,计算每一意图类别的意图权重;
根据每一语言模型类别下的样本数据的数量及上述总数量,计算每一语言模型类别的语言模型权重;
基于各个意图类别的意图权重及各个语言模型类别的语言模型权重,确定上述意图识别模型的损失函数;
基于上述损失函数对上述意图识别模型进行训练。
本申请的第二方面提供了一种样本数数据处理装置,包括:
获取单元,用于获取用于训练预设的意图识别模型的所有样本数据;
类别确定单元,用于根据每一样本数据的意图标签及语言模型标签,确定每一样本数据所属的意图类别及语言模型类别,其中,上述语言模型类别包括正样本及负样本;
统计单元,用于统计各个意图类别下的样本数据的数量,以及统计各个语言模型类别下的样本数据的数量,以及统计所有样本数据的总数量;
第一计算单元,用于根据每一意图类别下的样本数据的数量及上述总数量,计算每一意图类别的意图权重;
第二计算单元,用于根据每一语言模型类别下的样本数据的数量及上述总数量,计算每一语言模型类别的语言模型权重;
损失函数确定单元,用于基于各个意图类别的意图权重及各个语言模型类别的语言模型权重,确定上述意图识别模型的损失函数;
训练单元,用于基于上述损失函数对上述意图识别模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911370094.0/2.html,转载请声明来源钻瓜专利网。