[发明专利]一种训练样本的处理方法、装置有效

专利信息
申请号: 201810862790.2 申请日: 2018-08-01
公开(公告)号: CN110796153B 公开(公告)日: 2023-06-20
发明(设计)人: 唐大怀;陈戈 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F18/24 分类号: G06F18/24;G06F18/214
代理公司: 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 代理人: 冯德魁;窦晓慧
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 训练 样本 处理 方法 装置
【说明书】:

本申请公开了一种训练样本的处理方法、装置,该方法包括如下步骤:获得第一数据样本;获取第一数据样本经第一分类器分类后获得的错误主题以及与错误主题相关的分类数据;根据与错误主题相关的分类数据,获取导致第一数据样本经第一分类器分类后获得错误主题的第一特征;从用于对第一分类器进行模型训练、且可训练出错误主题的训练样本中获得包含第一特征的训练样本;对包含第一特征的训练样本进行处理。通过使用本方法,可避免通过人工对已标注的训练样本进行筛选观察所造成的人力资源浪费;并且可高效查找出在模型训练过程中发生错误的训练样本,避免现有的无法对此类训练样本进行筛查所造成的对训练样本进行数据清洗的准确率低的问题。

技术领域

本申请涉及机器学习领域,具体涉及一种训练样本的处理方法。本申请同时涉及一种训练样本的处理装置、一种电子设备以及一种计算机可读取存储介质。

背景技术

在电子商务领域,利用人工智能方式针对客户的咨询信息进行分析和应答,已成为现阶段响应客户咨询的主流方式之一,例如,商家通过使用应答机器人对客户咨询的问题进行意图识别,以此获得用户的核心用意,并根据意图识别所获得的结果针对用户提出的问题进行回复。在该过程中,此类应答机器人采用有监督机器学习的方法,使用人工或半自动标注的方式对训练样本进行标注,并且使用标注过的训练样本进行模型训练,获得分类器,采用测试样本对上述训练完成的分类器进行分类性能的测试。

在对上述分类器进行分类性能测试或在实际的意图识别过程中,存在因对训练样本标注有误而造成模型训练不准确,或者因模型本身的训练过程发生错误而影响分类器的分类结果,使得意图识别的结果不准确,因此,需要对上述的训练样本进行样本清洗工作,能够发现并纠正标注错误的训练样本和训练错误的训练样本。

现有的样本清洗方法为通过人工对所有的训练样本进行筛选观察,查找出训练样本中的错误词汇,在此基础上总结出词汇规则,通过模式匹配的方式获得错误样本,进行清洗和整理。

然而,上述样本清洗方法存在以下缺陷:

训练样本的数量较为庞大,通过人工对所有已标注的训练样本进行筛选观察,造成人力资源的浪费;

因模型本身的训练过程发生错误而导致分类器的分类性能受到影响,最终误导分类器产生错误的分类结果,此类训练样本无法通过人工筛选观察的方法获得标注错误的训练样本,从而无法对此类训练样本进行清洗和整理,降低了对训练样本进行样本清洗的准确率。

发明内容

本申请提供一种训练样本的处理方法,以解决现有的样本清洗方法存在的人力资源浪费以及对训练样本进行样本清洗的准确率低的问题。本申请另外提供一种训练样本的处理装置、一种电子设备以及一种计算机可读取存储介质。

本申请提供一种训练样本的处理方法,包括:

获得第一数据样本;

获取所述第一数据样本经第一分类器分类后获得的错误主题以及与所述错误主题相关的分类数据;

根据所述与所述错误主题相关的分类数据,获取所述第一数据样本包含的、导致所述第一数据样本经第一分类器分类后获得所述错误主题的第一特征;

从用于对所述第一分类器进行模型训练、且可训练出所述错误主题的训练样本中获得包含所述第一特征的训练样本;

对所述包含所述第一特征的训练样本进行处理。

可选的,所述与所述错误主题相关的分类数据,包括:

在所述第一数据样本包含的特征下所述错误主题对应的概率值;

相应的,所述根据所述与所述错误主题相关的分类数据,获取所述第一数据样本包含的、导致所述第一数据样本经第一分类器分类后获得所述错误主题的第一特征,包括:

确定在所述第一数据样本包含的特征下所述错误主题对应的概率值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810862790.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top