[发明专利]一种数据分类方法及计算设备在审
申请号: | 202011557715.9 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112579819A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 黄萧;李林;徐丞申;刘荣 | 申请(专利权)人: | 天津车之家数据信息技术有限公司 |
主分类号: | G06F16/65 | 分类号: | G06F16/65;G06F16/68;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 孟玉洁;谢建云 |
地址: | 300467 天津市生态城动漫中路126号动漫*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分类 方法 计算 设备 | ||
本发明公开了一种数据分类方法,在计算设备中执行,包括:获取待分类的数据;将该数据输入预设的多标签分类模型,以便多标签分类模型输出该数据属于每一个类别的概率,其中,多标签分类模型在训练时的损失函数适于提高目标类别的分类准确率;当最大概率对应的类别为目标类别,且最大概率大于等于预设的概率阈值时,将目标类别作为该数据所属的类别。本发明一并公开了相应的计算设备。
技术领域
本发明涉及音频数据处理技术领域,尤其涉及一种数据分类方法及计算设备。
背景技术
近年来,人工智能技术飞速发展,已被应用到多个领域。分类问题是人工智能算法中的一大类,应用非常广泛。在实际分类问题中,有时会碰到一种场景,即对特定类别的分类准确率要求很高,而不关心其召回率以及其他类别的分类准确率。例如,在智能外呼场景中,智能外呼机器人模拟真人向被叫用户发起语音通话,进行访问、营销等活动。根据智能外呼的语音通话情况,采用分类模型来将用户分为明确有意向、可能有意向、明确无意向三类,对于明确有意向的用户进行人工电话回访,以向这些用户提供定制化的服务。在该场景中,智能外呼服务商更关心筛选出的明确有意向类别的准确率,而不关心有没有漏检明确有意向的用户以及可能有意向、明确无意向类别的准确率。提高明确有意向类别的分类准确率,可以减少不必要的人工电话量,从而提高服务效率。
现有的分类模型在分类准确率上对所有类别一视同仁,无法满足提高特定类别分类准确率的需求。
发明内容
为此,本发明提供一种数据分类方法及计算设备,以力图解决或至少缓解上面存在的问题。
根据本发明的第一个方面,提供一种数据分类方法,在计算设备中执行,包括:获取待分类的数据;将所述数据输入预设的多标签分类模型,以便所述多标签分类模型输出所述数据属于每一个类别的概率,其中,所述多标签分类模型在训练时的损失函数适于提高目标类别的分类准确率;当最大概率对应的类别为所述目标类别,且所述最大概率大于等于预设的概率阈值时,将目标类别作为所述数据所属的类别。
可选地,在根据本发明的数据分类方法中,损失函数适于对训练样本的真实类别标签不是所述目标类别,但所述多标签分类模型输出的类别为所述目标类别的情形进行惩罚。
可选地,在根据本发明的数据分类方法中,多标签分类模型的损失函数为:
其中,C为类别的数量;yj用于表示训练样本的真实类别标签是否为第j个类别,当yj=1时,表示训练样本的真实类别标签是第j个类别,当yj=0时,表示训练样本的真实类别标签不是第j个类别;pj为多标签分类模型输出的训练样本属于第j个类别的概率;λj为第j个类别的权重,其中,所述目标类别的权重大于其他类别的权重。
可选地,在根据本发明的数据分类方法中,多标签分类模型的最后一个处理层为激活层,所述激活层包括与类别数量相同的Sigmoid激活函数,所述Sigmoid激活函数的输出为所述数据属于相应类别的概率。
可选地,在根据本发明的数据分类方法中,当最大概率对应的类别为所述目标类别,且所述最大概率小于所述概率阈值时,将除所述目标类别之外概率最大的类别作为所述数据所属的类别。
可选地,在根据本发明的数据分类方法中,当最大概率对应的类别不是所述目标类别时,将最大概率对应的类别作为所述数据所属的类别。
可选地,在根据本发明的数据分类方法中,数据为语音通话音频,所述类别包括:明确有意向、可能有意向、明确无意向,其中,明确有意向为所述目标类别。
根据本发明的第二个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,当所述程序指令被所述处理器读取并执行时,使得所述计算设备执行上述数据分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津车之家数据信息技术有限公司,未经天津车之家数据信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011557715.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置