[发明专利]文本分类方法及装置、存储介质、计算机设备有效

申请号：	201910390290.8	申请日：	2019-05-10
公开（公告）号：	CN110287311B	公开（公告）日：	2023-05-26
发明（设计）人：	钱柏丞	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33;G06F18/214;G06F18/24;G06N3/0464;G06N3/09;G06N3/047
代理公司：	北京中强智尚知识产权代理有限公司 11448	代理人：	黄耀威
地址：	518000 广东省深圳市福田街***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本分类方法装置存储介质计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本分类方法及装置、存储介质、计算机设备，该方法包括：获取不同文本类型的文本样本；按照每个文本类型的文本样本的数量，将文本样本划分为第一样本集和第二样本集，其中，第一练样本集中包含的任一文本类型的文本样本的数量小于预设阈值，第二样本集中包含的任一文本类型的文本样本的数量大于或等于预设阈值；从第一样本集包含的文本样本中提取特征关键词；根据第一样本集包含的文本样本，计算特征关键词对第一样本集中包含的每个文本类型的文本样本的分类贡献度；根据分类贡献度，构建第一文本分类器；利用第二样本集，训练第二文本分类模型；根据第一文本分类器以及第二文本分类模型，对待识别文本进行分类。

技术领域

本申请涉及文本分类技术领域，尤其是涉及到一种文本分类方法及装置、存储介质、计算机设备。

背景技术

对于自然语言处理领域种的文本分类问题，在训练机器学习或深度学习模型的时候，经常会遇到训练样本数据倾斜的问题，简单来说就是部分文本类型的训练样本数量充足，而另一部分文本类型的训练样本数量较少。训练样本的分布不均会造成模型训练偏置，对训练样本数量较少的文本类型的预测难度很大，导致模型整体预测效果下降。

现有技术中的文本分类训练方法，经常会忽略这个问题，对所有样本一视同仁，或者对小样本进行过采样策略补充样本。忽略这个问题会导致模型分类效果不佳，而过采样策略尺度难以把握容易造成过拟合也无法有效提升模型分类效果。

发明内容

有鉴于此，本申请提供了一种文本分类方法及装置、存储介质、计算机设备，针对样本数量分布不均匀的不同文本类型分别建立分类器或分类模型，识别准确率更高。

根据本申请的一个方面，提供了一种文本分类方法，其特征在于，包括：

获取不同文本类型的文本样本；

按照每个文本类型的所述文本样本的数量，将所述文本样本划分为第一样本集和第二样本集，其中，所述第一练样本集中包含的任一文本类型的所述文本样本的数量小于预设阈值，所述第二样本集中包含的任一文本类型的所述文本样本的数量大于或等于所述预设阈值；

从所述第一样本集包含的所述文本样本中提取特征关键词；

根据所述第一样本集包含的所述文本样本，计算所述特征关键词对所述第一样本集中包含的每个文本类型的文本样本的分类贡献度；