[发明专利]文本分类方法和装置在审

申请号：	201910912343.8	申请日：	2019-09-25
公开（公告）号：	CN110781675A	公开（公告）日：	2020-02-11
发明（设计）人：	左赛;魏树桂;王丹丹;赵楠;徐祥朕	申请（专利权）人：	苏宁云计算有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06K9/62;G06N3/04;G06N3/08
代理公司：	11111 北京市万慧达律师事务所	代理人：	盛安平
地址：	210000 江苏省南***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分类类目分类模型分词文本方法和装置分类器模型分词处理融合处理文本分类训练数据组合算法不均衡分类器数据量申请融合预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种文本分类方法和装置，所述方法包括：对文本进行分词处理，提取文本中的分词信息；分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测，分别获得对应的第一分类列表和第二分类列表；将第一分类列表和第二分类列表进行融合处理，获得最终分类列表。本申请的方案提供一种组合算法，融合了两种不同的分类器模型，形成一个适用于大规模类目的以及不均衡训练数据的分类器；适用于数据量大，类目体系复杂，类目数量上万，且类目之间有交叉包含等情况。

技术领域

本申请涉及文本分类技术领域，具体涉及一种文本分类方法和装置。

背景技术

随着互联网技术，尤其是电子商务领域的发展，越来越多的用户开始使用网络平台进行商品购买，大量电子商务平台应运而生。电商平台不仅要吸引用户购买，还要管理大量商家的商品信息。随着商家入驻，大量商品上架，平台需要一种智能的分类器，对商品进行智能分类。用于商品的质量管理，以及搜索推荐。

电商平台上的商品数据有以下特点：(1)类目体系复杂，类目数量上万，且类目之间有交叉包含等情况。(2)训练数据在不同类目中的数量极不均匀，有的只有几个，有的有上百万。

作为NLP领域最经典的场景之一，文本分类积累了大量的技术实现方法，如果将是否使用深度学习技术作为标准来衡量，实现方法大致可以分成两类：基于传统机器学习的文本分类；基于深度学习的文本分类。但是，这两类分类器都很难应对大规模类目的多分类预测，以及训练数据不均衡的问题。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种适用于大量类目及不均匀训练数据的文本分类方法和装置。

根据本申请实施例的第一方面，提供一种文本分类方法，包括：

对文本进行分词处理，提取文本中的分词信息；

分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测，分别获得对应的第一分类列表和第二分类列表；

将第一分类列表和第二分类列表进行融合处理，获得最终分类列表。