[发明专利]文本分类方法和装置在审
申请号: | 201910912343.8 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110781675A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 左赛;魏树桂;王丹丹;赵楠;徐祥朕 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 11111 北京市万慧达律师事务所 | 代理人: | 盛安平 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 类目 分类模型 分词 文本 方法和装置 分类器模型 分词处理 融合处理 文本分类 训练数据 组合算法 不均衡 分类器 数据量 申请 融合 预测 | ||
本申请涉及一种文本分类方法和装置,所述方法包括:对文本进行分词处理,提取文本中的分词信息;分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测,分别获得对应的第一分类列表和第二分类列表;将第一分类列表和第二分类列表进行融合处理,获得最终分类列表。本申请的方案提供一种组合算法,融合了两种不同的分类器模型,形成一个适用于大规模类目的以及不均衡训练数据的分类器;适用于数据量大,类目体系复杂,类目数量上万,且类目之间有交叉包含等情况。
技术领域
本申请涉及文本分类技术领域,具体涉及一种文本分类方法和装置。
背景技术
随着互联网技术,尤其是电子商务领域的发展,越来越多的用户开始使用网络平台进行商品购买,大量电子商务平台应运而生。电商平台不仅要吸引用户购买,还要管理大量商家的商品信息。随着商家入驻,大量商品上架,平台需要一种智能的分类器,对商品进行智能分类。用于商品的质量管理,以及搜索推荐。
电商平台上的商品数据有以下特点:(1)类目体系复杂,类目数量上万,且类目之间有交叉包含等情况。(2)训练数据在不同类目中的数量极不均匀,有的只有几个,有的有上百万。
作为NLP领域最经典的场景之一,文本分类积累了大量的技术实现方法,如果将是否使用深度学习技术作为标准来衡量,实现方法大致可以分成两类:基于传统机器学习的文本分类;基于深度学习的文本分类。但是,这两类分类器都很难应对大规模类目的多分类预测,以及训练数据不均衡的问题。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种适用于大量类目及不均匀训练数据的文本分类方法和装置。
根据本申请实施例的第一方面,提供一种文本分类方法,包括:
对文本进行分词处理,提取文本中的分词信息;
分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测,分别获得对应的第一分类列表和第二分类列表;
将第一分类列表和第二分类列表进行融合处理,获得最终分类列表。
进一步地,所述第一分类模型和所述第二分类模型均为预先训练好的分类器模型,用于根据输入的分词信息将对应的文本进行分类。
进一步地,所述第一分类模型为朴素贝叶斯模型;所述朴素贝叶斯模型的训练方法包括:
获取训练数据;
采用TF-IDF算法提取训练数据的特征信息;
根据朴素贝叶斯算法计算出特征概率,保存为多分类模型。
进一步地,所述根据朴素贝叶斯算法计算出特征概率,包括:
P(yi|x1,x2,...,xd)=P(x1|yi)×P(x2|yi)×...×P(xd|yi);
其中,x1,x2,...,xd为文本中的词序列,yi为类目i,P(yi|x1,x2,...,xd)表示文本x1,x2,...,xd属于类目yi的概率,P(xdyi)表示类目yi中xd这个词出现的概率。
进一步地,所述第二分类模型为神经网络模型;所述神经网络模型的训练方法包括:
获取训练数据,所述训练数据是从训练数据集中提取的分词信息;
采用N-Gram算法对分词信息进行数据加工,增加词语的前后关联信息;
使用单层全连接神经网络进行训练;
采用Softmax产生归一化效果,生成神经网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910912343.8/2.html,转载请声明来源钻瓜专利网。