[发明专利]文本分类方法和装置在审
申请号: | 201910912343.8 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110781675A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 左赛;魏树桂;王丹丹;赵楠;徐祥朕 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 11111 北京市万慧达律师事务所 | 代理人: | 盛安平 |
地址: | 210000 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 类目 分类模型 分词 文本 方法和装置 分类器模型 分词处理 融合处理 文本分类 训练数据 组合算法 不均衡 分类器 数据量 申请 融合 预测 | ||
1.一种文本分类方法,其特征在于,包括:
对文本进行分词处理,提取文本中的分词信息;
分别使用第一分类模型和第二分类模型对所述分词信息进行分类预测,分别获得对应的第一分类列表和第二分类列表;
将第一分类列表和第二分类列表进行融合处理,获得最终分类列表。
2.根据权利要求1所述的方法,其特征在于,所述第一分类模型和所述第二分类模型均为预先训练好的分类器模型,用于根据输入的分词信息将对应的文本进行分类。
3.根据权利要求2所述的方法,其特征在于,所述第一分类模型为朴素贝叶斯模型;所述朴素贝叶斯模型的训练方法包括:
获取训练数据;
采用TF-IDF算法提取训练数据的特征信息;
根据朴素贝叶斯算法计算出特征概率,保存为多分类模型。
4.根据权利要求3所述的方法,其特征在于,所述根据朴素贝叶斯算法计算出特征概率,包括:
P(yi|x1,x2,...,xd)=P(x1|yi)×P(x2|yi)×...×P(xd|yi);
其中,x1,x2,...,xd为文本中的分词序列,yi为类目i,P(yi|x1,x2,...,xd)表示文本x1,x2,...,xd属于类目yi的概率,P(xd|yi)表示类目yi中xd这个词出现的概率。
5.根据权利要求2所述的方法,其特征在于,所述第二分类模型为神经网络模型;所述神经网络模型的训练方法包括:
获取训练数据,所述训练数据是从训练数据集中提取的分词信息;
采用N-Gram算法对分词信息进行数据加工,增加词语的前后关联信息;
使用单层全连接神经网络进行训练;
采用Softmax产生归一化效果,生成神经网络模型。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述第一分类列表/所述第二分类列表中的信息包括:所述第一分类模型/所述第二分类模型预测的若干个类目及每个类目对应的权重;
所述将第一分类列表和第二分类列表进行融合处理,包括:
对第一分类列表和第二分类列表进行去噪处理;
将去噪结果取交集,形成推荐类目列表;
对推荐类目列表进行融合处理。
7.根据权利要求6所述的方法,其特征在于,所述对第一分类列表和第二分类列表进行去噪处理,包括:
获取权重阈值;
根据所述权重阈值,分别从第一分类列表和第二分类列表筛选出权重大于所述权重阈值的类目。
8.根据权利要求7所述的方法,其特征在于,所述获取权重阈值,包括:
分别获取所述第一分类列表对应的第一权重阈值和所述第二分类列表对应的第二权重阈值;
其中,所述第一权重阈值和所述第二权重阈值均为预设值。
9.根据权利要求6所述的方法,其特征在于,所述对推荐类目列表进行融合处理,包括:
根据所述推荐类目列表进行权重融合计算;
将融合计算后的结果进行排序和归一化处理。
10.一种文本分类装置,其特征在于,包括:
提取模块,用于对文本进行分词处理,提取文本中的分词信息;
第一分类模型,用于对所述分词信息进行分类预测,获得对应的第一分类列表;
第二分类模型,用于对所述分词信息进行分类预测,获得对应的第一分类列表和第二分类列表;
融合模块,用于将第一分类列表和第二分类列表进行融合处理,获得最终分类列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910912343.8/1.html,转载请声明来源钻瓜专利网。