[发明专利]文本分类方法和装置、及电子设备在审
申请号: | 201811337616.2 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109460472A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 朱翔宇 | 申请(专利权)人: | 北京京东金融科技控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕雁葭 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分类 文本 方法和装置 电子设备 向量特征 预测信息 分类器 组分类 分类结果 文本数据 | ||
1.一种文本分类方法,包括:
根据所述文本包括的多个文本数据,获取文本的向量特征;
以所述向量特征作为多个第一分类器的输入,得到所述文本的多组分类预测信息;以及
以所述多组分类预测信息作为第二分类器的输入,得到所述文本的分类结果。
2.根据权利要求1所述的方法,其中,所述文本的向量特征包括:
频率向量,用于表征所述文本包括的多个文本数据的词频-逆文件频率;并且/或者
词向量,用于表征所述文本包括的多个文本数据;并且/或者
句向量,用于表征所述文本包括的多个文本数据组成的多个语句。
3.根据权利要求2所述的方法,其中,以所述向量特征作为多个第一分类器的输入,得到所述文本的多组预测分类信息包括:
以所述频率向量、所述词向量和所述句向量中的至少两个向量分别作为多个不同的第一分类器的输入,得到所述文本的多组分类预测信息,
其中,以所述词向量或句向量作为输入的第一分类器包括神经网络模型分类器,每个第一分类器以一个向量作为输入,得到一组分类预测信息。
4.根据权利要求2所述的方法,其中,以所述向量特征作为多个第一分类器的输入,得到所述文本的多组预测分类信息包括:
以所述频率向量分别作为多个不同的第一分类器的输入,得到所述文本的多组分类预测信息,
其中,以所述频率向量作为输入的第一分类器包括伯努利模型分类器、多项式模型分类器和/或逻辑回归模型分类器。
5.根据权利要求1所述的方法,还包括:
根据所述文本包括的多个文本数据,获取文本的统计特征;以及
以所述统计特征及所述多组分类预测信息作为所述第二分类器的输入,得到所述文本的分类结果,
其中,所述统计特征包括:所述文本包括的多个文本数据中每个文本数据的出现次数、所述多个文本数据中包括预设关键词的数量、和/或根据所述文本包括的多个文本数据中的时间数据得到的时间间隔的最大值、最小值、极差值和/或平均值。
6.根据权利要求1所述的方法,其中,在获取所述文本的向量特征之前,所述方法还包括:
对所述文本包括的所有文本数据进行分词处理,得到所述多个文本数据;并且/或者
过滤掉所述文本包括的所有文本数据中的停用词,得到所述多个文本数据。
7.一种文本分类装置,包括:
处理模块,用于根据所述文本包括的多个文本数据,获取文本的向量特征;
多个第一分类器,用于分别以所述向量特征作为输入,得到所述文本的多组分类预测信息;以及
第二分类器,用于以所述多组分类预测信息作为输入,得到所述文本的分类结果。
8.根据权利要求7所述的装置,其中,所述文本的向量特征包括:
频率向量,用于表征所述文本包括的多个文本数据的词频-逆文件频率;并且/或者
词向量,用于表征所述文本包括的多个文本数据;并且/或者
句向量,用于表征所述文本包括的多个文本数据组成的多个语句。
9.根据权利要求7所述的装置,其中,所述多个第一分类器为不同的分类器,每一个第一分类器以所述频率向量、词向量和句向量中的任意一个向量作为输入,得到一组分类预测信息,其中:
所述多个第一分类器中的至少两个分类器的输入为不同向量;并且/或者
所述多个第一分类器中的至少两个分类器的输入均为所述频率向量;并且/或者
以所述词向量或句向量作为输入的第一分类器包括神经网络模型分类器;并且/或者
以所述频率向量作为输入的第一分类器包括伯努利模型分类器、多项式模型分类器和/或逻辑回归模型分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东金融科技控股有限公司,未经北京京东金融科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811337616.2/1.html,转载请声明来源钻瓜专利网。