[发明专利]文本分类方法和装置、及电子设备在审
申请号: | 201811337616.2 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109460472A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 朱翔宇 | 申请(专利权)人: | 北京京东金融科技控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 吕雁葭 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分类 文本 方法和装置 电子设备 向量特征 预测信息 分类器 组分类 分类结果 文本数据 | ||
本公开提供了一种文本分类方法和装置,及电子设备。该文本分类方法包括:根据文本包括的多个文本数据,获取文本的向量特征;以向量特征作为多个第一分类器的输入,得到文本的多组分类预测信息;以及以多组分类预测信息作为第二分类器的输入,得到文本的分类结果。
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种文本分类方法和装置、及电子设备。
背景技术
随着计算机技术的快速发展,自然语言处理得到飞速发展,其中,文本分类任务是自然语言处理(NLP)领域中基础和传统的任务之一,该文本分类任务又会根据领域类型的不同分成很多子任务,例如情感分类、主题分类和问题分类等。
在实现本构思的过程中,发明人发现现有技术中至少存在如下问题:现有的文本分类的方法,只是简单的利用词频-逆文件频率(term frequency-inverse documentfrequency,TF-IDF)特征,通过单层分类器,根据权重计算来预测得到文本的分类结果,但由于待分类的文本可能是不同上报者上报的,则由于不同上报者具有不同的描述用词习惯等,可能会导致对文本预测的分类结果不准确,从而不能很好的解决实际问题中不同背景的分类问题。
发明内容
有鉴于此,本公开提供了一种能够提高文本分类准确度的文本分类方法和装置、及电子设备。
本公开的一个方面提供了一种文本分类方法,该方法包括:根据文本包括的多个文本数据,获取文本的向量特征;以向量特征作为多个第一分类器的输入,得到文本的多组分类预测信息;以及以多组分类预测信息作为第二分类器的输入,得到文本的分类结果。
根据本公开的实施例,上述文本的向量特征包括:频率向量,用于表征文本包括的多个文本数据的词频-逆文件频率;并且/或者,词向量,用于表征文本包括的多个文本数据;并且/或者,句向量,用于表征文本包括的多个文本数据组成的多个语句。
根据本公开的实施例,上述以向量特征作为多个第一分类器的输入,得到文本的多组预测分类信息包括:以频率向量、词向量和句向量中的至少两个向量分别作为多个不同的第一分类器的输入,得到文本的多组分类预测信息,其中,以词向量或句向量作为输入的第一分类器包括神经网络模型分类器,每个第一分类器以一个向量作为输入,得到一组分类预测信息。
根据本公开的实施例,上述以向量特征作为多个第一分类器的输入,得到文本的多组预测分类信息包括:以频率向量分别作为多个不同的第一分类器的输入,得到文本的多组分类预测信息,其中,以频率向量作为输入的第一分类器包括伯努利模型分类器、多项式模型分类器和/或逻辑回归模型分类器。
根据本公开的实施例,上述文本分类方法还包括:根据文本包括的多个文本数据,获取文本的统计特征;以及以统计特征及多组分类预测信息作为第二分类器的输入,得到文本的分类结果,其中,统计特征包括:文本包括的多个文本数据中每个文本数据的出现次数、多个文本数据中包括预设关键词的数量、和/或根据文本包括的多个文本数据中的时间数据得到的时间间隔的最大值、最小值、极差值和/或平均值。
根据本公开的实施例,上述文本分类方法在获取文本的向量特征之前,还包括:对文本包括的所有文本数据进行分词处理,得到多个文本数据;并且/或者,过滤掉文本包括的所有文本数据中的停用词,得到多个文本数据。
本公开的另一个方面提供了一种文本分类装置,该装置包括:处理模块,用于根据文本包括的多个文本数据,获取文本的向量特征;多个第一分类器,用于分别以向量特征作为输入,得到文本的多组分类预测信息;以及第二分类器,用于以多组分类预测信息作为输入,得到文本的分类结果。
根据本公开的实施例,上述文本的向量特征包括:频率向量,用于表征文本包括的多个文本数据的词频-逆文件频率;并且/或者,词向量,用于表征文本包括的多个文本数据;并且/或者,句向量,用于表征文本包括的多个文本数据组成的多个语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东金融科技控股有限公司,未经北京京东金融科技控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811337616.2/2.html,转载请声明来源钻瓜专利网。