[发明专利]文本分类方法、装置及电子设备在审
申请号: | 202010492262.X | 申请日: | 2020-06-02 |
公开(公告)号: | CN111708884A | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 王传鹏;陈春梅;李匡宇 | 申请(专利权)人: | 上海硬通网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈志明 |
地址: | 201800 上海市嘉定*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 | ||
本申请公开了一种文本分类方法、装置及电子设备,所述方法包括:获取输入文本,对输入文本进行预处理,提取输入文本的第一词条和第一句向量;将第一词条与根据各第一文本类生成的各词集进行相似度运算,根据第一词条与各词集的各第一相似度,确定输入文本所属的第一文本类,以及,将第一句向量与根据第二文本类生成的各第二句向量进行相似度运算,根据第一句向量与各第二句向量的各第二相似度,判断输入文本是否属于第二文本类;其中,词集由在第一文本类中出现的频次超过预设频次的多个特征词组成,第二文本类由非第一文本类的各目标文本组成,第二句向量由第二文本类中的目标文本生成;将输入文本归入对应的文本类型中。
技术领域
本申请涉及文本分类技术领域,特别涉及一种文本分类方法、装置及电子设备。
背景技术
文本分类,是指按照预先定义的主题类别,根据信息内容将不同的信息划分到与其相关的类别中。现有的文本分类方法,通常采用knn算法进行文本分类。该种方法中,根据训练数据集合与待分类文本数据距离最近(最相似)的K个数据的类别来判断待分类文本所属的类别,是准确度较高的一种文本分类方法。但是,这种方法需要通过遍历的方式将输入文本与文本集中的每个目标文本进行相似度计算,在面对数目较大的文本集时,计算量大,内存开销大,导致需要消耗服务器大量的性能,并且计算速度较慢,且当每个类别中目标文本的容量差距过大,如某个类别中的目标文本容量过多,其他类别的目标文本容量过小时,会导致分类结果不准确。
为解决上述问题,现有技术中,是将各个类划分为n+1个区域,每个区域以中心向量和球半径表示,所有没有被划分的目标文本单独划分为一个独立区域,在分类的过程中,先判断输入文本是否落入球型区域,若是则根据球型区域确定输入文本的类别,否则,将输入文本与独立区域的目标文本做knn运算,判断类别。但是采用这种方法进行游戏领域的文本分类时,发现由于游戏领域的文本类别划分一般是以特定文本和常规文本进行划分的,其划分规则是将一款游戏划分为一个类,此类别下的目标文本是关于该款游戏的特定文本,如涉及改款游戏攻略问题的相关文本,这种类别可称为第一文本类,然后将除特定文本外的其余目标文本视为常规文本,如涉及充值问题的相关文本,并将这些常规文本划分为一个类,可称为第二文本类。由于这些常规文本的共性不强,无法形成球型区,因此采用上述方式进行文本分类时,这些常规文本只能作为离散点待后续进行knn运算,而由于根据特定文本形成的特定文本类也并非球型类族,因此进行文本分类时,也只有一小部分被球形区代替,多数的特定文本会替换成离散点一同进行knn运算,导致离散点过多,分类速度下降,同时也会造成离散点中存在某个文本类别的容量过多,其他类别的目标文本容量过小的问题,导致分类结果不准确,影响后续的文本匹配。此外,用户的输入文本可能同时涉及特定文本和常规文本,而现有的分类方法由于是将涉及第一文本类和第二文本类的离散点一同进行KNN运算的,因此无法很好的确定输入文本是否同时涉及特定文本和常规文本,影响分类效果。
发明内容
本申请的目的在于至少解决现有技术中存在的技术问题之一,提供一种文本分类方法、装置、计算机可读存储介质以及电子设备,在减少计算开销的同时,提高分类效果。
本申请实施例提供一种文本分类方法,包括:
获取输入文本,对所述输入文本进行预处理,提取所述输入文本的第一词条和第一句向量;
将所述第一词条与根据各第一文本类生成的各词集进行相似度运算,根据所述第一词条与各所述词集的各第一相似度,确定所述输入文本所属的第一文本类,以及,将所述第一句向量与根据第二文本类生成的各第二句向量进行相似度运算,根据所述第一句向量与各所述第二句向量的各第二相似度,判断所述输入文本是否属于第二文本类;其中,所述词集由在所述第一文本类中出现的频次超过预设频次的多个特征词组成,所述第二文本类由非第一文本类的各目标文本组成,所述第二句向量由所述第二文本类中的目标文本生成;
将所述输入文本归入对应的文本类型中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海硬通网络科技有限公司,未经上海硬通网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492262.X/2.html,转载请声明来源钻瓜专利网。