[发明专利]文本分类方法、装置、电子设备及存储介质在审
申请号: | 202110183059.9 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112861974A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 李东根;田原;易仕伟;张伟 | 申请(专利权)人: | 和美(深圳)信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06N3/08;G06N20/00 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 安娜 |
地址: | 518040 广东省深圳市福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 电子设备 存储 介质 | ||
本申请涉及机器学习技术领域,公开了一种文本分类方法、装置、电子设备及存储介质,该文本分类方法包括:获得待处理文本的目标特征向量和至少两个文本集合,其中每个文本集合对应一个类别,每个文本集合中包括属于同一类别的文本数据的特征向量;针对每个文本集合,从每个文本集合中获得目标特征向量的K个最邻近特征向量,基于K个最邻近特征向量和目标特征向量,获得目标特征向量和每个文本集合之间的聚合度,并获得聚合度和每个文本集合的类别集合度的比较结果;基于每个文本集合对应的比较结果,从至少两个文本集合中确定出目标文本集合;将目标文本集合的类别确定为待处理文本的类别,提高了文本分类的准确度。
技术领域
本申请涉及机器学习技术领域,尤其涉及一种文本分类方法、装置、电子设备及存储介质。
背景技术
文本分类模型是人工智能领域的重要应用之一,文本分类模型可以识别出文本所属的类别。文本分类模型在智能客服、新闻推荐、意图识别系统等中都有广泛的应用,即文本分类模型是这些复杂系统的基础组件。
目前,在很多文本分类任务中,通常选择KNN(k-NearestNeighbor,K最近邻)算法基于现有的文本数据快速建模生成一个文本分类模型,其基本思想是在已知训练集中文本数据分类的情况下,将待处理文本的特征向量与训练集中文本数据的特征向量进行相互比较,找到训练集中与待处理文本最为相似的前K个文本数据,将这K个文本数据中出现次数最多的分类,作为待处理文本所属的类别。
但是,基于KNN算法的文本分类模型的分类结果,对K值的选择和训练集中文本数据的分布极为敏感。而实际应用中,对于一些样本较少的应用场景,很容易出现各个类别的文本数据分布不均衡的问题,严重降低文本分类的准确度。
发明内容
本申请实施例提供一种文本分类方法、装置、电子设备及存储介质,可降低K的取值对分类结果的影响,改善由于数据分布不同或数据不均衡导致分类结果不准确的问题,提高了文本分类的准确度。
第一方面,本申请一实施例提供了一种文本分类,包括:
获得待处理文本的目标特征向量和至少两个文本集合,其中每个文本集合对应一个类别,每个文本集合中包括属于同一类别的文本数据的特征向量;
针对每个文本集合,从所述每个文本集合中获得所述目标特征向量的K个最邻近特征向量,基于所述K个最邻近特征向量和所述目标特征向量,获得所述目标特征向量和所述每个文本集合之间的聚合度,并获得所述聚合度和所述每个文本集合的类别集合度的比较结果;其中,所述聚合度表征所述目标特征向量和所述K个最邻近特征向量之间的疏密程度,所述类别聚合度表征同一文本集合中的特征向量分布的疏密程度;
基于每个文本集合对应的比较结果,从所述至少两个文本集合中确定出目标文本集合;
将所述目标文本集合的类别确定为所述待处理文本的类别。
可选地,所述从所述每个文本集合中获得所述目标特征向量的K个最邻近特征向量,具体包括:
获得所述每个文本集合中的每个特征向量和所述目标特征向量的相似度;
按照相似度从大到小的排序,将排序靠前的K个特征向量确定为所述目标特征向量的K个最邻近特征向量。
可选地,所述基于所述k个最邻近特征向量和所述目标特征向量,获得所述目标特征向量和所述每个文本集合之间的聚合度,具体包括:
获得所述K个最邻近特征向量中的每个特征向量与所述目标特征向量的相似度;
将所述K个最邻近特征向量对应的相似度的平均值,确定为所述目标特征向量和所述每个文本集合之间的聚合度。
可选地,所述比较结果为所述聚合度和所述类别集合度的比值,所述基于每个文本集合对应的比较结果,从所述至少两个文本集合中确定出目标文本集合,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于和美(深圳)信息技术股份有限公司,未经和美(深圳)信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110183059.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于智能笔的控制方法和系统
- 下一篇:心脏腔室假体瓣膜植入件