[发明专利]一种基于MPI的ML-KNN多标签中文文本分类方法有效

申请号：	201710026254.4	申请日：	2017-01-13
公开（公告）号：	CN106886569B	公开（公告）日：	2020-05-12
发明（设计）人：	王进;晏世凯;邵帅;李颖;欧阳卫华;胡峰;李智星;邓欣;陈乔松;雷大江	申请（专利权）人：	重庆邮电大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	重庆市恒信知识产权代理有限公司 50102	代理人：	刘小红
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法，涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题，控制计算的时间和空间的开销，本发明采用的技术方案是，采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法，本发明极大的提高了多标签中文文本分类的效率。同时，在数据量一定的情况下，算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是，在基于MPI并行化ML‑KNN步骤中，对数据集进行划分时既可以以样本为单位划分，又可以以特征为单位划分，这使得本发明在处理高维文本数据的时候，具有更大的优势。
搜索关键词：	一种基于 mpi ml knn 标签中文文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于MPI的ML‑KNN多标签中文文本分类方法，其特征在于，包括以下步骤：1)对训练集和待预测数据集中的所有文本进行预处理，包括分词，去停用词及去低频词在内的步骤；2)对预处理后的训练集进行特征词汇提取得到特征词汇表，再根据特征词汇表对训练集和待预测数据集作文本矢量化表示；3)构造分类器并分类:首先基于并行编程模型MPI将ML‑KNN算法并行，然后使用训练集对并行后的ML‑KNN分类器进行训练，最后使用训练好的ML‑KNN分类器对待预测文本数据集进行分类，得到待预测文本数据集分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710026254.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MPI的ML-KNN多标签中文文本分类方法有效

专利文献下载