[发明专利]一种基于MPI的ML-KNN多标签中文文本分类方法有效
申请号: | 201710026254.4 | 申请日: | 2017-01-13 |
公开(公告)号: | CN106886569B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 王进;晏世凯;邵帅;李颖;欧阳卫华;胡峰;李智星;邓欣;陈乔松;雷大江 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mpi ml knn 标签 中文 文本 分类 方法 | ||
1.一种基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,包括以下步骤:
1)对训练集和待预测数据集中的所有文本进行预处理,包括分词,去停用词及去低频词在内的步骤;
2)对预处理后的训练集进行特征词汇提取得到特征词汇表,再根据特征词汇表对训练集和待预测数据集作文本矢量化表示;
3)构造分类器并分类:首先基于并行编程模型MPI将ML-KNN算法并行,然后使用训练集对并行后的ML-KNN分类器进行训练,最后使用训练好的ML-KNN分类器对待预测文本数据集进行分类,得到待预测文本数据集分类结果;
步骤3)将ML-KNN分类器并行化的步骤包括:
首先将训练数据集以特征为单位均匀划分成p个特征数据列,再将每个特征数据列均匀划分成q个特征数据子集,则原数据集被划分成了p*q个特征数据子集;
将划分好的特征数据子集通过MPI_Send函数传入p*q个进程中,各个进程通过MPI_Recv函数接收,每个进程有且只有一个特征数子集,数据子集进行距离运算,再进行训练集特征矩阵的划分,得到近邻矩阵N(xj);
将由人工标记的训练集标签信息传入进程0,在进程0中计算先验概率同时利用得到的近邻矩阵N(xj)计算出后验概率xj表示矩阵的特征值,H 表示没有训练数据时的事件,b表示标签l的个数,E表示训练数据;
进而求出测试样本t对于标签l的概率Pt,l(b)以及t是否含有标签l。
2.根据权利要求1所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,所述步骤1)中的分词步骤是将原始文本中的中文句子按照一定的规范重新组合成词序列的过程;去除停用词的步骤是根据停用词汇表删除对分类没有意义的停用词汇;去除低频词的步骤是指去掉某些只在极少的文本中出现过的单词,这样的词留在集合中会导致大部分文本样本在该特征词汇下的值为0。
3.根据权利要求1或2所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,步骤2)特征的提取只针对训练集,具体做法是将预处理后的训练集进行词频统计,将在训练集中出现次数大于设定阈值T的单词加入特征词汇表,并计算特征词汇表中的每个单词的IDF值以及每个单词在文档中的词频TF,将含有IDF值和TF值的特征词汇表通过MPI_Bcast函数广播至各个进程,再在各个进程中求出与该进程相对应文档中单词的TF-IDF值,实现文档的向量化表示。
4.根据权利要求1所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,使用的距离公式为:
dist(a,b)=a*b+b2
其中a为当前样本的特征向量,b为目标样本的特征向量,dist(a,b)表示当前样本到其他目标样本的距离,计算过程中需要用到的其他特征数据子集通过调用广播函数MPI_Bcast传入。
5.根据权利要求4所述的基于MPI的ML-KNN多标签中文文本分类方法,其特征在于,在进行广播前,需调用MPI_Comm_split函数将原始通信域划分成q个独立的通信域,即每个特征数据列所对应的进程为一个独立的通信域,然后将计算好的包括样本编号,特征名称信息,与近邻样本的距离信息在内的结果通过MPI_Gatherv函数收集到进程0,在进程0中通过加法运算即得到ML-KNN算法中所需的近邻矩阵N(xj)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710026254.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分表方法、装置及电子设备
- 下一篇:页面处理方法及装置