[发明专利]一种基于MPI的ML-KNN多标签中文文本分类方法有效
申请号: | 201710026254.4 | 申请日: | 2017-01-13 |
公开(公告)号: | CN106886569B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 王进;晏世凯;邵帅;李颖;欧阳卫华;胡峰;李智星;邓欣;陈乔松;雷大江 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 刘小红 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mpi ml knn 标签 中文 文本 分类 方法 | ||
本发明请求保护一种基于MPI的ML‑KNN多标签中文文本分类方法,涉及文本分类和机器学习中的多标签分类算法。为解决ML‑KNN算法在具体实现中大规模文本分类问题和求解优化问题,控制计算的时间和空间的开销,本发明采用的技术方案是,采用MPI编程实现中文文本数据的预处理、特征提取、ML‑KNN算法及分类的并行化。相比传统的串行多标签中文文本分类方法,本发明极大的提高了多标签中文文本分类的效率。同时,在数据量一定的情况下,算法的效率一般会随着计算资源(进程数)的增加而增加。值得一提的是,在基于MPI并行化ML‑KNN步骤中,对数据集进行划分时既可以以样本为单位划分,又可以以特征为单位划分,这使得本发明在处理高维文本数据的时候,具有更大的优势。
技术领域
本发明涉及机器学习和高性能计算领域,具体涉及一种基于MPI编程并行化多标签分类算法ML-KNN。
背景技术
近年来,信息技术迅猛发展,互联网数据规模随之呈海量增长,其表现形式也愈加丰富,然而传统的监督学习认为每个样本只有一个标签,对事物的复杂语义信息缺乏准确表述的能力,多标签学习(Multi-Label Learning)应运而生。多标签学习认为单个样本存在多个标签与之关联,与多个标签关联的样本能够更好的表述。近年来,多标签学习问题受到了机器学习学术界和工业界越来越多的重视,已成为机器学习界的研究热点之一。
ML-KNN(multi-label k Nearest Neighbor)是张敏灵和周志华提出的一种多标签分类算法,该算法是由经典的单标签学习算法KNN(k Nearest Neighbor)改进而来的。ML-KNN首先求出待预测样本的k个最近邻类别标签出现的先验概率和后验概率,再基于最大化后验概率的原则去确定待预测样本的标签集。算法在文本分类、生物信息学、信息检索、网页挖掘等诸多领域表现出了良好的效果。
设Ξ为特征空间,Ψ是有限个标签的集合。对于任一样本x(x∈Ξ),其标签的集合为样本x的类别向量,向量中的元素为(l∈Ψ),若l∈Y,则的值为1,否则为0。此外,定义N(x)为样本x在训练集中的K近邻的集合,其中样本之间相似度用欧氏距离度量,则成员统计向量被定义为:
用于统计在样本x的K近邻中标签为l的样本的个数。
对于测试样本t,表示事件:样本t含有标签l;则表示事件:样本t不含标签l;表示事件:在样本t的K近邻中,恰好有j个样本含有标签l。利用最大化后验概率准则(Maximum aPosteriori,MAP),测试样本t的标签向量为:
通过贝叶斯公式,上式可转换为:
是成立的先验概率,通过统计训练集中与标签l相关的样本数量得到;表示当成立时,测试样本t的K近邻中有个样本含有标签l的概率。
2.多标签文本分类
Internet上存在的海量数据主要包括文本、声音、图像数据等。其中,文本数据与其他数据相比,具有占用网络资源小的特点,这使得网上的数据大多是以文本的形式呈现的。为了有效的管理和利用这些文本数据,从中发现有价值的信息,基于内容的信息检索和数据挖掘技术倍受关注。而文本分类技术是信息检索的基础,其主要任务是按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。
文本分类最初是应信息检索的需求而出现的,早期以人工构建分类器为主,经过几十年的发展,基于机器学习的文本分类技术成为了主流,该方法包涵文本预处理,特征选择,分类器的构建三个步骤,实现了文本的自动分类。在互联网广泛使用的今天,网络信息快速膨胀,基于机器学习的文本分类技术已成为信息检索与数据挖掘领域的核心技术。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710026254.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分表方法、装置及电子设备
- 下一篇:页面处理方法及装置