[发明专利]基于MapReduce框架下的海量文本快速聚类的方法有效

专利信息
申请号: 202011051536.8 申请日: 2020-09-29
公开(公告)号: CN112463958B 公开(公告)日: 2022-07-15
发明(设计)人: 程永龙;李美晶 申请(专利权)人: 上海海事大学
主分类号: G06F16/35 分类号: G06F16/35;G06F16/33;G06F40/284;G06K9/62;G06Q40/06
代理公司: 上海互顺专利代理事务所(普通合伙) 31332 代理人: 成秋丽
地址: 201306 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 mapreduce 框架 海量 文本 快速 方法
【权利要求书】:

1.基于MapReduce框架下的海量文本快速聚类的方法,其特征在于,包含以下步骤:

S1、对海量文本数据在Hadoop分布式环境下进行预处理,对每个文本进行分词,转化成一组分词串;

S2、在Hadoop分布式环境下利用TF-IDF方法对文本的分词串进行特征提取,每条文本形成可供计算机识别的数字向量;

S3、将所述步骤S2得到的所述文本数字向量,在Hadoop分布式环境下利用改进的快速初始化K均值聚类算法得到K个初始的质心向量;

S4、将所述步骤S2中所述文本数字向量与所述步骤S3中所述文本质心向量在Hadoop分布式环境下进行聚类,得到聚类结果;

所述步骤S1进一步包含以下步骤:

S1.1、将待预处理文本作为输入文件,对输入文件每一行做一遍映射归约;所述映射归约过程如下:

(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行由文本号和对应内容组成,为每一个小文件分配一个映射任务;

(2)在映射阶段,将每行内容进行半角向全角转化、大写数字向小写数字转化、大写字母向小写字母转化、去除文本中的表情符号,用jieba分词工具进行分词处理,jieba分词是一种中文分词工具,将得到的分词串去除停用词,输出一个键值对,键是该文本号,值是去除停用词后的分词串;

(3)在归约阶段,直接输出键值对,得到每一行由每篇文本的分词串组成的分词串文件;

所述步骤S2进一步包含以下步骤:

S2.1、将分词串文件作为输入文件,对输入文件每一行做一遍映射归约;所述映射归约过程如下:

(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行由文本号和对应分词串组成,为每一个小文件分配一个映射任务;

(2)在映射阶段,将每行分词串去除重复分词后的分词取集合,输出一个键值对,键是该文本号,值是取集合后的分词串;

(3)在归约阶段,将每行分词串合并在一起,取集合组成词袋,输出一个键值对,键为1,值为分词串集合组成的词袋,得到一个词袋文件;

S2.2、将所述步骤S1.1中分词串文件与S2.1中的词袋文件,利用TF-IDF进行特征提取;

TF-IDF特征提取计算公式如下:

式中,Nw是在一条文本中分词w出现的次数,N是该条文本中分词串中总分词数,TFw是分词w的词频;

其中,Y是文本的总数,Yw是包含分词w的文本个数,IDFw是分词w的逆文本频率;

(TF-IDF)w=TFw*IDFw

其中,(TF-IDF)w是分词w的词频-逆文本频率指数;

所述步骤S3文本数字向量为S2.2中分词串的词频-逆文本频率指数构成;所述步骤S3进一步包含以下步骤:

S3.1将所述步骤S2得到的所述文本数字向量中随机抽取一部分样本向量,该样本向量数量为指定K值的三到五倍,其他海量文本为剩余其他向量;

S3.2将所述S3.1所述样本向量中任意选取一向量,命名为C1,计算C1与样本向量中所有剩余样本向量的余弦相似度;

余弦相似度计算公式如下:

式中,x1与x2是两个需要计算的向量,sim(x1,x2)是余弦相似度;

S3.3由所述步骤S3.2的余弦相似度计算结果,找到与所述C1余弦相似度较大的向量,命名Ca,计算Ca与其他所有剩余样本向量的余弦相似度,找到与所述Ca余弦相似度较大的向量,命名Cmax,与较小的向量,命名Cmin;计算所述Ca与所述Cmin的余弦相似度sim(Ca,Cmin)值对应的余弦角度θ;

余弦角度θ计算如下:

sim(Ca,Cmin)=cosθ

θ=arccos(sim(Ca,Cmin))

S3.4将步骤S3.3所述余弦角度θ除以指定K值,得到角度间隔θ1,得到如下角度区间划分:

[0,θ1],[θ1,2θ1],[2θ1,3θ1],.......,[(k-1)θ1,kθ1],共K个区间;

S3.5选取步骤S3.3所述Cmax向量作为参照向量,分别选取步骤S3.4所述区间进行如下计算:

(1)首先选定首个区间[0,θ1],逐个计算Cmax与所述其他所有剩余样本向量的余弦相似度,直到找到一个向量,命名C1,满足:cos(0)sim(Cmax,C1)=cos(θ1),记下向量C1,停止此轮计算;

(2)依次选定区间[θ1,2θ1],逐个计算Cmax与所述其他所有剩余样本向量的余弦相似度,直到找到一个向量,命名C2,满足:cos(θ1)sim(Cmax,C2)=cos(2θ1),记下向量C2,停止此轮计算;

(3)以此类推进行第K次,选定区间[(k-1)θ1,kθ1],逐个计算Cmax与所述其他剩余样本向量的余弦相似度,直到找到一个向量,命名Ck,满足:cos((k-1)θ1)sim(Cmax,Ck)=cos(kθ1),记下向量Ck,停止此轮计算;

S3.6根据所述步骤S3.5可得到一组向量{C1,C2,.....,Ck},记为初始质心向量;若出现质心向量个数小于K,则缺少向量从所述步骤S3.1所述剩余其他向量随机选取;

所述步骤S4中进一步包含以下步骤:

S4.1将所述步骤S2中所述文本数字向量作为输入文件,所述步骤S3中所述文本质心向量作为质心向量文件,质心向量文件每行由质心向量序号与质心向量组成;对输入文件的每一行作第一遍映射归约;所述第一遍映射归约过程如下:

(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行为一个样本的数字向量,为每一个小文件分配一个映射任务;

(2)在映射阶段,将小文件中每一行向量与所述质心向量文件中每个质心向量进行余弦相似度计算,找出所计算出的余弦相似度最大值对应的向量,作为此行向量的类质心向量,输出如下的键值对:该类质心向量的序号作为键,此行向量作为值;

(3)在归约阶段,将键相同的数字向量进行相加求和并除以它们的个数,得到它们的平均值,输出对应的键和所得的平均值;

(4)将归约阶段输出的内容作为新的质心向量文件,将之前质心向量文件作为旧的质心向量文件,比较新旧两个质心向量文件是否近似相等,比较方法为:将两个文件质心向量序号相同的质心向量进行相减,将相减得到的误差向量,该误差向量中绝对值最大的向量值作为该误差向量的误差值,在所有序号相同向量相减得到的误差向量的误差值中,找出最大的误差值作为质心向量的总误差W,将W与预先设定的阈值Y比较大小,若W小于阈值Y,则聚类结束,得到最终质心向量文件;若W大于Y,则进行下一遍映射归约直至W小于阈值Y为止,在每一遍映射归约中,将上一遍产生的新的质心向量文件作为此次映射归约的质心向量文件,文本数字向量依旧作为输入文件;

S4.2将所述步骤S4.1聚类最终得到质心向量文件作为质心向量文件,所述步骤S4.1中所述文本数字向量文件作为输入文件,进行一遍映射归约,过程如下:

(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行为一个样本的数字向量,为每一个小文件分配一个映射任务;

(2)在映射阶段,将小文件中每一行向量与所述质心向量文件中每个质心向量进行余弦相似度计算,找出所计算出的余弦相似度最大值对应的向量,作为此行向量的类质心向量,输出这样的键值对:该类质心向量的序号作为键,此行向量作为值;

(3)在归约阶段,直接输出键值对,键则为每个文本向量数据的簇标号,值为行向量;

所述步骤S4.1中聚类方法包含以下步骤:

S4.1-1、所述步骤S4.1所述总误差W大于所述阈值Y时,进行下一遍映射归约,所述步骤S4.1输入文件依然作为输入文件,所述步骤S4.1新的质心向量文件作为质心向量文件,第二遍映射归约过程如下:

(1)将所述输入文件按行拆分成多个小文件,该小文件中每一行为一个样本的数字向量,为每一个小文件分配一个映射任务;

(2)在映射阶段,将小文件中每一行向量与所述质心向量文件中每个质心向量进行余弦相似度计算,找出所计算出的余弦相似度最大值对应的向量,作为此行向量的类质心向量,输出这样的键值对:该类质心向量的序号作为键,此行向量作为值;

(3)在归约阶段,将键相同的数字向量进行相加求和并除以它们的个数,得到它们的平均值,输出对应的键和所求的平均值;

(4)将归约阶段输出的内容作为新的质心向量文件,将之前质心向量文件作为旧的质心向量文件,比较新旧两个质心向量文件是否近似相等,比较方法为:将两个文件质心向量序号相同的质心向量进行相减,将相减得到的误差向量,该误差向量中绝对值最大的向量值作为该误差向量的误差值,在所有序号相同向量相减得到的误差向量的误差值中,找出最大的误差值作为质心向量的总误差W,将W与预先设定的阈值Y比较大小,若W小于阈值Y,则聚类结束,得到最终质心向量文件;若W大于Y,则再次进行下一遍映射归约,直至W小于阈值Y为止。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011051536.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top