[发明专利]一种基于词向量语义分析的海量短文本聚类方法在审
申请号: | 201611018402.X | 申请日: | 2016-11-03 |
公开(公告)号: | CN106776713A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 缪伟宏;潘嵘 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 语义 分析 海量 文本 方法 | ||
技术领域
本发明涉及语义分析领域,更具体地,涉及一种基于词向量语义分析的海量短文本聚类方法。
背景技术
传统的文档空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,但还存在不少问题。0-1向量空间模型:将每个词的出现与否作为其值,过于简单暴力,忽略了单词出现的频率、顺序等问题,同时中文的切词难以规范也是很大问题。词袋模型考虑了单词出现的次数,词频逆文档tfidf模型,同时兼顾了单词在所有文档中出现的频率而计算单词的“重要度”,但对同义词都完全无法处理。如“奥巴马来了北京发表讲话”与“美国总统到了中国首都演讲”,传统的词向量空间模型将会看成完全不相同的两句话。传统的向量空间模型与概率模型构建的“文档——单词”矩阵,由于单词表巨大,一般都接近10万级别,而短文本会真正会出现的单词极少,因此,会出现向量化后的文本矩阵中出现大量未0的稀疏性问题,和维度太大计算量大的“维度爆炸”的问题。
PLSA等概率模型,在词与文本引入了“主题”(topic)中间概念,考虑了单词在所有文本中的分布,一定程度上解决了近义词的问题,但实现困难,计算复杂度大,对与几十到上百字的短文本效果也很差。因此,对于日益增长的海量的短文本数据不太实用。
在聚类算法方面,传统的K-Means算法简单方便,效果良好,但存在初始值需要聚类的簇数目K难以确定和计算时需要两两比较,复杂度大两个缺点。
发明内容
本发明提供一种基于词向量语义分析的海量短文本聚类方法,该方法聚类效果好,聚类速度快。
为了达到上述技术效果,本发明的技术方案如下:
一种基于词向量语义分析的海量短文本聚类方法,包括以下步骤:
S1:收集海量文本数据,并对每一文本数据进行预处理;
S2:对预处理后的文本进行word2vec模型训练得到词向量模型;
S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;
S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。
进一步地,所述步骤S1的具体过程是:
对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。
进一步地,所述步骤S3的具体过程如下:
将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:
其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。
进一步地,所述步骤S4的具体过程如下:
1)从n个单词中数随机动态选取k个词向量作为初始聚类中心;
2)分别计算未选中的词向量与这k个聚类中心的距离,根据最小距离对这些词向量进行划分得到新的聚类;
3)计算第2)中得到的聚类的每一个词向量的均值作为聚类中心;
4)迭代计算标准测度函数,如当迭代次数达到一定阈值,或者标准测度函数收敛K值不再变化时,算法终止,否则跳转至步骤2)。
进一步地,所述将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量的过程是:对预处理后的文本作为word2vec模型的输入,词向量维度设为256,上下窗口为5,利用连续空间词向量技术CBOW方法进行训练得到文本的单词的词向量。
与现有技术相比,本发明技术方案的有益效果是:
本发明针对海量短文本提供一种基于词向量语义分析的聚类方法。首先利用使用海量文本数据进行word2vec的训练,将文本单词映射到256维的向量空间,然后对需要聚类的文本进行单词tfidf值的计算作为权重,将预处理后的文本进行加权求和,将短文本的向量化,相对于传统的tfidf模型,加入了word2vec训练好的词向量语义信息。得到更高质量的“文本向量”,从而提高聚类效果,采用大数据实时流处理框架Spark进行K-means或Dbscan算法进行聚类,加速得到聚类结果。
附图说明
图1为本发明方法流程图;
图2为本发明方法在实施例1中的问答系统中的应用流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611018402.X/2.html,转载请声明来源钻瓜专利网。