[发明专利]基于TF‑IDF特征的短文本聚类以及热点主题提取方法有效
申请号: | 201410378785.6 | 申请日: | 2014-07-31 |
公开(公告)号: | CN104142918B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 郑岩;孟昭鹏;徐超;张亚男 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 tf idf 特征 文本 以及 热点 主题 提取 方法 | ||
技术领域
本发明涉及数字文本挖掘技术,特别是涉及文本的聚类以及相应的热点主题提取的方法。
背景技术
文本聚类多年来一直是研究学者致力于研究、探索和解决的热点问题之一,时至今日,仍有诸多难题亟需解决,例如在进行聚类时,样本不均衡,样本特征维度过高,聚类算法复杂度太大等都带来了极大的挑战。与此同时,伴随着计算机的快速发展,每天都有海量的文本数据生成,随着数据的激增我们进入了大数据的时代,伴随而来的是更多更复杂,更难解决的问题。
发明内容
为了克服上述现有技术存在的问题,本发明提出一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,针对短文本样本,通过提取TF-IDF特征能够有效的进行短文本样本聚类以及相关热点主题的提取,结合并使用了TF-IDF特征、SVD奇异值分解、余弦定理、k-means聚类等技术,能够有效地进行短文本聚类、热点主题提取和数据挖掘与分析。
本发明提出了一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,该方法包括以下步骤:
首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
所述对短文本样本进行中文分词,并筛选出高频词汇的步骤,具体包括以下操作:
对所有样本进行中文分词,依照其出现的频率从大到小排列,然后从大到小逐个选择高频词汇,,直到已经选择词的词频和与总词频的比例达到9比10。
所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤,具体包括以下操作:
TF代表这一个词在一个样本中出现的次数,IDF代表这一个词在所有样本中出现的次数,由TF和IDF两部分相乘,得到一个具体的词对于一个样本的重要程度;对每一个样本的所有维度进行该样本的重要程度的计算,生成每一个样本的TF-IDF特征向量,
FeatureVector={f1,f2,f3,…,fn}; (1)
公式1中,样本的TF-IDF特征计算公式为:
fn=tf-idf(tn,d,D)=tf(tn,d)*idf(tn,D); (2)
公式2中,tf值计算公式为:
tf(tn,d=NumberofTimes(tn), (3)
公式3中,idf值计算公式为:
其中,公式(2)、(3)、(4)中,D为所有文本样本集合,d为具体的某一个样本,tn为第n个高频词汇,即一个特征;
上述所有样本的TF-IDF特征向量组成矩阵,该矩阵即为样本特征向量空间模型。
所述运用SVD奇异值分解进行样本空间维度的约减的步骤,具体包括以下操作:
通过计算样本空间矩阵的奇异值并按大小从大到小排列,取前r个奇异值使得r个奇异值的奇异值之和占总奇异值之和的90%,将特征向量样本空间的高维度约减到r维:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410378785.6/2.html,转载请声明来源钻瓜专利网。