[发明专利]基于TF‑IDF特征的短文本聚类以及热点主题提取方法有效
申请号: | 201410378785.6 | 申请日: | 2014-07-31 |
公开(公告)号: | CN104142918B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 郑岩;孟昭鹏;徐超;张亚男 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 李素兰 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 tf idf 特征 文本 以及 热点 主题 提取 方法 | ||
1.一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,该方法包括以下步骤:
首先,对短文本样本进行中文分词,并筛选出高频词汇;接着,基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成,建立整个样本特征向量空间模型;然后,运用SVD奇异值分解进行样本空间维度的约减;最后,结合余弦定理和k-means方法对短文本样本进行聚类,并通过可视化的分析手段找出每一个类簇中潜在的热点主题。
2.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,所述对短文本样本进行中文分词,并筛选出高频词汇的步骤,具体包括以下操作:
对所有样本进行中文分词,依照其出现的频率从大到小排列,然后从大到小逐个选择高频词汇,,直到已经选择词的词频和与总词频的比例达到9比10。
3.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于,所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤,具体包括以下操作:
TF代表这一个词在一个样本中出现的次数,IDF代表这一个词在所有样本中出现的次数,由TF和IDF两部分相乘,得到一个具体的词对于一个样本的重要程度;对每一个样本的所有维度进行该样本的重要程度的计算,生成每一个样本的TF-IDF特征向量:
FeatureVector={f1,f2,f3,…,fn}; (1)
公式(1)中,样本的TF-IDF特征计算公式为:
fn=tf-idf(tn,d,D)=tf(tn,d)*idf(tn,D); (2)
公式(2)中,tf值计算公式为:
tf(tn,d=NumberofTimes(tn), (3)
公式(2)中,idf值计算公式为:
其中,公式(2)、(3)、(4)中,D为所有文本样本集合,d为具体的某一个样本,tn为第n个高频词汇,即一个特征;
上述所有样本的TF-IDF特征向量组成矩阵,该矩阵即为样本特征向量空间模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410378785.6/1.html,转载请声明来源钻瓜专利网。