[发明专利]基于TF‑IDF特征的短文本聚类以及热点主题提取方法有效

申请号：	201410378785.6	申请日：	2014-07-31
公开（公告）号：	CN104142918B	公开（公告）日：	2017-04-05
发明（设计）人：	郑岩;孟昭鹏;徐超;张亚男	申请（专利权）人：	天津大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	天津市北洋有限责任专利代理事务所12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 tf idf 特征文本以及热点主题提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于TF-IDF特征的短文本聚类以及热点主题提取方法,其特征在于，该方法包括以下步骤：

首先，对短文本样本进行中文分词，并筛选出高频词汇；接着，基于筛选出的高频词汇自动地对每一个短文本样本进行TF-IDF特征提取和生成，建立整个样本特征向量空间模型；然后，运用SVD奇异值分解进行样本空间维度的约减；最后，结合余弦定理和k-means方法对短文本样本进行聚类，并通过可视化的分析手段找出每一个类簇中潜在的热点主题。

2.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，所述对短文本样本进行中文分词，并筛选出高频词汇的步骤，具体包括以下操作：

对所有样本进行中文分词，依照其出现的频率从大到小排列，然后从大到小逐个选择高频词汇，，直到已经选择词的词频和与总词频的比例达到9比10。

3.如权利要求1所述的基于TF-IDF特征的短文本聚类以及热点主题提取方法，其特征在于，所述对每一个短文本样本进行TF-IDF特征提取和生成的步骤，具体包括以下操作：

TF代表这一个词在一个样本中出现的次数，IDF代表这一个词在所有样本中出现的次数，由TF和IDF两部分相乘，得到一个具体的词对于一个样本的重要程度；对每一个样本的所有维度进行该样本的重要程度的计算，生成每一个样本的TF-IDF特征向量：

FeatureVector＝{f₁，f₂，f₃，…，f_n}; (1)

公式(1)中，样本的TF-IDF特征计算公式为：

f_n＝tf-idf(t_n，d，D)＝tf(t_n，d)*idf(t_n，D)； (2)

公式(2)中，tf值计算公式为：

tf(t_n,d＝NumberofTimes(t_n)， (3)

公式(2)中，idf值计算公式为：

idf(tn,D)=logN1+|{d∈D:tn∈d}|]]> (4)