[发明专利]基于TF-IDF的文本特征提取方法和装置在审
申请号: | 201910683955.4 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110472240A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 吉长江 | 申请(专利权)人: | 北京影谱科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35 |
代理公司: | 11694 北京万思博知识产权代理有限公司 | 代理人: | 柴国伟<国际申请>=<国际公布>=<进入 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本特征提取 词性 权重 构建 算法 文本特征向量 方法和装置 预处理模块 分析模块 构建模块 计算模块 计算效率 聚类分析 算法实现 特征词汇 特征向量 提取模块 文本数据 信息增益 训练模块 阈值提取 权重和 停用词 分词 预设 申请 词汇 改进 | ||
本申请公开了一种基于TF‑IDF的文本特征提取方法和装置,属于文本特征提取技术领域。该方法包括:构建文本数据集,进行分词和去停用词处理;对任一词汇,根据位置设置位置权重,根据词性设置词性权重,计算的信息增益IG,将位置权重、词性权重和IG结合到TF‑IDF算法中,计算出TF‑IDF‑IG值,按照预设阈值提取特征词汇,构建文本特征向量;采用PCA算法进行聚类分析,以及指定的模型进行训练。该装置包括:构建模块、预处理模块、计算模块、提取模块、分析模块和训练模块。本申请给出了一种新型的基于改进的TF‑IDF算法实现文本特征提取的方法,提高特征向量的代表性和准确性,提高了后续模型的计算效率。
技术领域
本申请涉及文本特征提取技术领域,特别是涉及一种基于TF-IDF的文本特征提取方法和装置。
背景技术
文本特征提取是处理文本数据的重要步骤之一,通过文本特征提取算法能够提取出表征文本重要信息的词汇,并降低文本维度,提高数据挖掘、文本分类等工作的效率。一个好的文本特征提取算法提取到的特征需要满足以下需求:首先要能准确表征文档主题内容;其次是能够具备区分本文档与其他文档的能力;最后是提取到的特征量不能过于庞大,否则就失去了降低数据维度的意义。
TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)是常用的基于统计的文本特征提取方法,由Salton在1988年提出,主要通过统计和计算实现对文本的特征抽取。其中,TF代表词频,表示词汇在文本中出现的频率,IDF代表逆文本频率,表示词汇在文本中的区分类别的能力。TF-IDF算法的主要思想是,如果某个词汇在文本中出现的频率较高即拥有较大的词频数目,且在其他文本段中出现的次数较少,即具有较强的文本区分能力,则认为该词汇具有表征该文本段的能力,即适合用来做主题分类,代表着该文本段的核心内容。TF-IDF与词汇的词频成正比,同时与其在文本集中出现的次数成反比。采用TF-IDF算法的过程一般如下:根据实验目的选取合适的文本数据集作为实验的训练集和测试集;对文本采用分词、去停用词处理,去除无含义的语气词、副词、特殊符号和标点符号;设置阈值,采用TF-IDF算法抽取文本特征,构建文本特征向量;根据不同实验目的采取不同模型对文本特征向量进行训练,例如在文本分类任务中,常采用SVM(SupportVector Machine,支持向量机)、CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)等作为分类模型。
但是,TF-IDF算法没有考虑不同类别的文本对单词出现频次的影响,也没有考虑文本中词汇间的位置关系,因此,构造的文本特征向量存在维度稀疏的问题,会导致后续模型训练的计算量过大,影响效率。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于TF-IDF的文本特征提取方法,包括:
构建文本数据集;
对所述文本数据集中的文本进行分词和去停用词处理;
在所述处理后的文本中,对于任一词汇wi,根据其在文本中的位置为其设置位置权重α,根据其词性为其设置词性权重β,计算所述词汇wi的信息增益IG,将所述位置权重α、词性权重β和信息增益IG结合到TF-IDF算法中,计算出所述词汇wi的TF-IDF-IG值;
根据计算出的TF-IDF-IG值,按照预设的阈值提取出特征词汇,构建文本特征向量;
采用PCA算法对所述文本特征向量进行聚类分析;
采取指定的模型对所述聚类分析后的文本特征向量进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京影谱科技股份有限公司,未经北京影谱科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910683955.4/2.html,转载请声明来源钻瓜专利网。