[发明专利]一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置在审
申请号: | 201510770947.5 | 申请日: | 2015-11-12 |
公开(公告)号: | CN105224695A | 公开(公告)日: | 2016-01-06 |
发明(设计)人: | 陈科文;张祖平;龙军;胡扬 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 长沙市融智专利事务所 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 文本 特征 量化 方法 装置 分类 | ||
1.一种用于文本分类的文本特征量化方法,其特征在于,包括以下步骤:
步骤1:将已分类的训练文本集和待分类的文本集进行预处理;
所述已分类的训练文本集简称为训练集,其中每个文档都带有类别标签;
所述待分类的文本集为无类别标签的文本集或带有类别标签的测试文本集;
所述文档是指被分类的文本数据单元;内容为文本数据的文档称为文本文档;
所述文本集是指文本数据集,由相同或不同类别的文本文档组成的;所述文本分类是指为文本文档分配与其内容相符的预定义的类别标签;
所述预处理是指对文本进行分词和去噪处理,所述去噪包括去除标点符号、数字及停用词,将英文字母转换为小写、提取英文单词的词根;
步骤2:从预处理后的训练集中提取不同的特征词,构建由不同的特征词组成的初始词表,并且统计训练集中的每个文本类别的文档数目、每个特征词的类别文档频率;
所述特征词是指文本中的各个单独的词汇或其它不包含空格或标点符号的连续字符串,每个特征词代表文本的一个特征或属性;
所述特征词的类别文档频率是指包含该特征词且属于某个文本类别的训练文档数目;
同时,统计训练集与待分类的文本集中每个文档包含的每个特征词的词频;所述每个文档包括训练文档和待分类文档,所述词频是指某特征词在一篇文档中的出现频次;
步骤3:根据特征选择指标对初始词表进行筛选,保留指标计算值大的特征词作为文本的特征或属性,构建新的特征词表;
待分类的文本集和训练集使用相同的特征词表;
所述特征选择指标包括卡方统计量或信息增益;
所述筛选方法是先计算每个特征词的特征选择指标,将所有特征词的特征选择指标计算值按照从大到小排序,选择排列在前面的200~9000个特征词作为文本的特征或属性;
步骤4:用TF-ENT方法计算每个特征词在文档中的权重;
所述TF-ENT方法是指根据特征词在文档中的词频和在训练集的所有不同文本类别上分布的信息熵来计算特征词权重的方法;
根据所述TF-ENT方法,特征词tk在文档di中的权重W(tk,di)按照以下公式计算获得:
其中,k=1,2,…,n,为各特征词的索引序号,n为经过步骤3筛选后保留的不同特征词的数量;tfki为特征词tk在文档di中的词频;如果tk没有di中出现,tfki=0,则权重W(tk,di)的值为0,否则以词频的平方根作为特征词tk在文档di中的局部权重因子;G(tk)为特征词tk在整个文本集中的全局权重因子,是利用特征词在训练集的所有不同文本类别上分布的信息熵计算获得的;
步骤5:归一化处理特征词权重,生成文档特征向量并输出;
按照以下公式对每个特征词的权重进行归一化处理,用每个特征词的归一化权重值组成文档di的特征向量
其中,tk和tj均为在文档di中出现的特征词;如果tk没有在di中出现,则相应的归一化权重值为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510770947.5/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置