[发明专利]一种基于LZW压缩算法的中文文本分类特征词典生成方法无效
申请号: | 200810232557.2 | 申请日: | 2008-12-02 |
公开(公告)号: | CN101441663A | 公开(公告)日: | 2009-05-27 |
发明(设计)人: | 郑庆华;刘均;吴朝晖;蒋路;常晓;林鹏 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 | 代理人: | 惠文轩 |
地址: | 710049*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机应用中的文本挖掘和知识获取领域,特别涉及一种基于LZW压缩算法的中文文本分类特征词典生成方法。它包括以下步骤:首先假设待分类的文本的r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_tablei,其中i=1,…,r;然后,将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_tablei;最后,多重过滤字符串后形成r类文本分类的特征词典。 | ||
搜索关键词: | 一种 基于 lzw 压缩 算法 中文 文本 分类 特征 词典 生成 方法 | ||
【主权项】:
1、一种基于LZW压缩算法的中文文本分类特征词典生成方法,其特征在于,包括以下步骤:步骤1:假设待分类的文本共有r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_tablei,其中i=1,…,r,该字符串表str_tablei中每项为(str,TF),分别记录字符串str及其在第i类样本集中出现的频率TF;步骤2:将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_tablei,即:若字符串str已存在于字符串表str_tablei中,则将字符串str的频率TF值加1,否则增加一项新的字符串str并将其频率TF值设置为1;步骤3:对字符串表str_tablei中的项按频率TF值排序,设定频率阈值minTFi,删除频率TF值小于频率阈值minTFi的项;步骤4:统计字符串表str_tablei中各项字符串str在第i类样本集中出现的文档频率DF,即第i类样本集中出现字符串str的文档数,设定第i类词典dici以及其最小文档频率阈值minDFi、最大文档频率阈值maxDFi,将minDFi≤DF≤maxDFi的字符串str和其文档频率DF加入到第i类词典dici中;步骤5:将各类词典dici综合成总词典D,其中每个字符串str在整个样本集中出现的文档频率DF等于其在各个类别中的文档频率DF值之和,按照总词典D中的文档频率DF对各项进行排序,并设定总词典D中的最小文档频率阈值minDF和最大文档频率阈值maxDF,删除总词典D中的文档频率DF值小于最小文档频率阈值minDF和大于最大文档频率阈值maxDF的项;步骤6:计算总词典D中各项字符串str在整个样本集的信息增益值IG,其中P(W)表示单词W出现的概率,单词W即为字符串str;P(Ci)为第i类值的出现概率;P(Ci|W)为单词W出现时属于第i类的条件概率;然后,对总词典D中字符串str按照其信息增益IG值从大到小进行排序,设定总词典D容量M,截取前M项,此时形成的总词典D便作为该r类文本分类的特征词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200810232557.2/,转载请声明来源钻瓜专利网。