[发明专利]一种基于LZW压缩算法的中文文本分类特征词典生成方法无效

申请号：	200810232557.2	申请日：	2008-12-02
公开（公告）号：	CN101441663A	公开（公告）日：	2009-05-27
发明（设计）人：	郑庆华;刘均;吴朝晖;蒋路;常晓;林鹏	申请（专利权）人：	西安交通大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	西安通大专利代理有限责任公司	代理人：	惠文轩
地址：	710049***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及计算机应用中的文本挖掘和知识获取领域，特别涉及一种基于LZW压缩算法的中文文本分类特征词典生成方法。它包括以下步骤：首先假设待分类的文本的r个类别，每个类别对应一个样本集，对于第i类样本集初始化一个字符串表str_table_i，其中i＝1，…，r；然后，将第i类样本集中的文档输入LZW压缩算法LZWencode(infile，str_table)，并产生相应的压缩编码串，作为候选特征词用来更新字符串表str_table_i；最后，多重过滤字符串后形成r类文本分类的特征词典。
搜索关键词：	一种基于 lzw 压缩算法中文文本分类特征词典生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1、一种基于LZW压缩算法的中文文本分类特征词典生成方法，其特征在于，包括以下步骤：步骤1：假设待分类的文本共有r个类别，每个类别对应一个样本集，对于第i类样本集初始化一个字符串表str_tablei，其中i＝1，…，r，该字符串表str_tablei中每项为(str，TF)，分别记录字符串str及其在第i类样本集中出现的频率TF；步骤2：将第i类样本集中的文档输入LZW压缩算法LZWencode(infile，str_table)，并产生相应的压缩编码串，作为候选特征词用来更新字符串表str_tablei，即：若字符串str已存在于字符串表str_tablei中，则将字符串str的频率TF值加1，否则增加一项新的字符串str并将其频率TF值设置为1；步骤3：对字符串表str_tablei中的项按频率TF值排序，设定频率阈值minTFi，删除频率TF值小于频率阈值minTFi的项；步骤4：统计字符串表str_tablei中各项字符串str在第i类样本集中出现的文档频率DF，即第i类样本集中出现字符串str的文档数，设定第i类词典dici以及其最小文档频率阈值minDFi、最大文档频率阈值maxDFi，将minDFi≤DF≤maxDFi的字符串str和其文档频率DF加入到第i类词典dici中；步骤5：将各类词典dici综合成总词典D，其中每个字符串str在整个样本集中出现的文档频率DF等于其在各个类别中的文档频率DF值之和，按照总词典D中的文档频率DF对各项进行排序，并设定总词典D中的最小文档频率阈值minDF和最大文档频率阈值maxDF，删除总词典D中的文档频率DF值小于最小文档频率阈值minDF和大于最大文档频率阈值maxDF的项；步骤6：计算总词典D中各项字符串str在整个样本集的信息增益值IG，其中P(W)表示单词W出现的概率，单词W即为字符串str；P(Ci)为第i类值的出现概率；P(Ci|W)为单词W出现时属于第i类的条件概率；然后，对总词典D中字符串str按照其信息增益IG值从大到小进行排序，设定总词典D容量M，截取前M项，此时形成的总词典D便作为该r类文本分类的特征词典。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200810232557.2/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于LZW压缩算法的中文文本分类特征词典生成方法无效

专利文献下载