[发明专利]一种基于LZW压缩算法的中文文本分类特征词典生成方法无效

专利信息
申请号: 200810232557.2 申请日: 2008-12-02
公开(公告)号: CN101441663A 公开(公告)日: 2009-05-27
发明(设计)人: 郑庆华;刘均;吴朝晖;蒋路;常晓;林鹏 申请(专利权)人: 西安交通大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安通大专利代理有限责任公司 代理人: 惠文轩
地址: 710049*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及计算机应用中的文本挖掘和知识获取领域,特别涉及一种基于LZW压缩算法的中文文本分类特征词典生成方法。它包括以下步骤:首先假设待分类的文本的r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_tablei,其中i=1,…,r;然后,将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_tablei;最后,多重过滤字符串后形成r类文本分类的特征词典。
搜索关键词: 一种 基于 lzw 压缩 算法 中文 文本 分类 特征 词典 生成 方法
【主权项】:
1、一种基于LZW压缩算法的中文文本分类特征词典生成方法,其特征在于,包括以下步骤:步骤1:假设待分类的文本共有r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_tablei,其中i=1,…,r,该字符串表str_tablei中每项为(str,TF),分别记录字符串str及其在第i类样本集中出现的频率TF;步骤2:将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_tablei,即:若字符串str已存在于字符串表str_tablei中,则将字符串str的频率TF值加1,否则增加一项新的字符串str并将其频率TF值设置为1;步骤3:对字符串表str_tablei中的项按频率TF值排序,设定频率阈值minTFi,删除频率TF值小于频率阈值minTFi的项;步骤4:统计字符串表str_tablei中各项字符串str在第i类样本集中出现的文档频率DF,即第i类样本集中出现字符串str的文档数,设定第i类词典dici以及其最小文档频率阈值minDFi、最大文档频率阈值maxDFi,将minDFi≤DF≤maxDFi的字符串str和其文档频率DF加入到第i类词典dici中;步骤5:将各类词典dici综合成总词典D,其中每个字符串str在整个样本集中出现的文档频率DF等于其在各个类别中的文档频率DF值之和,按照总词典D中的文档频率DF对各项进行排序,并设定总词典D中的最小文档频率阈值minDF和最大文档频率阈值maxDF,删除总词典D中的文档频率DF值小于最小文档频率阈值minDF和大于最大文档频率阈值maxDF的项;步骤6:计算总词典D中各项字符串str在整个样本集的信息增益值IG,其中P(W)表示单词W出现的概率,单词W即为字符串str;P(Ci)为第i类值的出现概率;P(Ci|W)为单词W出现时属于第i类的条件概率;然后,对总词典D中字符串str按照其信息增益IG值从大到小进行排序,设定总词典D容量M,截取前M项,此时形成的总词典D便作为该r类文本分类的特征词典。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200810232557.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top