[发明专利]一种计算机中文文本分类方法有效
申请号: | 201210489136.4 | 申请日: | 2012-11-26 |
公开(公告)号: | CN103020167A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 戴新宇;付强;陈家骏;黄书剑;张建兵 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210093 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机 中文 文本 分类 方法 | ||
技术领域
本发明涉及一种计算机文本处理领域,特别是一种计算机中文文本分类方法。
背景技术
随着当今世界信息量的急剧增加,以及计算机网络技术迅速普及和发展,大量的文档以电子的形式出现。为了更好的管理越来越多的文档,人们对计算机进行自动文本分类的需求越来越大。文本分类就是根据文本的内容,利用计算机把一个文本分成事先给定的某个类别。对于一个文本分类任务,首先把每一个文本都映射到一个高维欧几里得空间,然后使用特征选择方法或特征抽取方法选出一部分对分类有用的特征。利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知类标的文本进行分类。近年来,随着机器学习技术的发展,文本分类方法取得了一系列重要的进展。而在中文文本分类中,中文分词是一个重要的预处理步骤,因为中文文本的字与字之间不像英文单词那样有空格隔开。想要从文本中提取出特征,就必须首先对中文文本进行分词。分词质量的优劣,直接影响到分类结果的好坏。首先,分词中产生的错误会影响分类器的性能,尤其是在网络越来越发达的今天,新鲜的词语层出不穷,这对分词的精度是一个很大的挑战。其次,即使分词结果全部正确,分词也会带来一些关键信息的丢失。表1表示了两个文本的分词表示,其中一个文本来自经济类,另一个来自计算机类。
表1文本预处理的分词示例
在表1中,两个文本都含有“面向”和“对象”这两个特征,他们都被分词工具切开了。所以对我们区分两个文本没有帮助。但是“面向对象”是计算机特有的一个术语,如果使用“面向对象”这个特征,就可以很好地区分这两个文本。但是传统的分词方法无法分出“面向对象”这样的词,因此实际上也就无法区分这样的两个中文文本。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种中文文本分类方法。
为了解决上述技术问题,本发明公开了一种中文文本分类方法,包括以下步骤:
步骤一,通过N-gram方法处理中文文本:使用N-gram(N元语法模型)的方法把中文文本的表示为一个由一组特征组成的特征向量;N-gram表示连续的N个字符组成的字串,N为大于1的自然数。
步骤二,使用tf·idf(term frequency–inverse document frequency,词频-逆向文件频率)法为特征向量中每一个特征赋予一个权重;
步骤三,利用L1-正则化逻辑回归训练出分类器模型,为中文文本分类。L1表示分类器模型的权重向量的1范数。
本发明步骤一包括以下步骤:
对于中文文本d=c1,c2,…cj…,ck,其中cj为中文文本d中的第j个字,j=1,2,…k,k表示中文文本d的总字数,用N-gram的方法把中文文本d的表示为一个由一组特征组成的特征向量,表示为:
(c1,c2,…,ck,
c1c2,c2c3,…,ck-1ck,…,
c1c2…cn,c2c3…cn+1,…,ck-n+1ck-n+2…ck),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210489136.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:处理数据库操作请求的系统
- 下一篇:一种用于生成可视化视图的方法和设备