[发明专利]一种文本分类的方法有效
申请号: | 201510267849.X | 申请日: | 2015-05-22 |
公开(公告)号: | CN104866573B | 公开(公告)日: | 2018-02-13 |
发明(设计)人: | 耿玉水;杨涛;杨振宇 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 孟峣 |
地址: | 250353 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 | ||
技术领域
本发明涉及云计算大数据技术,具体地说是一种实用性强的文本分类的方法。
背景技术
随着网络技术的快速发展,海量的信息资源以文本的形式存在。人们迫切的希望能从爆炸式的信息浪潮中快速有效的找到自己感兴趣的内容。文本分类作为信息处理的重要研究方向,是解决文本信息发现的常用方法。在文本分类的过程中,关键词的权重起到决定性的作用,它能快速反映一篇文档主题内容或与文档所在领域高度相关的词语,帮助人们在搜寻所需的信息时能够迅速地定位到相应的文档。
目前获取关键词或特征词的方式有4种:(1)用映射或变换的方法把原始特征变换为较少的新特征;(2)从原始特征中挑选出一些最具代表性的特征;(3)根据专家的知识挑选最有影响的特征;(4)用数学的方法进行选取,找出最具分类信息的特征,这种方法是一种比较精确的方法,人为因素的干扰较少,尤其适合于文本自动分类挖掘系统的应用。
针对该数学的方法,在国外1973年,Salton结合了JONES K S的思想首次提出了TFIDF(Term Frequency&Inverse Documentation Frequency)算法。此后他又多次论证了该算法在信息检索中的有效性,并在1988年将特征词和权重运用到文献检索中,并详细阐述了实验的情况,进而他得出TFIDF算法具有以下思想:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类;一个词在一篇文档中出现的范围越广,说明它区分文档内容的属性越低(IDF)。1999年Roberto Basils提出了改进的TF×IWF×IWF算法,该算法提高了在大量文档出现的频率较低的特征词的权重,有利于多文档的区分,但是它没有考虑到当某一类文档在总文档数所占比例较高时,对该类文档进行区分时,无形降低了可以区分该类文档的特征词的权重,导致该类文档不能有效区分出来;另一方面,该算法大大提高了一些不具有区分能力单出现次数较少的特征词权重。因此该算法适用范围具有一些局限性。2004年,Bong Chih How和Narayanan K根据不同类别的文档数可能存在数量级的差距提出了用Category Term Descriptor(CTD)来改进TFIDF,以解决了不同类别的文档数目对TFIDF算法的影响。
在国内,也有很多研究学者对TFIDF算法进行研究和改进,且取得了很多显著的成果。2006张玉芳等人为了解决特征性项在类间和类内的分布情况,对TFIDF公式进行了修改。该算法考虑到了特征项在内间的分布情况,提高了那些在某一类文档大量出现而在其他类文本含量较少的特征项的权重,能够较精确的区分出该类文档。但当某一类文本c所含关键特征项t的文档数量较小时,其关键特征项t的权重会随着其他类中包含特征项t的文档数量的增大而减小(在一定程度内,如果不含关键特征项的文本数量过大,特征词t也就不能成为区分文本的关键词),故有一定的局限性;同时该算法只考虑到特征项在内间的分布情况而没注意到其在类内的分布情况。
更为具体的,现有的TFIDF算法存在以下不足:
1)IDF没有考虑到特征词在内间的分布信息。
如果某一类c_i中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,则表示该词条t类别区分能力不强。但是实际上,m大,说明词条t在c_i类的文档中频繁出现,就说明t词条能够很好地代表c_i类的文本特征,应该赋予较高的权重并选作该类文本的特征词。这就是IDF没有考虑特征词在类间分布的一个方面;另一方面,虽然包含t的文档数n较小,但是如果其均匀分布在各个类间,这样的特征词不适合用来分类,应该赋予较小的权重,可按照传统的TFIDF算法计算其IDF值却很大。
2)TFIDF没有考虑特征词不完全分类的情况。
实际使用的已分类的训练文本集通常是不完全的分类。即有些类别的文档集还可以继续划分出更细的类别。如,计算机类一般来说至少可以再细分出计算机硬件、计算机软件两个子类。在这种不完全的分类条件下,各个子类文章所占的比重是不均衡的。可能在某个计算机类的文本集中,软件类的占了80%,硬件类的只有20%的比例。在这个训练集中,属于计算机硬件类的特征词也应该作为判别计算机类文章的特征词。如果某些词在一类文章中整体出现频率较低,但是在本类中一定数量的文章中出现较频繁,那么这些词也应该对分类来说具有较多的信息量。这就是不完全分类的情况。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510267849.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种不完整物联网数据混合填充方法
- 下一篇:异构数据源实时同步系统及方法