[发明专利]一种基于方差的文档分类方法有效
申请号: | 201410215035.7 | 申请日: | 2014-05-21 |
公开(公告)号: | CN104123272B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 赵燕清;魏墨济;朱世伟;于俊凤;李晨;蔡斌雷;王蕾;冯海洲;王爱萍 | 申请(专利权)人: | 山东省科学院情报研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 济南泉城专利商标事务所37218 | 代理人: | 褚庆森 |
地址: | 250014 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 方差 文档 分类 方法 | ||
技术领域
本发明涉及一种基于方差的文档分类方法,更具体的说,尤其涉及一种根据科技文献、小说和散文的用词特点所造成的词频方差不同将其区分开来的基于方差的文档分类方法。
背景技术
随着Internet技术的发展进步,网络中的文档资源不断丰富,这其中既有丰富人们精神生活的小说、散文等文学作品,也有为人们提供知识为科研奠定基础的科技文献,这些数字资源既是人们智慧和技术的结晶,更是人类文明的宝贵财富。然而随着大数据时代的到来,呈指数级增长的海量资源为文档的有效组织和管理提出了挑战。文档分类是指按照文档或内容的属性,对文档集合中的每一个文档指定一个或多个类别,通过类别的划定可以采用“分而治之”的思想对文档进行组织,从而有效地降低类别中文档资源的数量,提高文档的检索效率,进而提升文档管理的能力。近年来,文档分类研究已成为图书情报、数据挖掘以及智能信息检索等多个学科领域关注的热点。
当前文档分类一般是采用统计学习方法,基于文本分类技术通过对文本内容的分析,将文档归入一个或多个合适的类别,实现文档的自动分类。目前最常用的文档分类算法模型主要有K近邻算法(K-Nearest Neighbor,KNN)、贝叶斯算法(Bayes)、支持向量机(Support Vector Machine,SVM)算法和决策树算法。
其中,KNN算法通过计算待分类文档的特征值与训练样本集中每个文档特征值的相似度,找出K个与待分类文档最相似的文档,根据待分类文档与相似文档的加权距离,判断待分类文档的类别。Bayes算法是一类基于概率模型的分类算法,其中最简单的朴素贝叶斯算法在估计分类条件概率时假设文档的各特征值之间是相互独立的。而作为文档特征值的高频词在实际情况中并不满足独立性假设,因此出现了许多降低独立性假设的贝叶斯分类算法。SVM算法建立在VC维理论和结构风险最小理论上,通过训练样本的学习,找出能够较好区分不同类样本点的超平面,以此对待分类文档的类别进行判断。决策树算法以归纳学习算法为基础,从一组无序、无规则的样本集合中找出类似于树形的分类规则。树中的每个内节点表示特征,而叶节点表示特定的类别,从根节点到叶节点的一条路径就表示一条合取规则,整棵树就是文档的分类规则。
随着理论研究的成熟,上述算法模型已广泛应用于各类文档的分类中,如科技文献、电子邮件、web页面、技术专利等。这些算法通过对所提取的文档特征值进行训练,找出最能代表主题的特征值构建分类模型,有效地实现了给定领域中不同主题文档的分类。然而脱离了主题的依赖,在未确定领域之前,这些分类算法则无法从宏观上对无主题限制的文档建立有效的分类模型。上述问题便存在于文学作品与科技文献的区分中,也即无法有效地分类一篇文档属于一篇科技文献还是一篇小说或是一篇散文。因为文学作品和科技文献所涉及的领域和主题无限,并且不同类文档所涉及的领域和主题还存在交叉的现象时,无法在训练阶段提供准确的类别定义,也就无法抽取能够表征类别的特征值集合,因此难以为此种分类问题构建分类模型。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种根据科技文献、小说和散文的用词特点所造成的词频方差不同将其区分开来的基于方差的文档分类方法。
本发明的基于方差的文档分类方法,包括样本训练阶段和文档分类阶段,其特征在于,所述样本训练阶段通过以下步骤来实现:a).样本采集,从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;并获取样本的文本内容;b).分词并统计词频,首先采用现有的分词方法,对步骤a)中获取的文档样本进行分词处理;然后对每篇文档中每个词出现的次数进行统计,获取文档中词汇的词频,将词汇的词频作为文档的特征集合;c).词频量级归一化处理,为避免词频数量级不同对方差造成的影响,采用公式(1)对每篇文档中每个词汇的词频做归一化处理:
(1)
其中,表示样本文档的编号,其取值范围是:;表示第篇文本文档中词汇的编号,其取值范围是:;表示归一化前第篇文档中第个词汇的词频,表示归一化后第篇文档中第个词汇的词频;表示第篇文档中出现次数最多的词的词频,表示第篇文档中出现次数最少的词的词频;d).计算词频方差,按照公式(2)计算每篇文档词频的方差:
(2)
表示第篇样本文档中词汇词频的平均值,其通过公式(3)进行求取:
(3)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410215035.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:翻译验证
- 下一篇:为本地与远程物理存储器之间的共享虚拟存储器提供硬件支持