[发明专利]一种基于方差的文档分类方法有效

申请号：	201410215035.7	申请日：	2014-05-21
公开（公告）号：	CN104123272B	公开（公告）日：	2017-02-15
发明（设计）人：	赵燕清;魏墨济;朱世伟;于俊凤;李晨;蔡斌雷;王蕾;冯海洲;王爱萍	申请（专利权）人：	山东省科学院情报研究所
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	济南泉城专利商标事务所37218	代理人：	褚庆森
地址：	250014 山东省济南市***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于方差文档分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于方差的文档分类方法，包括样本训练阶段和文档分类阶段，其特征在于，

所述样本训练阶段通过以下步骤来实现：

a).样本采集，从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文，作为训练样本；并获取样本的文本内容；

b).分词并统计词频，首先采用现有的分词方法，对步骤a)中获取的文档样本进行分词处理；然后对每篇文档中每个词出现的次数进行统计，获取文档中词汇的词频，将词汇的词频作为文档的特征集合；

c).词频量级归一化处理，为避免词频数量级不同对方差造成的影响，采用公式（1）对每篇文档中每个词汇的词频做归一化处理：

（1）

其中，表示样本文档的编号，其取值范围是：；表示第篇文本文档中词汇的编号，其取值范围是：；表示归一化前第篇文档中第个词汇的词频，表示归一化后第篇文档中第个词汇的词频；表示第篇文档中出现次数最多的词的词频，表示第篇文档中出现次数最少的词的词频；

d).计算词频方差，按照公式（2）计算每篇文档词频的方差：

（2）

表示第篇样本文档中词汇词频的平均值，其通过公式（3）进行求取：

（3）

其中，表示样本文档的编号，表示第篇文本文档中词汇的编号，表示第篇文本文档中词汇的总量；表示第篇样本文档词汇词频的方差；

e).归纳词频方差区间，根据步骤d)计算所有样本文档的方差，按照科技文献、小说、散文对这些文档的方差进行归类，统计每类文档方差的取值范围，归纳得到每类文档词频方差的取值区间；设归纳后的小说、科技文献、散文的词频方差区间分别为、、，将其作为文档分类标准；

所述文档分类阶段通过以下步骤来实现：

f).待分类文档的处理，获取待分类的电子文档，并按照步骤b)至步骤e)中的方法对待分类的文档进行处理，求取待分类电子文档的方差，记为;

g).判断方差的落入区间，将步骤f)中求出的待分类文档的方差与科技文献、小说、散文的分类标准进行比较，判断落入方差区间、、中的哪一个；

h).获取文档分类，如果落入区间，则表明该文档属于科技文献；如果落入区间，则表明该文档属于小说；如果落入区间，则表明该文档属于散文。

2.根据权利要求1所述的基于方差的文档分类方法，其特征在于：步骤a)中所述的获取样本的文本内容包括抽取文档文本和预处理，在抽取文档文本的过程中，对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本；预处理为将获取的文档文本中的无关信息进行去除，对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。

3.根据权利要求1或2所述的基于方差的文档分类方法，其特征在于：步骤e)中所获取的小说、科技文献、散文的词频方差区间、、的参考值分别为、、。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所，未经山东省科学院情报研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410215035.7/1.html，转载请声明来源钻瓜专利网。

上一篇：翻译验证
下一篇：为本地与远程物理存储器之间的共享虚拟存储器提供硬件支持

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于方差的文档分类方法有效

专利文献下载