[发明专利]一种基于方差的文档分类方法有效

专利信息
申请号: 201410215035.7 申请日: 2014-05-21
公开(公告)号: CN104123272B 公开(公告)日: 2017-02-15
发明(设计)人: 赵燕清;魏墨济;朱世伟;于俊凤;李晨;蔡斌雷;王蕾;冯海洲;王爱萍 申请(专利权)人: 山东省科学院情报研究所
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 济南泉城专利商标事务所37218 代理人: 褚庆森
地址: 250014 山东省济南市*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 方差 文档 分类 方法
【权利要求书】:

1.一种基于方差的文档分类方法,包括样本训练阶段和文档分类阶段,其特征在于,

所述样本训练阶段通过以下步骤来实现:

a).样本采集,从现有多类文档库中采集足够数量的、已明确类别的科技文献、小说和散文,作为训练样本;并获取样本的文本内容;

b).分词并统计词频,首先采用现有的分词方法,对步骤a)中获取的文档样本进行分词处理;然后对每篇文档中每个词出现的次数进行统计,获取文档中词汇的词频,将词汇的词频作为文档的特征集合;

c).词频量级归一化处理,为避免词频数量级不同对方差造成的影响,采用公式(1)对每篇文档中每个词汇的词频做归一化处理:

      (1)

其中,表示样本文档的编号,其取值范围是:;表示第篇文本文档中词汇的编号,其取值范围是:;表示归一化前第篇文档中第个词汇的词频,表示归一化后第篇文档中第个词汇的词频;表示第篇文档中出现次数最多的词的词频,表示第篇文档中出现次数最少的词的词频;

d).计算词频方差,按照公式(2)计算每篇文档词频的方差:

    (2)

表示第篇样本文档中词汇词频的平均值,其通过公式(3)进行求取:

    (3)

其中,表示样本文档的编号,表示第篇文本文档中词汇的编号,表示第篇文本文档中词汇的总量;表示第篇样本文档词汇词频的方差;

e).归纳词频方差区间,根据步骤d)计算所有样本文档的方差,按照科技文献、小说、散文对这些文档的方差进行归类,统计每类文档方差的取值范围,归纳得到每类文档词频方差的取值区间;设归纳后的小说、科技文献、散文的词频方差区间分别为、、,将其作为文档分类标准;

所述文档分类阶段通过以下步骤来实现:

f).待分类文档的处理,获取待分类的电子文档,并按照步骤b)至步骤e)中的方法对待分类的文档进行处理,求取待分类电子文档的方差,记为;

g).判断方差的落入区间,将步骤f)中求出的待分类文档的方差与科技文献、小说、散文的分类标准进行比较,判断落入方差区间、、中的哪一个;

h).获取文档分类,如果落入区间,则表明该文档属于科技文献;如果落入区间,则表明该文档属于小说;如果落入区间,则表明该文档属于散文。

2.根据权利要求1所述的基于方差的文档分类方法,其特征在于:步骤a)中所述的获取样本的文本内容包括抽取文档文本和预处理,在抽取文档文本的过程中,对pdf、doc和html格式的文档分别采用PDFBox插件、javadoc插件和HTMlParser解析文档以获取文档文本;预处理为将获取的文档文本中的无关信息进行去除,对于html文档应将与主题无关的广告、友情链接、同类推荐垃圾信息过滤掉。

3.根据权利要求1或2所述的基于方差的文档分类方法,其特征在于:步骤e)中所获取的小说、科技文献、散文的词频方差区间、、的参考值分别为、、。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省科学院情报研究所,未经山东省科学院情报研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410215035.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top