[发明专利]基于终生学习的增量式朴素贝叶斯文本分类方法有效

申请号：	201610983203.6	申请日：	2016-11-08
公开（公告）号：	CN108062331B	公开（公告）日：	2021-02-12
发明（设计）人：	夏睿;潘振春	申请（专利权）人：	南京理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	南京理工大学专利中心 32203	代理人：	陈鹏;朱显国
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于终生学习增量朴素斯文分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法，该方法包括：获取初始文本；提取文本的特征词，保存文本集的特征词表以及文本数量；计算文本中各特征词的词频，将文本集分为训练集和验证集两个部分；通过朴素贝叶斯分类器训练上一步生成的训练集向量模型，得出朴素贝叶斯模型的先验概率和特征类条件概率并保存；如果有新文本，增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率，若没有，从验证集中选取测试语料，并根据朴素贝叶斯模型得到测试语料的预测文本类别，计算预测的准确率。本发明不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习，而且具有新特征处理和领域自适应能力。

技术领域

本发明属于数据挖掘与机器学习领域，具体涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法。

背景技术

随着信息时代的到来，我们能够获得的信息与日剧增，而如何处理和利用这些海量数据就显得尤为重要。尽管如今硬件的性能越来越高，但是信息量也呈爆炸式的增长，许多传统的分类方法在处理数据时都是一次性将所有数据读入内存，这种方式大大的限制了算法的泛化性和可扩展性。此外，在大多数自然语言处理任务中，训练集都是不完备的，为了改善模型性能，训练集需要不断加入和更新训练样本。传统分类方法每次更新样本都需要重新整合所有样本，重新训练，这必然导致重复训练，带来不必要的巨大时间开销。

在大数据时代，一个高效的分类算法，需要能在克服数据量过大问题的基础上充分利用数据，以提高分类的准确率。然而，目前已知的许多分类算法并不具备这种能力，缺乏增量式的参数学习方式。朴素贝叶斯分类算法作为分类中一种常用的算法，并不具备增量学习的能力。为了让朴素贝叶斯算法拥有更好的增量或者在线学习能力，国内外学者展开了广泛且深入的研究。相关主要有两类：一是通过不同的策略筛选样本，选择对分类有益的样本进行增量学习；二是更改朴素贝叶斯的参数更新方式，使其具备更好的增量学习能力。前者采用不同策略筛选样本来优化增量学习的方法，并没有从根本上改变模型，因此参数更新公式也仅仅是基于传统的朴素贝叶斯模型，基于这种方法的增量研究都是围绕着如何筛选样本进行的。后者，更改朴素贝叶斯模型参数方法的工作相对较少，然而此类方法仍然基于现有的朴素贝叶斯模型，其性能并不能得到提高。

发明内容

本发明的目的是提供一种基于终生学习的增量式朴素贝叶斯文本分类方法。

实现本发明目的的技术方案为：一种基于终生学习的增量式朴素贝叶斯文本分类方法，包括下列步骤：

步骤1，获取初始文本，构成文本集；

步骤2，提取文本的特征词，将文本进行分词，保存文本集的特征词表以及文本数量；

步骤3，计算文本中各特征词的词频，将文本用向量模型进行表示，并将文本集分为训练集和验证集两个部分；

步骤4，通过朴素贝叶斯分类器训练上一步生成的训练集向量模型，得出朴素贝叶斯模型的先验概率和特征类条件概率并保存；

步骤5，判断是否有新文本，若有，增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率，若没有则执行步骤6；

步骤6，从验证集中选取测试语料，并根据朴素贝叶斯模型得到测试语料的预测文本类别，计算预测的准确率。

与现有技术相比，本发明具有如下优点：

本发明提出的基于终生学习的增量式朴素贝叶斯文本分类方法，不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习并提高文本分类的准确率，而且还具有较好的新特征处理和领域自适应能力。

附图说明