[发明专利]基于终生学习的增量式朴素贝叶斯文本分类方法有效
申请号: | 201610983203.6 | 申请日: | 2016-11-08 |
公开(公告)号: | CN108062331B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 夏睿;潘振春 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏;朱显国 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法,该方法包括:获取初始文本;提取文本的特征词,保存文本集的特征词表以及文本数量;计算文本中各特征词的词频,将文本集分为训练集和验证集两个部分;通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;如果有新文本,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。本发明不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习,而且具有新特征处理和领域自适应能力。 | ||
搜索关键词: | 基于 终生 学习 增量 朴素 斯文 分类 方法 | ||
【主权项】:
1.一种基于终生学习的增量式朴素贝叶斯文本分类方法,其特征在于,包括以下步骤:步骤1,获取初始文本,构成文本集;步骤2,提取文本的特征词,将文本进行分词,保存文本集的特征词表以及文本数量;步骤3,计算文本中各特征词的词频,将文本用向量模型进行表示,并将文本集分为训练集和验证集两个部分;步骤4,通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;步骤5,判断是否有新文本,若有,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有则执行步骤6;步骤6,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610983203.6/,转载请声明来源钻瓜专利网。