[发明专利]一种基于改进朴素贝叶斯的涉密文本识别方法有效
申请号: | 201811134941.9 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109145308B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 敬思远;杨骏;孙锐;郭肇毅 | 申请(专利权)人: | 乐山师范学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/216;G06F40/284;G06N20/00 |
代理公司: | 成都方圆聿联专利代理事务所(普通合伙) 51241 | 代理人: | 李鹏 |
地址: | 614000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 朴素 贝叶斯 文本 识别 方法 | ||
本发明公开了一种基于改进朴素贝叶斯的涉密文本识别方法,包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。本发明中,基于朴素贝叶斯加权模型使得学习更加合理,并提出了特征权重的增量学习方案,能够大幅提升涉密文本检测的准确率;基于涉密特征空间改变的进行增量学习,简单有效地解决了有新的涉密特征加入或者有旧的涉密特征的密级下降的问题。
技术领域
本发明涉及涉密文本识别,特别是涉及一种基于改进朴素贝叶斯的涉密文本识别方法。
背景技术
随着信息技术的发展,能够实现大量的综合办公、科研生产业务的信息系统逐渐出现在社会生活和工作中,信息系统中存储着大量的敏感数据和信息。如何防止涉密信息通过互联网泄露到外界,是当前迫切希望解决的问题。
涉密文本的自动检测是解决上述问题的有效技术手段。根据Bell_Lapadula模型,当前的涉密信息一般分为公开、秘密、机密和绝密四个等级。当涉密文本在网络上的进行交换流转时(例如公文、电子邮件等),该技术能够有效检测出该文本所属的密级。当检测出该文本的密级后,再与用户自己标定的密级标签进行对比,就能发现该涉密文本的信息流转是否合法。举例来说,如果用户将该文本信息标注为“公开”,而自动检测算法检测出的密级是“机密”,那么即可判定该行为属于不合法。
朴素贝叶斯(Bayes)是目前文本检测领域的主流方法之一。但是,基于朴素贝叶斯实现涉密文本的自动检测需要解决两大难题:(1)由于涉密文件的特殊性(不能随意查看),难以获得完备的标注样本对朴素贝叶斯模型进行学习;(2)文本中的涉密特征(即涉密的关键词)会随着时间迁移而发生变化,有些以前不涉密的关键词会成为新涉密特征;而有些以前是涉密特征的词,它的密级可能随着时间会逐渐降低,目前还没有方法能够解决该问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于改进朴素贝叶斯的涉密文本识别方法。
本发明的目的是通过以下技术方案来实现的:一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:包括以下步骤:
S1.构建朴素贝叶斯模型并进行增量式学习;
S2.加载增量式学习得到的朴素贝叶斯模型;
S3.读取待识别的文本;
S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。
进一步地,所述涉密文本识别方法还包括识别结果上传步骤:将步骤S4的识别结果上传到统一的控制中心。
进一步地,所述步骤S1包括以下子步骤:
S101.构建朴素贝叶斯模型对带有用户标注标签的样本进行识别;
S102.统一控制中心管理员将识别出的标签与用户标注的标签进行对比,如果是识别错误的,就将该样本及其正确标签加入到样本库;
S103.构建朴素贝叶斯加权模型;
S104.涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,基于涉密特征空间改变的进行增量学习;
S105.根据样本库和涉密特征库的变化进行增量式学习;
S106.将学习后的模型写入到朴素贝叶斯模型中,并通知系统进行重新加载。
更近一步地,所述步骤S101包括:
第一、构建朴素贝叶斯模型:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于乐山师范学院,未经乐山师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811134941.9/2.html,转载请声明来源钻瓜专利网。