[发明专利]基于词归类组合判定与概率统计的涉密信息密级归属方法有效
申请号: | 201410103973.8 | 申请日: | 2014-03-20 |
公开(公告)号: | CN103870758A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 陈建;欧阳国华;杨兴;李楠;史章军;向音;吕慧芳 | 申请(专利权)人: | 陈建;欧阳国华;杨兴;李楠 |
主分类号: | G06F21/60 | 分类号: | G06F21/60 |
代理公司: | 武汉楚天专利事务所 42113 | 代理人: | 雷速 |
地址: | 430035 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 归类 组合 判定 概率 统计 密信 密级 归属 方法 | ||
技术领域
本发明涉及涉密信息的密级归属技术,具体说是一种基于词归类组合判定与概率统计的涉密信息密级归属方法。
背景技术
传统的文件定密方式,由于缺乏密级认定的有效技术手段,定密时对密级界限把握不准,定密工作主观性较强。对于内容相似的文件,不同认定人的认定方式不同、认定角度不同、认定依据不同,导致认定结果可能存在差异,严重影响了我军密级认定工作的严肃性和权威性。
我国信息化基础设施经过多年建设,已形成较大规模,大部分政府、军队的部门已建设了WWW、FTP、DNS、Email、OA等系统。客观事实反映出,很多机关工作人员已经养成了用字处理软件(如WORD、PPT、TXT等)来撰写、保存、传递文件的习惯。电子文件已经成为军队各部门和其它各种组织的重要信息载体和传输方法。很明显,信息化为各部门日常工作带来了很大便利,同时也大幅度提高了工作效率。但是,在享受到计算机所带来的方便性的同时,也出现了目前受到广泛关注的信息安全问题。由于政府、军队在管理运行中涉及到大量密级的信息,为了有效的保证各部门的正常运行和信息安全性,有必要对以涉密信息为中心的信息安全实施准确有效的级别归属划分,以便规范信息的流通范围。依靠计算机技术,解决当前密级鉴定方法单一、主观性强的问题,为密级鉴定工作提供科学依据,提高密级鉴定工作效率,实现涉密定级数字化、信息归类电子化、辅助决策智能化早已经成为目前急于解决的课题。
发明内容
本发明所要解决的技术问题是解决当前密级鉴定方法单一、主观性强的问题。达到为密级鉴定工作提供科学依据,提高密级鉴定工作效率,实现保密定级数字化、辅助决策智能化的目的。提供一种基于词归类组合判定与概率统计的涉密信息密级归属方法。
所述基于词归类组合判定与概率统计的涉密信息密级归属方法,其特征是:按下述步骤顺次进行:
第一步:建立密级条件数据库:
逐条分析保密条例,并收集与该保密条例相关的文章,将文章中与条例对应的涉密信息归纳为若干必要条件的相关词和相关词组合,包括相关词和相关词组合、涉及条件类别、涉及领域、对应的条例编号建立逻辑关联,录入密级条件数据库;分别按照“绝密级条件数据库”、“机密级条件数据库”、“秘密级条件数据库”三个子库进行独立收集;
第二步:建立和丰富词归类数据库:
(一)、在与对应保密条例相关的文章中统计所有该条例涉及到的必要条件的组合,并归纳为若干条件大类;
(二)、分析每个条件大类,确定每个条件大类所包含的类的集合;将每一词归类再逐级分解为若干类的子集,直至集合不可再分;
(三)、分析每一个末端子集,列出其中具有代表性的词语或词组,依照逐级从属的逻辑关系建立词归类数据库;
(四)、从词归类数据库中读取词语或词组,运用抓词技术,根据代表词语或词组,扫描现有密级文章,根据词归类数据库所保存的词的类抓取具体词汇,排除错词、误词,丰富词归类数据库;
第三步:对待定密级文章初定密级:
(一)、扫描文章的段落或语句,利用正则表达式表述已经在词归类数据库中归类的信息,根据该信息特征将文章语句中符合词归类数据库的词语提取出来;
(二)、索引词归类数据库,判断词汇所属的类;
(三)、确定语句或段落中的类的组合;
(四)、判断语句或段落中类的组合是否完全满足密级条件数据库中的任一组合条件,满足则认定该语句或段落所属部分的密级为该组合条件所在数据库的密级,文章的涉密级别按照文章中全部语句或段落之中密级的最高级定义,密级的高低顺序依次为绝密>机密>秘密,如果不满足任何涉密条件,则文章不涉密;
第四步:确定密级:文章中出现多处满足秘密或机密级的条件时,由下述方式确定是否将文章密级升级:
(一)、在不同领域中,找出涉密领域为i的文章m篇,m≥500,分析与该领域直接相关的涉密信息,发现密级升高的情况为k篇,该领域内涉密文章密级上升所需要的最少信息数为bi,
bi=MIN(集合{aij}),
表示为涉密领域i中的k篇密级升高文章中每篇涉密信息数中的最小值,其中aij表示涉密领域i中的第j篇文章的涉密信息数,其中j表示1~k之中的一个数;
(二)、对于初步判定为非绝密级的涉密文件,依照公式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈建;欧阳国华;杨兴;李楠,未经陈建;欧阳国华;杨兴;李楠许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410103973.8/2.html,转载请声明来源钻瓜专利网。