[发明专利]基于词归类组合判定与概率统计的涉密信息密级归属方法有效
申请号: | 201410103973.8 | 申请日: | 2014-03-20 |
公开(公告)号: | CN103870758A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 陈建;欧阳国华;杨兴;李楠;史章军;向音;吕慧芳 | 申请(专利权)人: | 陈建;欧阳国华;杨兴;李楠 |
主分类号: | G06F21/60 | 分类号: | G06F21/60 |
代理公司: | 武汉楚天专利事务所 42113 | 代理人: | 雷速 |
地址: | 430035 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 归类 组合 判定 概率 统计 密信 密级 归属 方法 | ||
1.一种基于词归类组合判定与概率统计的涉密信息密级归属方法,其特征是:按下述步骤顺次进行:
第一步:建立密级条件数据库:
逐条分析保密条例,并收集与该保密条例相关的文章,将文章中与条例对应的涉密信息归纳为若干必要条件的相关词和相关词组合,包括相关词和相关词组合、涉及条件类别、涉及领域、对应的条例编号,建立逻辑关联,录入密级条件数据库;分别按照“绝密级条件数据库”、“机密级条件数据库”、“秘密级条件数据库”三个子库进行独立收集;
第二步:建立和丰富词归类数据库:
(一)、在与对应保密条例相关的文章中统计所有该条例涉及到的必要条件的组合,并归纳为若干条件大类;
(二)、分析每个条件大类,确定每个条件大类所包含的类的集合;将每一词归类再逐级分解为若干类的子集,直至集合不可再分;
(三)、分析每一个末端子集,列出其中具有代表性的词语或词组,依照逐级从属的逻辑关系建立词归类数据库;
(四)、从词归类数据库中读取词语或词组,运用抓词技术,根据代表词语或词组,扫描现有密级文章,根据词归类数据库所保存的词的类抓取具体词汇,排除错词、误词,丰富词归类数据库;
第三步:对待定密级文章初定密级:
(一)、扫描文章的段落或语句,利用正则表达式表述已经在词归类数据库中归类的信息,根据该信息特征将文章语句中符合词归类数据库的词语提取出来;
(二)、索引词归类数据库,判断词汇所属的类;
(三)、确定语句或段落中的类的组合;
(四)、判断语句或段落中类的组合是否完全满足密级条件数据库中的任一组合条件,满足则认定该语句或段落所属部分的密级为该组合条件所在数据库的密级,文章的涉密级别按照文章中全部语句或段落之中密级的最高级定义,密级的高低顺序依次为绝密>机密>秘密,如果不满足任何涉密条件,则文章不涉密;
第四步:确定密级:文章中出现多处满足秘密或机密级的条件时,由下述方式确定是否将文章密级升级:
(一)、在不同领域中,找出涉密领域为i的文章m篇,m≥500,分析与该领域直接相关的涉密信息,发现密级升高的情况为k篇,该领域内涉密文章密级上升所需要的最少信息数为bi,
则:bi=MIN(集合{aij}),
表示为涉密领域i中的k篇密级升高文章中每篇涉密信息数中的最小值,其中aij表示涉密领域i中的第j篇文章的涉密信息数,其中j表示1~k之中的一个数;
(二)、对于初步判定为非绝密级的涉密文件,依照公式
其中,ci表示文章中在领域i中的涉密信息数,当密级升级条件α≥1则判定文章密级升级。
2.根据权利要求1所述的基于词归类组合判定与概率统计的涉密信息密级归属方法,其特征是:在第三步中,如果文章的初定密级与人为设定不符,则需要在词归类数据库中添加新的涉密词汇或词归类的组合,添加时关联新词、新词的类和具体的保密条例。
3.根据权利要求1所述的基于词归类组合判定与概率统计的涉密信息密级归属方法,其特征是:在第四步中,当α<1时,设定最优误差率为β,当1-β≤α<1时,该文章的整体密级为可上升密级,β的计算值为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈建;欧阳国华;杨兴;李楠,未经陈建;欧阳国华;杨兴;李楠许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410103973.8/1.html,转载请声明来源钻瓜专利网。