[发明专利]一种对互联网信息进行涉密涉敏信息监测方法及系统有效
申请号: | 201810815712.7 | 申请日: | 2018-07-20 |
公开(公告)号: | CN108920710B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 汪敏;刘鹏飞;严妍;周键;王静;林珂珉 | 申请(专利权)人: | 北京开普云信息科技有限公司;开普云信息科技股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/36;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种对互联网信息进行涉密涉敏信息监测的方法,具体包括以下步骤:S1、构建涉密涉敏信息识别模型;S2、构建涉密涉敏词库和规则库:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;S3、采集互联网信息,对其进行涉密涉敏信息检测,判断其涉密涉敏信息泄漏级别;S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户。另外,本发明还提供了一种对互联网信息进行涉密涉敏信息监测的系统,本发明的技术方案解决了当前对海量互联网信息进行涉密涉敏信息监测无法实时过滤,并且高误报得问题,能够高效、快速、准确地对互联网中的涉密涉敏相关信息进行识别。 | ||
搜索关键词: | 互联网信息 信息监测 词库 构建 信息泄漏 方式通知用户 定义规则 方案解决 实时过滤 相关信息 信息检测 信息识别 规则库 短信 网站 误报 采集 互联网 分析 | ||
【主权项】:
1.一种对互联网信息进行涉密涉敏信息监测的方法,具体包括以下步骤:S1、构建涉密涉敏信息识别模型;S2、构建涉密涉敏词库和规则库:对政务网站进行分析,将涉及到的涉密涉敏信息加入到涉密涉敏词库中,构建涉密涉敏词库,并根据词库特点定义规则库;S3、采集互联网信息,对其进行涉密涉敏信息检测,判断其涉密涉敏信息泄漏级别;S4、将涉密涉敏信息泄漏级别为严重以及重大级别的互联网信息通过短信、和\或微信、和\或邮件的方式通知用户;其中,所述步骤S1进一步包括:S1.1、收集大量包含涉密涉敏信息互联网信息;S1.2、从互联网信息中提取出涉密涉敏特征;S1.3、通过不断的机器学习训练,构建基于SVM的涉密涉敏信息识别模型;所述步骤S2中“根据词库特点定义规则库”进一步包括:根据不同业务需要,构建相应双数组trie树;根据双数组trie树制定规则,分为分词规则、不分词规则;所述步骤S3进一步包括:S3.1、采集web端、移动端网页以及其扫描件、附件内容,利用步骤S1生成的涉密涉敏信息识别模型,判断是否需要进行涉密涉敏信息分析;所述web端是指pc端;对于web端、移动端网页具体包括:从网页中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;对于扫描件/附件具体包括:下载扫描件、附件,从扫描件、附件中提取出涉密涉敏特征,使用步骤S1生成的涉密涉敏信息识别模型,判断该特征是否包含涉密涉敏信息,如果包含,则该特征为有效特征,需要进行涉密涉敏信息分析,否则该特征为无效特征;S3.2、涉密涉敏信息分析:通过步骤S2构建的词库、规则库,对从网页、扫描件、附件中提取到的有效特征进行多模式串匹配算法分析,分析是否存在涉密涉敏信息;S3.3、对互联网信息中分析出的涉密涉敏信息按照涉密涉敏词库以及规则库判断出该互联网信息涉密涉敏信息的泄漏级别;泄漏级别包括一般、严重和重大。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京开普云信息科技有限公司;开普云信息科技股份有限公司,未经北京开普云信息科技有限公司;开普云信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810815712.7/,转载请声明来源钻瓜专利网。