[发明专利]一种信息安全识别方法在审
申请号: | 201811069854.X | 申请日: | 2018-09-13 |
公开(公告)号: | CN109408632A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 罗子康;王磊;罗引;曹家;汪小东;刘静 | 申请(专利权)人: | 北京中科闻歌科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27;G06K9/00 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 陈英 |
地址: | 100028 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 安全识别 信息安全 精准度 预处理 模型识别 人工监测 数据类型 自动完成 | ||
相比现有技术,本发明实施例提出的一种信息安全识别方法,通过区分待识别数据的类型,对待识别数据进行预处理,然后选择与待识别数据类型对应的安全识别模型,对待识别数据进行自动安全识别,无需人为操作即可自动完成信息的安全识别,降低了成本,方便快速,且模型识别的精准度比人工监测识别的精准度高。
技术领域
本发明实施例涉及信息识别技术领域,具体涉及一种信息安全识别方法。
背景技术
随着科技的进步和网络的普及,无论是国家、机构、公司还是个人,时刻都在网络上制造着大量的信息。其中包含有网站、电子报纸、社交媒体等等。
在目前看来,对于网络中各种类型的数据,例如图片数据、视频数据和文本数据大多只能进行简单的文本情感判断、实体抽取、图片识别,而信息安全只能通过人工的方式来监测与识别,极其耗费人力成本。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供了一种信息安全识别方法。
有鉴于此,第一方面,本发明实施例提供一种信息安全识别方法,包括:
获取待识别数据;
确定所述待识别数据的类型,所述类型包括文本数据、视频数据和图片数据;
根据所述待识别数据的类型,对所述待识别数据进行预处理;
选择与所述待识别数据的类型对应的预先构建的安全识别模型;
根据所述安全识别模型对预处理后的所述待识别数据进行安全识别。
可选的,根据所述待识别数据的类型,对所述待识别数据进行预处理包括:
若所述待识别数据为文本数据,则去除待识别数据表中的非法字符和标签;
若所述待识别数据为视频数据,则提取待识别数据中的视频帧,根据所述视频帧生成图片数据,并提取生成的图片数据的特征;
若所述待识别数据为图片数据,则提取待识别数据的特征。
可选的,选择与所述待识别数据的类型对应的预先构建的安全识别模型,包括:
若所述待识别数据为文本数据,则选择预先构建的敏感信息提取模型;
若所述待识别数据为图片数据或视频数据,则选择预先构建的特征比对模型。
可选的,所述敏感信息提取模型的构建,包括:
获取大量文本数据;
对所述大量文本数据进行预处理;
通过自然语言处理技术识别预处理后的大量文本数据中的敏感信息;
将所述敏感信息作为语料,采用深度学习算法对所述语料进行训练,得到敏感信息提取模型。
可选的,所述特征比对模型的构建,包括:
获取大量图片数据;
对所述大量图片数据进行预处理,提取所述大量图片数据中的不安全特征;
用所述不安全特征组成特征比对模型。
可选的,根据所述安全识别模型对预处理后的所述待识别数据进行安全识别,包括:
若所述待识别数据为文本数据,则将预处理后的所述待识别数据输入预先构建的敏感信息提取模型;
所述敏感信息提取模型对所述待识别数据进行识别,输出所述待识别数据中的敏感信息。
可选的,根据所述安全识别模型对预处理后的所述待识别数据进行安全识别,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科闻歌科技股份有限公司,未经北京中科闻歌科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811069854.X/2.html,转载请声明来源钻瓜专利网。