[发明专利]一种信息安全识别方法在审

申请号：	201811069854.X	申请日：	2018-09-13
公开（公告）号：	CN109408632A	公开（公告）日：	2019-03-01
发明（设计）人：	罗子康;王磊;罗引;曹家;汪小东;刘静	申请（专利权）人：	北京中科闻歌科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27;G06K9/00
代理公司：	北京华夏泰和知识产权代理有限公司 11662	代理人：	陈英
地址：	100028 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	安全识别信息安全精准度预处理模型识别人工监测数据类型自动完成
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

相比现有技术，本发明实施例提出的一种信息安全识别方法，通过区分待识别数据的类型，对待识别数据进行预处理，然后选择与待识别数据类型对应的安全识别模型，对待识别数据进行自动安全识别，无需人为操作即可自动完成信息的安全识别，降低了成本，方便快速，且模型识别的精准度比人工监测识别的精准度高。

技术领域

本发明实施例涉及信息识别技术领域，具体涉及一种信息安全识别方法。

背景技术

随着科技的进步和网络的普及，无论是国家、机构、公司还是个人，时刻都在网络上制造着大量的信息。其中包含有网站、电子报纸、社交媒体等等。

在目前看来，对于网络中各种类型的数据，例如图片数据、视频数据和文本数据大多只能进行简单的文本情感判断、实体抽取、图片识别，而信息安全只能通过人工的方式来监测与识别，极其耗费人力成本。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本发明实施例提供了一种信息安全识别方法。

有鉴于此，第一方面，本发明实施例提供一种信息安全识别方法，包括：

获取待识别数据；

确定所述待识别数据的类型，所述类型包括文本数据、视频数据和图片数据；

根据所述待识别数据的类型，对所述待识别数据进行预处理；

选择与所述待识别数据的类型对应的预先构建的安全识别模型；

根据所述安全识别模型对预处理后的所述待识别数据进行安全识别。

可选的，根据所述待识别数据的类型，对所述待识别数据进行预处理包括：

若所述待识别数据为文本数据，则去除待识别数据表中的非法字符和标签；

若所述待识别数据为视频数据，则提取待识别数据中的视频帧，根据所述视频帧生成图片数据，并提取生成的图片数据的特征；

若所述待识别数据为图片数据，则提取待识别数据的特征。

可选的，选择与所述待识别数据的类型对应的预先构建的安全识别模型，包括：

若所述待识别数据为文本数据，则选择预先构建的敏感信息提取模型；

若所述待识别数据为图片数据或视频数据，则选择预先构建的特征比对模型。

可选的，所述敏感信息提取模型的构建，包括：

获取大量文本数据；

对所述大量文本数据进行预处理；

通过自然语言处理技术识别预处理后的大量文本数据中的敏感信息；

将所述敏感信息作为语料，采用深度学习算法对所述语料进行训练，得到敏感信息提取模型。

可选的，所述特征比对模型的构建，包括：

获取大量图片数据；

对所述大量图片数据进行预处理，提取所述大量图片数据中的不安全特征；

用所述不安全特征组成特征比对模型。

可选的，根据所述安全识别模型对预处理后的所述待识别数据进行安全识别，包括：

若所述待识别数据为文本数据，则将预处理后的所述待识别数据输入预先构建的敏感信息提取模型；

所述敏感信息提取模型对所述待识别数据进行识别，输出所述待识别数据中的敏感信息。

可选的，根据所述安全识别模型对预处理后的所述待识别数据进行安全识别，包括：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京中科闻歌科技股份有限公司，未经北京中科闻歌科技股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811069854.X/2.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载