[发明专利]一种敏感内容识别方法及装置在审

申请号：	201610822280.3	申请日：	2016-09-13
公开（公告）号：	CN107818077A	公开（公告）日：	2018-03-20
发明（设计）人：	吕昭	申请（专利权）人：	北京金山云网络技术有限公司;北京金山云科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	北京柏杉松知识产权代理事务所(普通合伙)11413	代理人：	孙翠贤,项京
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种敏感内容识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络安全技术领域，特别是涉及一种敏感内容识别方法及装置。

背景技术

近年来，随着网络技术的发展，对于网络安全的要求也越来越高，尤其是在公司管理、版权管理、国家安全等方面对于网络安全的要求更加迫切。鉴于此，需要对网络内容以及网络用户进行监控，以及时识别网络中的敏感内容，进而根据所识别出的敏感内容识别出网络中的敏感用户，从而达到保障网络安全的目的。

现有技术中，提供了一种基于关键词匹配的敏感内容识别方案：在对敏感内容进行识别时，可以先获得待识别通信内容，然后按照预设分词规则对待识别通信内容进行分词处理，并从分词处理后得到的若干个分词中筛选出关键词，进而将筛选出的关键词与预设词库中的敏感词进行匹配，具体的，当从预设词库中找到与筛选出的关键词相同的敏感词时，可认为该关键词为一个相匹配的敏感词，当匹配结果满足预设的条件(如相匹配的敏感词数量大于预设数量)时，判断该待识别通信内容为敏感内容。

由以上可见，上述方案虽然能够实现对网络中的敏感内容的识别，但是上述方案仅仅是对待识别通信内容中的关键词在字面层次上进行匹配，很容易造成敏感内容识别的准确率不高。举例而言，在待识别通信内容中有一个关键词“苹果手机”，而预设词库中的没有“苹果手机”而有“iphone”的情况下，“苹果手机”无法与“iphone”进行匹配，因此认为“苹果手机”不是一个敏感词。可见，上述方案会使得待识别通信内容中有非常多的关键词无法与预设词库中的敏感词进行匹配，导致敏感内容识别的准确率不高。

发明内容

本发明实施例的目的在于提供一种敏感内容识别方法及装置，以提高敏感内容识别的准确率。

为达到上述目的，本发明实施例公开了一种敏感内容识别方法，所述方法包括：

对待识别的目标通信内容进行分词处理，得到所述目标通信内容对应的至少一个目标分词；

利用预设的分词属性生成规则，生成各个目标分词的分词属性；

根据各个目标分词的分词属性，生成所述目标通信内容所对应的目标特征向量；

将所述目标特征向量输入至预先建立的敏感内容识别模型中，得到所述目标通信内容是否为敏感内容的识别结果，其中，所述敏感内容识别模型为利用预设的机器学习算法、对预设的带有分类标签的多个通信内容样本所对应的特征向量进行训练所得到的分类模型，所述分类标签包括：用于标识敏感内容的第一标签或用于标识非敏感内容的第二标签。

可选的，获得所述待识别的目标通信内容的步骤，包括：

采集网络中传输的数据包；

基于预设的应用层协议，对所述数据包中的数据内容进行还原处理；

确定还原处理后的数据内容为待识别的目标通信内容。

可选的，所述对待识别的目标通信内容进行分词处理，得到所述目标通信内容对应的至少一个目标分词的步骤，包括：

按照预设的第一单词划分规则，将所述目标通信内容划分成若干个单词；

将划分得到的单词作为所述目标通信内容对应的目标分词。

可选的，所述对待识别的目标通信内容进行分词处理，得到所述目标通信内容对应的至少一个目标分词的步骤，包括：

按照预设的第二单词划分规则，将所述目标通信内容划分成若干个单词；

去除划分得到的若干个单词中的停用词，其中，所述停用词为词性为副词、介词或代词的单词；

将剩余的单词作为所述目标通信内容对应的目标分词。

可选的，所述利用预设的分词属性生成规则，生成各个目标分词的分词属性的步骤，包括：