[发明专利]一种自动检测文档敏感信息的方法和应用在审

申请号：	201910124529.7	申请日：	2019-04-08
公开（公告）号：	CN109918548A	公开（公告）日：	2019-06-21
发明（设计）人：	李宁宁	申请（专利权）人：	上海凡响网络科技有限公司
主分类号：	G06F16/93	分类号：	G06F16/93;G06F16/903;G06F17/27;G06F21/62
代理公司：	北京挺立专利事务所(普通合伙) 11265	代理人：	王静思
地址：	200000 上海市闵***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种自动检测文档敏感信息的方法和应用，包括以下步骤：S1、敏感词典的准备；S2、检测敏感信息，包括以下子步骤：S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；S22、使用模糊匹配；S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST‑API调用。该自动检测文档敏感信息的方法和应用，与传统的人工分析的方法来统计文档中的敏感信息相比，该方法结合了AC自动机等自然语言处理技术，能够快速准确的分析文本文档中的敏感信息，对于被模糊处理的敏感信息，如使用繁体字、拼音、形近、同音字来代替原来的汉字，也能够准确识别。
搜索关键词：	敏感信息文档自动检测匹配同音字自然语言处理技术敏感信息检测应用模糊处理模糊匹配人工分析文本文档用户使用敏感传统的繁体字敏感词子步骤放入构建拼音汉字检测统计分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种自动检测文档敏感信息的方法和应用，包括以下步骤：S1、敏感词典的准备，包括以下子步骤：S11、准备好词典，敏感词典中的结构为词‑敏感词类型‑权重；S12、根据敏感词典，构建符合需求的AC自动机；S13、针对每个汉字，构建其相应的拼音、形近字、同音字和繁体等的模糊信息库；S2、检测敏感信息，包括以下子步骤：S21、使用精确匹配进行匹配与敏感词典中的词完全相同的词，得到敏感词的位置，放入bitmap中；S22、使用模糊匹配，首先通过bitmap过滤已经精确匹配的词的位置，然后结合已建立好的信息库进行模糊匹配，匹配出与敏感词有一定相似度的词；S23、统计每个的词的位置，所属敏感类型、敏感覆盖率以及敏感权重；S3、构建REST服务：将敏感信息检测方法应用到REST服务，将其作为一个库，可以被用户使用REST‑API调用。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海凡响网络科技有限公司，未经上海凡响网络科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910124529.7/，转载请声明来源钻瓜专利网。

上一篇：一种数据库会话管理方法及装置
下一篇：一种基于SEIR传播模型的单一谣言源点溯源系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种自动检测文档敏感信息的方法和应用在审

专利文献下载