[发明专利]基于规则配置和机器学习的敏感信息过滤方法和系统在审
申请号: | 202110119501.1 | 申请日: | 2021-01-28 |
公开(公告)号: | CN112966296A | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 叶山茂;喻波;王志海;安鹏 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06F16/9535;G06K9/62;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 规则 配置 机器 学习 敏感 信息 过滤 方法 系统 | ||
本发明提供一种基于规则配置和机器学习的敏感信息过滤方法和系统。所述方法包括:步骤S1、采集原始信息,并对所述原始信息进行预处理,以获取文本信息;步骤S2、基于配置的规则策略对所述文本信息执行第一过滤处理,所述规则策略用于过滤所述文本信息中的敏感信息;以及步骤S3、利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理,所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。该方法不仅能够过滤敏感信息,还能够有效滤除敏感信息的衍生/变种敏感信息。
技术领域
本发明涉及信息过滤领域,尤其是涉及一种基于规则配置和机器学习的敏感信息过滤方法和系统。
背景技术
在当今互联网时代,网络提供了一个开放自由的言论平台,为人们进行资源共享提供了便利。但同时也带了一些不可避免的问题,由于网络环境具有虚拟性,也为各种非法信息的传播提供了传播的土壤,因此当前对网络信息的敏感信息处理技术也应运而生。
机器学习:机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。规则配置:指定特定的信息过滤策略,比如根据敏感关键词、特定的词语组合、特定的语句格式等进行过滤。敏感信息:是指在过敏感信息过滤系统检测中,文本信息中具有符合敏感过滤规则中配置的敏感策略(比如符合色情、暴力、非法广告等)的信息内容。
当前敏感信息过滤技术主要是基于规则的实现,而面对敏感信息的各种变形、表达方式的不断变化,规则配置难以应付这些层出不穷的变化,无法很好地滤除衍生/变种敏感信息。
发明内容
本发明的目的在于提供一种基于规则配置和机器学习的敏感信息过滤方案,以解决现有技术中存在的上述技术问题。
本发明第一方面提供了一种基于规则配置和机器学习的敏感信息过滤方法,所述方法包括:步骤S1、采集原始信息,并对所述原始信息进行预处理,以获取文本信息;步骤S2、基于配置的规则策略对所述文本信息执行第一过滤处理,所述规则策略用于过滤所述文本信息中的敏感信息;以及步骤S3、利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理,所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。
根据本发明第一方面提供的方法,在所述步骤S1中,所述预处理包括:缺失值处理、偏离值处理、数据规范化、格式转换中的一种或多种。
根据本发明第一方面提供的方法,在所述步骤S2中,所述第一过滤处理包括,基于所述规则策略,将预先存储的关键信息表中的关键词、关键句、特定组合文本与所述文本信息进行匹配识别,以滤除所述文本信息中的敏感信息。
根据本发明第一方面提供的方法,在所述步骤S3中,所述机器学习模型由以下方式来获得:采集用于训练所述机器学习模型的第一数据,并对第一数据进行第一预处理,所述第一预处理包括:缺失值处理、偏离值处理、数据规范化、格式转换、特征提取、降维处理中的一种或多种;将经所述第一预处理的第一数据分割为训练集、验证集和测试集,其中所述训练集用于训练所述机器学习模型,所述验证集用于优化所述机器学习模型,所述测试集用于检测所述机器学习模型过滤衍生敏感信息的性能;基于监督模式对所述机器学习模型进行训练、优化和检测。
本发明第二方面提供了一种基于规则配置和机器学习的敏感信息过滤系统,所述系统包括:信息采集单元,被配置为,采集原始信息,并对所述原始信息进行预处理,以获取文本信息;第一过滤单元,被配置为,基于配置的规则策略对所述文本信息执行第一过滤处理,所述规则策略用于过滤所述文本信息中的敏感信息;以及第二过滤单元,被配置为利用经训练的机器学习模型对经过滤的文本信息执行第二过滤处理,所述机器学习模型用于滤除所述敏感关键词的衍生敏感信息。
根据本发明第二方面提供的系统,所述预处理包括:缺失值处理、偏离值处理、数据规范化、格式转换中的一种或多种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110119501.1/2.html,转载请声明来源钻瓜专利网。