[发明专利]一种基于NLP进行敏感数据增强的深度学习方法及装置在审
申请号: | 202310043451.2 | 申请日: | 2023-01-29 |
公开(公告)号: | CN116304674A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 赵群;苏萌;刘译璟;苏海波;杜晓梦 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2415;G06F16/903;G06F16/906;G06F40/284;G06F40/30;G06N3/045;G06N3/08 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 徐金琼 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nlp 进行 敏感数据 增强 深度 学习方法 装置 | ||
本发明涉及数据处理领域,提供了一种基于NLP进行敏感数据增强的深度学习方法及装置。主旨在于通过为模型提供大量的额外监督信号,增强了模型对于数据中知识的泛化能力。主要方案包括获取包括至少一种敏感信息实例以及其对应的标签的原始标记训练数据;引入大量的无标注训练数据,即引入没有标记信息的敏感信息实例;通过数据格式匹配获得敏感信息实例伪标记数据;利用语言的组合性,将原始标记训练数据集和伪标记数据进行进一步的组合,获得组合增强数据;搭建和加载机器学习模型;机器学习模型训练过程中引入原始训练数据集、伪标记数据集以及组合增强数据,直至模型收敛。
技术领域
本申请涉及数据处理和自然语言处理的深度学习领域,尤其涉及一种基于NLP进行敏感数据增强的深度学习方法及装置。
背景技术
随着信息技术的爆发式发展,大数据时代的到来,数据的重要程度越发受到重视,其中对于敏感数据的有效梳理已经成为当前数据研究的重中之重。对于任何企业,涉及隐私的敏感数据都需要一种行之有效的识别方法,探查出其分布状况,对其实现对其有效管理和保护。
现有的敏感数据识别技术,大致可分为如下两类:
基于数据格式匹配的方法:
基于关键字进行匹配的方法:根据定义的关键字直接进行匹配,其有关键字难以全面概括,定义简单等多种问题。
基于规则进行匹配的方法:使用正则表达式等规则对数据进行匹配,其同样地难以全面概括,定义灵活性差。
基于机器学习的方法:
基于统计机器学习的方法:利用数据中的统计分布信息,使用机器学习算法,对数据中的知识进行学习。其需要较大数量的高质量训练数据,善于捕捉结构化信息,其泛化能力不足,算法较难实现自我调整。
基于神经深度学习的方法:利用神经网络的优化能力,使用深度学习对数据中的只进行学习,其十分依赖于较大数量的高质量的训练数据,但是其具有较好的泛化能力,善于捕捉数据内部的隐式联系,可以通过持续学习对模型参数不断优化迭代,此外引入预训练模型的方法,其表现较为突出。
发明内容
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
本提案要解决的技术问题:
基于以上对于现有技术方案的总结,综合考虑上述各种技术方案的优缺点,可以看出基于数据格式匹配的方法,对于数据的依赖性较低,但是模型表现较差;基于数据知识的方法,高度依赖于高质量的训练数据,但是其表现较好,本提案提出一种方法,在现有的深度学习模型的基础上,可以利用数据格式匹配方法创建大量的伪标记数据,也可以利用语言的组合性进一步实现实现数据增强,为模型提供大量的额外监督信号。此外,提出将基于神经深度学习的方法和基于统计机器学习方法相融合,实现对于数据中语义和结构充分利用。
为了实现上述目的本发明采用以下技术手段:
一种基于NLP进行敏感数据增强的深度学习方法,包括以下步骤:
步骤1: 获取包括至少一种敏感信息实例以及其对应的标签的原始标记训练数据;
步骤2:引入大量的无标注训练数据,即引入没有标记信息的敏感信息实例;
步骤3: 通过数据格式匹配获得敏感信息实例伪标记数据;
步骤4:利用语言的组合性,将原始标记训练数据集和伪标记数据进行进一步的组合,获得组合增强数据;
步骤5:搭建和加载机器学习模型;
步骤6: 机器学习模型训练过程中引入原始训练数据集、 伪标记数据集以及组合增强数据,直至模型收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310043451.2/2.html,转载请声明来源钻瓜专利网。