[发明专利]一种基于NLP进行敏感数据增强的深度学习方法及装置在审
申请号: | 202310043451.2 | 申请日: | 2023-01-29 |
公开(公告)号: | CN116304674A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 赵群;苏萌;刘译璟;苏海波;杜晓梦 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/2415;G06F16/903;G06F16/906;G06F40/284;G06F40/30;G06N3/045;G06N3/08 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 徐金琼 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 nlp 进行 敏感数据 增强 深度 学习方法 装置 | ||
1.一种基于NLP进行敏感数据增强的深度学习方法,其特征在于:包括以下步骤:
步骤1: 获取包括至少一种敏感信息实例以及其对应的标签的原始标记训练数据;
步骤2:引入大量的无标注训练数据,即引入没有标记信息的敏感信息实例;
步骤3: 通过数据格式匹配获得敏感信息实例伪标记数据;
步骤4:利用语言的组合性,将原始标记训练数据集和伪标记数据进行进一步的组合,获得组合增强数据;
步骤5:搭建和加载机器学习模型;
步骤6: 机器学习模型训练过程中引入原始训练数据集、 伪标记数据集以及组合增强数据,直至模型收敛。
2.根据权利要求1所述的一种基于NLP进行敏感数据增强的深度学习方法,其特征在于:敏感信息包括姓名、地址、身份证号。
3.根据权利要求1所述的一种基于NLP进行敏感数据增强的深度学习方法,其特征在于:步骤3具体包括以下几个步骤:
步骤3.1: 根据训练数据包含的敏感信息类型,获取基于数据格式匹配的函数列表,函数列表为正则表达式字符串匹配函数;
步骤3.2: 根据设计的函数列表,对无标注数据的每一个条目进行识别,得到伪的标注结果;
步骤3.3: 对于无标注数据进行全域的识别,如果存在得到相关敏感信息类别结果,则返回对应识别得到的敏感类型,否则执行步骤3.4;
步骤3.4: 对输入的无标注数据进行中文、英文和数字的分割,将数据分割为英文和数字、中文两部分数据,对于不同类型的数据段使用不同类型的匹配函数进行识别;对于英文数字段使用英文数字相结合的相关的所有匹配函数逐个对当前数据段识别,如果存在函数匹配成功,返回函数对应的敏感数据类型,作为识别结果,否则继续;对于中文数据段使用中文相关的所有匹配函数逐个对当前数据段进行识别,如果存在函数匹配成功,返回函数对应的敏感数据类型,否则执行步骤3.5;
步骤3.5: 对于输入的无标注数据进行英数的分割,将数据分割为数字、英文的数据部分,对于不同类型的数据使用不同类型相关的匹配函数进行识别;对于数字段使用数字相关的匹配函数逐个对当前数据段进行识别,如果存在函数匹配成功,返回函数对应的敏感数据类型,作为识别结果,否则继续;对于英文段使用英文相关的匹配函数逐个对当前数据段进行识别,如果存在函数匹配成功,返回函数对应的敏感数据类型,作为识别结果,否则继续,否则执行步骤3.6;
步骤3.6:所有匹配函数无法正确匹配当前无标注数据,将当前输入的无标注数据,标识为非敏感数据类型;
步骤3.7: 最终得到带有伪标注的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310043451.2/1.html,转载请声明来源钻瓜专利网。