[发明专利]反命名实体识别的编码器对抗训练、隐私保护方法及装置在审
申请号: | 202011173866.4 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112199955A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 刘杰 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 编码器 对抗 训练 隐私 保护 方法 装置 | ||
1.一种反命名实体识别的编码网络的训练方法,所述方法包括:
获取有标签的第一样本集,其中包括多个第一样本,每个第一样本对应一段原始文本和针对原始文本中命名实体的标注标签;
对于各个第一样本,将所述第一样本对应的原始文本输入编码网络,获得其特征文本;
将所述特征文本输入预先训练的命名实体识别网络模型,获得针对命名实体进行识别的识别结果,根据识别结果和第一样本对应的标注标签,确定识别损失;
将所述特征文本输入重构网络模型,获得重构文本,根据重构文本和原始文本,确定重构损失;
根据原始文本和特征文本,确定比较损失;
确定编码损失,所述编码损失与所述比较损失正相关,与所述识别损失和所述重构损失负相关;
以所述编码损失趋于减少为目标,更新所述编码网络。
2.根据权利要求1所述的训练方法,其中,所述命名实体识别网络模型,包括第三方命名实体识别网络模型;
所述将所述特征文本输入命名实体识别网络模型,获得针对命名实体进行识别的识别结果,包括,将所述特征文本输入第三方命名实体识别网络模型的访问接口,获取所述识别结果。
3.根据权利要求1所述的训练方法,其中,所述重构网络为预先训练的重构网络。
4.根据权利要求1所述的训练方法,还包括:
以所述重构损失趋于减少为目标,更新所述重构网络。
5.根据权利要求1所述的训练方法,其中,所述编码网络基于卷积神经网络、长短期记忆模型中的一种。
6.根据权利要求1所述的训练方法,其中,所述重构网络模型基于循环神经网络。
7.根据权利要求1所述的训练方法,其中,根据识别结果和第一样本对应的标注标签,确定识别损失,包括,根据识别结果和所述标注标签之间的第一文本编辑距离,确定识别损失,所述识别损失与该第一文本编辑距离正相关;
所述根据重构文本和原始文本,确定重构损失,包括,根据重构文本和原始文本之间的第二文本编辑距离,确定重构损失,所述重构损失与该第二文本编辑距离正相关。
8.根据权利要求1所述的训练方法,其中,所述根据原始文本和特征文本,确定比较损失,包括以下之一:
根据用户对原始文本和特征文本的内容差异评分,确定比较损失;
根据原始文本的编码值和特征文本的编码值之间的均方误差,确定比较损失。
9.根据权利要求1所述的训练方法,其中,确定编码损失,包括:
将比较损失减去识别损失和重构损失,得到编码损失;或
将比较损失减去经过加权的识别损失和重构损失,得到编码损失。
10.一种反命名实体识别的编码网络的训练方法,所述方法包括:
确定实体识别网络模型的识别效果;
在所述识别效果达到预设条件的情况下,执行权利要求1所述的方法,训练所述编码网络。
11.根据权利要求10所述的训练方法,其中,所述确定实体识别网络模型的识别效果,包括:
将预定数量的带标签的文本样本输入实体识别网络模型,获取实体识别网络模型对于所述文本样本的识别率作为所述识别效果;
所述预设条件为,所述识别率达到预定阈值。
12.一种反命名实体识别的隐私保护方法,所述方法包括:
获取待保护文本;
将待保护文本输入根据权利要求1的方法训练好的编码网络,所述编码网络生成隐私保护文本。
13.根据权利要求12所述的隐私保护方法,其中,所述编码网络部署于移动终端或网页客户端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011173866.4/1.html,转载请声明来源钻瓜专利网。