[发明专利]基于隐私保护的word2vec模型训练方法、装置及系统有效

专利信息
申请号: 202110158847.2 申请日: 2021-02-05
公开(公告)号: CN112507388B 公开(公告)日: 2021-05-25
发明(设计)人: 陈超超;王力;周俊 申请(专利权)人: 支付宝(杭州)信息技术有限公司
主分类号: G06F21/62 分类号: G06F21/62;G06N3/08;G06N20/00;G06F40/284;G06F40/242
代理公司: 北京永新同创知识产权代理有限公司 11376 代理人: 林锦辉;刘景峰
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 隐私 保护 word2vec 模型 训练 方法 装置 系统
【说明书】:

本说明书实施例提供用于经由至少两个第一成员设备训练word2vec模型的方法、装置及系统。各个第一成员设备基于所具有的本地语料的语料分词结果生成本地分词词库,使用各自的本地分词词库进行隐私求交确定公共分词,并向其余第一成员设备共享非公共分词数目。随后,各个第一成员设备根据公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典。然后,各个第一成员设备基于统一字典和本地语料的语料分词结果生成各自的训练样本,并使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型。

技术领域

本说明书实施例通常涉及人工智能领域,尤其涉及基于隐私保护的word2vec模型训练方法、装置及系统。

背景技术

word2vec(word to vector)模型是用来产生词向量(word embedding)的浅层神经网络模型,并且被广泛地应用于自然语言处理领域和机器学习领域。word2vec模型可以利用词典和大量训练数据来高效训练出,并且被使用来将文本分词转换成词向量表示形式,从而将文本内容处理转化为向量空间中的向量运算,并利用向量空间上的相似度来反映出文本内容在文本语义上的相似度。

然而,在实际应用中,word2vec模型的训练文本可能会由多个数据拥有方拥有,比如,在医疗场景下,患者的病历文本会被多家医院拥有,由于隐私保护原因,这些病历文本不能彼此分享。因此,如何在保护各个数据拥有方的数据隐私的情况下,实现多个数据拥有方联合训练word2vec模型成为亟待解决的问题。

发明内容

鉴于上述,本说明书实施例提供一种基于隐私保护的word2vec模型训练方法、装置及系统,其能够在保护数据拥有方的数据隐私的情况下实现多个数据拥有方联合训练word2vec模型。

根据本说明书实施例的一个方面,提供一种用于经由至少两个第一成员设备训练word2vec模型的方法,所述方法应用于所述至少两个第一成员设备中的一个第一成员设备,所述方法包括:基于本地语料的语料分词结果,生成本地分词词库;与其余第一成员设备一起使用各自的本地分词词库进行隐私求交,确定公共分词并向其余第一成员设备共享非公共分词数目,每个其余第一成员设备的本地分词词库根据该其余第一成员设备的本地语料的语料分词结果生成;根据所述公共分词以及各个第一成员设备的非公共分词数目进行统一分词编号,生成统一字典;基于所述统一字典和所述本地语料的语料分词结果,生成所述第一成员设备处的训练样本;以及与其余第一成员设备一起使用各自的训练样本执行基于隐私保护的模型训练来训练出word2vec模型,各个其余第一成员设备处的训练样本基于所述统一字典和本地语料的语料分词结果生成。

可选地,在上述方面的一个示例中,所述方法还可以包括:对所述本地语料分词结果进行预处理,基于本地语料的本地语料分词结果,生成本地分词词库包括:基于本地语料的经过预处理后的本地语料分词结果,生成本地分词词库。

可选地,在上述方面的一个示例中,所述预处理包括下述预处理中的至少一种:分词过滤处理和分词去重处理。

可选地,在上述方面的一个示例中,基于所述统一字典和所述本地语料分词结果,生成所述第一成员设备处的训练样本包括:使用给定分词采样窗口来对本地语料分词结果进行分词对采样,得到本地分词对集合;以及根据所述本地分词对集合中的分词对,生成所述第一成员设备处的训练样本。

可选地,在上述方面的一个示例中,所述基于隐私保护的word2vec模型训练包括基于联邦学习的word2vec模型训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110158847.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top