[发明专利]一种基于联邦学习增强隐私保护的个性化搜索系统有效
申请号: | 202011415365.2 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112507219B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 窦志成;姚菁;文继荣 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06F40/284;G06N3/045;G06N3/098 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 樊炳章;钱芸 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 学习 增强 隐私 保护 个性化 搜索 系统 | ||
1.一种基于联邦学习增强隐私保护的个性化搜索系统,其特征在于:系统的硬件架构由客户端和服务器构成,并构建基于联邦学习的个性化搜索框架,其中具体训练的底层模型为个性化排序模型,各个客户端以及客户端上存储的数据通过联邦学习的方式共同参与个性化排序模型的训练,训练得到的模型部署在各个客户端上,在客户端上用户发起查询、存储用户的搜索历史H、构建用户画像P,部署在客户端上的个性化排序模型对从服务器返回的非个性化结果进行重排后展示给用户;
通过所述服务器协调模型的训练并将聚合后的模型发送至客户端更新;
所述个性化搜索系统为采用神经网络的手段,结合联邦学习方法设计的单层隐私保护增强的个性化搜索框架,具体地,对于用户在客户端发起的查询,客户端将查询以及几个随机生成的噪声查询一起提交给搜索引擎以获得候选文档列表;然后配置在客户端本地的个性化排序模型调整真实查询所对应的文档列表并将个性化后的搜索结果返回给用户,在用户对结果做出搜索反馈后,输入的真实查询、非个性化和个性化的文档列表以及用户的点击行为被记录在客户端本地的查询日志中;
所述单层隐私保护增强的个性化搜索框架的训练过程通过多个客户端合作,对于每个客户端上储存的日志数据,服务器端设置一个随机初始化的个性化排序模型,所有的N个客户端开始与服务器进行通信来联合训练模型,一共训练R轮,在每一轮中确保每个客户端都有且只更新一次模型,在步内完成在所有客户端上的模型更新,第t步模型更新的操作如下:第一,服务器采样K个客户端并将当前最新的个性化排序模型Mt发送给它们;第二,每个被采样的客户端接收服务器发送的最新模型Mt,并利用基于本地日志数据H构建的训练样本D和用户画像P来更新模型,一共更新E轮,采用Mini-batchSGD算法,然后,所有被采样的客户端将个性化排序模型的参数更新发送会服务器,日志数据和用户画像始终保存在本地。第三,服务器聚合所有客户端发送回来的参数更新,然后利用聚合数据更新当前模型Mt得到Mt+1,即其中nj=|D|;训练的过程中,采用同步的方式训练模型,每一步都要等所有采样客户端返回参数更新,并设定一个最大响应时间,忽略在最大响应时间内没有反馈的客户端;所有客户端依次基于上一个客户端更新训练模型。
所述更新训练模型采用在线更新方法或降低通信成本的更新方法。
2.如权利要求1所述的一种基于联邦学习增强隐私保护的个性化搜索系统,其特征在于:所述在线更新方法为:当客户端产生了足够多的新数据就向服务器发出更新模型的申请,客户端利用新数据更新当前的模型并将参数更新上传到服务器,在服务器收到来自K个客户端的参数更新之后,聚合所有更新得到新的模型并将新模型分发给所有客户端。
3.如权利要求2所述的一种基于联邦学习增强隐私保护的个性化搜索系统,其特征在于:所述降低通信成本的更新方法为:设置一个固定的时间间隔来更新模型,在这个时间阶段内,所有客户端使用上一个阶段训练的模型,不进行更新,阶段结束后,由服务器发起联合重新训练个性化排序模型的任务,基于所有客户端上现有的数据训练R轮,模型重新训练完成后,服务器将新的模型发送给所有客户端供下个阶段的使用;或者在每个阶段结束后只使用新产生的数据来增量更新上个阶段训练好的模型。
4.如权利要求3所述的一种基于联邦学习增强隐私保护的个性化搜索系统,其特征在于:所述用户画像采用一个带有用户个人模块的个性化搜索模型,具体地,采用PEPS作为底层个性化搜索模型,包括为每个用户设置的个人词向量模块和匹配排序模块,并采用所述单层隐私保护增强的个性化搜索框架的训练方法训练所述个性化搜索模型。
5.如权利要求4所述的一种基于联邦学习增强隐私保护的个性化搜索系统,其特征在于:所述词向量层设置一个全局词向量矩阵和用户个人的词向量矩阵,全局词向量是共享的,基于所有用户的查询日志进行更新;个人词向量是用户个人的,仅基于用户的数据更新,作为用户兴趣画像,使用所有的文档集合或者维基百科的语料集来训练word2vec模型初始化全局词向量,使用全局的word2vec初始化用户的个人词向量,或者使用基于用户个人日志训练的word2vec模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011415365.2/1.html,转载请声明来源钻瓜专利网。