[发明专利]一种基于联邦学习增强隐私保护的个性化搜索系统有效
申请号: | 202011415365.2 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112507219B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 窦志成;姚菁;文继荣 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06F40/284;G06N3/045;G06N3/098 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 樊炳章;钱芸 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 联邦 学习 增强 隐私 保护 个性化 搜索 系统 | ||
本发明通过人工智能领域的方法,实现了一种基于联邦学习增强隐私保护的个性化搜索系统,系统的硬件架构由客户端和服务器构成,并构建基于联邦学习的个性化搜索框架,其中具体训练的底层模型为个性化排序模型,通过联邦学习的方式共同参与个性化排序模型的训练,训练得到的模型部署在各个客户端上,在客户端上发起查询、存储用户的搜索历史H、构建用户画像P,对从服务器返回的非个性化结果进行重排后展示给用户。解决了在利用用户的查询历史挖掘用户兴趣来推断当前的查询意图时,保护用户隐私的问题;并且基于这个框架,设计了两种模型,FedPSFlat和FedPSProxy,解决数据异质性的问题,以及单层FedPSFlat面临的性能瓶颈、通信障碍和隐私攻击的问题。
技术领域
本发明涉及人工智能智能搜索领域,尤其涉及一种基于联邦学习增强隐私保护的个性化搜索系统。
背景技术
个性化搜索主要是基于用户兴趣来调整文档列表,以更好地满足不同用户利用同一个具有歧义的查询所表达的不同的查询意图。现有的相关工作主要包括:基于话题、点击或者其他特征的传统个性化搜索模型和基于深度学习的个性化搜索模型。这些模型需要利用用户的历史查询序列和点击行为等个人信息来推断用户兴趣和具体的查询意图,因此存在泄漏用户隐私的风险。
目前搜索中的隐私保护技术主要考虑隐私的可识别性和可链接性。可识别性是指识别出用户是谁,可链接性指的是通过用户的查询日志和行为推断用户的个人兴趣和其他信息。有些工作利用匿名的用户id、群组用户id或者由每个用户发送其他用户输入的查询等技术来掩盖用户的真实身份信息;有些工作对训练数据进行处理避免训练后的模型包含用户的隐私信息,比如将原始的文本转化成泛化属性和属性值;还有一些工作探究查询混淆技术,伴随用户发出的真实查询生成一些不相关的噪声查询来掩盖用户真实的查询意图以及用户日志中能够反映的用户兴趣。
现有的隐私保护技术都取得了一定的效果,但是他们仍然需要在服务器上收集所有用户的查询日志用于训练个性化搜索模型。根据调查,大多数用户都很担心个人数据被收集、利用或发布。因此,我们最好是能够实现将用户的隐私数据仅保留在个人的客户端设备上。这样的话,在每个客户端上,我们能利用的就只有用户个人的有限的数据,这些数据也不足以训练一个可靠的个性化搜索模型。为了能够利用分布在所有客户端上的大规模用户日志来联合训练一个高质量的个性化模型,我们基于联邦学习设计了一个隐私保护增强的个性化搜索框架。
个性化搜索模型通过分析用户个人的历史查询日志来建立用户画像,再基于用户画像对文档列表进行重排从而为各个用户返回更精确的搜索结果,这就存在用户隐私泄露的危机。现有的隐私保护增强的个性化搜索模型主要通过利用匿名用户id或者群组id来隐藏用户真实的身份标识,或者伴随用户真实发出的查询生成一些噪声查询来混淆用户的查询意图。但是这些模型仍然会将用户的查询日志暴露给中心服务器,他们需要在服务器上收集所有用户的查询日志来训练个性化模型,这依旧存在很大的隐私泄露危机。据调查,大多数用户都不愿意自己的个人数据被收集、利用甚至是发布。因此,我们认为用户个人的隐私数据应该仅仅被保留在客户端本地,而不能上传到服务器端或者在客户端之间共享。然而,仅利用单个用户的个人数据不足以训练一个可靠的个性化搜索模型。为了在不暴露用户个人数据的前提下利用分布在各个客户端上的数据共同训练一个高质量的个性化搜索模型,我们提出了一个基于联邦学习增强隐私保护的个性化搜索框架。通过这个框架,我们可以利用所有用户的知识来共同训练模型而不需要收集和交换用户查询日志,增强了隐私保护。
发明内容
为此,本发明提出了一种基于联邦学习增强隐私保护的个性化搜索系统。系统的硬件架构由客户端和服务器构成,并构建基于联邦学习的个性化搜索框架,其中具体训练的底层模型为个性化排序模型,各个客户端以及客户端上存储的数据通过联邦学习的方式共同参与个性化排序模型的训练,训练得到的模型部署在各个客户端上,在客户端上用户发起查询、存储用户的搜索历史H、构建用户画像P,部署在客户端上的个性化排序模型对从服务器返回的非个性化结果进行重排后展示给用户;
通过所述服务器协调模型的训练并将聚合后的模型发送至客户端更新;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011415365.2/2.html,转载请声明来源钻瓜专利网。