[发明专利]保护隐私的文本分类方法及装置有效
申请号: | 202010691952.8 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111737719B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 李龙飞;周俊 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F21/62;G06F21/53;G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 张明;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 保护 隐私 文本 分类 方法 装置 | ||
本说明书实施例提供一种保护隐私的文本分类方法及装置,在文本分类方法中,第一服务器接收数据请求方发送的文本分类请求,文本分类请求至少包括采用数据请求方的第一公钥进行加密的待分类文本。基于数据提供方提供的加密样本文本,构建词组集合。该加密样本文本采用第一公钥对样本文本加密得到。确定加密词频,该加密词频为词组集合中各词组在加密的待分类文本中的词频统计的加密值。至少向第二服务器发送加密词频,以使得第二服务器将加密词频加载到其可信执行环境TEE中,在TEE中,对加密词频进行解密,并将解密结果输入预先部署在TEE中的文本分类模型,得到待分类文本的分类结果,其中的文本分类模型基于上述样本文本训练得到。
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种保护隐私的文本分类方法及装置。
背景技术
在大数据时代,市场存在大量的数据合作需求。比如,某个企业或者组织(以下简称数据请求方)想要针对某个文本进行分类,而其在本地又没有维护相应的文本分类模型。那么就需要其它维护有文本分类模型的企业或者组织(以下简称数据提供方)协助其完成文本的分类。
然而,对于数据提供方来说,文本分类模型属于其私有数据,不能泄露给数据请求方。而对于数据请求方来说,它也不能让数据提供方获取到所请求分类的文本。
因此,需要提供一种方案,以便能够在保护双方隐私的情况下,实现文本的分类。
发明内容
本说明书一个或多个实施例描述了一种保护隐私的文本分类方法及装置,可以在确保各方数据安全的情况下实现文本的分类。
第一方面,提供了一种保护隐私的文本分类方法,包括:
接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;
基于数据提供方提供的加密样本文本,构建词组集合;所述加密样本文本采用所述第一公钥对样本文本加密得到,所述词组集合中的每个词组由所述加密样本文本中的一个或多个加密样本词组成;
确定加密词频,所述加密词频为所述词组集合中各词组在所述加密的待分类文本中的词频统计的加密值;
至少向第二服务器发送所述加密词频,以使得所述第二服务器将所述加密词频加载到其可信执行环境TEE中,在所述TEE中,对所述加密词频进行解密,并将解密结果输入预先部署在所述TEE中的文本分类模型,得到所述待分类文本的分类结果,其中所述文本分类模型基于所述样本文本训练得到。
第二方面,提供了一种保护隐私的文本分类方法,包括:
接收第一服务器发送的加密词频;所述加密词频为词组集合中各词组在加密的待分类文本中的词频统计的加密值;
所述词组集合由所述第一服务器基于数据提供方提供的加密样本文本构建得到;所述加密样本文本采用数据请求方的第一公钥对样本文本加密得到;所述加密的待分类文本采用所述第一公钥对待分类文本加密得到;
将所述加密词频加载到所述TEE中,在所述TEE中,对所述加密词频进行解密;
将解密结果输入所述文本分类模型,得到所述待分类文本的分类结果,其中所述文本分类模型基于所述样本文本训练得到。
第三方面,提供了一种保护隐私的文本分类方法,包括:
接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;
基于数据提供方提供的加密样本文本,构建词组集合;所述加密样本文本采用所述第一公钥对样本文本加密得到,所述词组集合中的每个词组由所述加密样本文本中的一个或多个加密样本词组成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010691952.8/2.html,转载请声明来源钻瓜专利网。