[发明专利]保护隐私的文本分类方法及装置有效
申请号: | 202010691952.8 | 申请日: | 2020-07-17 |
公开(公告)号: | CN111737719B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 李龙飞;周俊 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F21/62;G06F21/53;G06F16/35 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 张明;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 保护 隐私 文本 分类 方法 装置 | ||
1.一种保护隐私的文本分类方法,通过第一服务器执行,包括:
接收数据请求方发送的文本分类请求,所述文本分类请求至少包括采用所述数据请求方的第一公钥进行加密的待分类文本;
基于数据提供方提供的加密样本文本,构建词组集合;所述加密样本文本采用所述第一公钥对样本文本加密得到,所述词组集合中的每个词组由所述加密样本文本中的一个或多个加密样本词组成;
确定加密词频,所述加密词频为所述词组集合中各词组在所述加密的待分类文本中的词频统计的加密值;
至少向第二服务器发送所述加密词频,以使得所述第二服务器将所述加密词频加载到其可信执行环境TEE中,在所述TEE中,对所述加密词频进行解密,并将解密结果输入预先部署在所述TEE中的文本分类模型,得到所述待分类文本的分类结果,其中所述文本分类模型基于所述样本文本训练得到;
所述文本分类请求还包括初始加密词频,所述初始加密词频采用所述数据请求方的第三公钥对随机数加密得到;所述确定加密词频包括:
对于所述词组集合中的各词组,通过迭代地修改所述初始加密词频,对所述各词组在所述加密的待分类文本中的词频进行统计,得到所述各词组的加密统计结果;将所述各词组的加密统计结果作为所述各词组的加密词频。
2.根据权利要求1所述的方法,所述确定加密词频包括:
对于所述词组集合中各词组在所述加密的待分类文本中的词频进行统计;
采用所述数据请求方的第二公钥,对所述各词组的统计结果进行加密,得到所述加密词频。
3.根据权利要求2所述的方法,所述对于所述词组集合中各词组在所述加密的待分类文本中的词频进行统计,包括:
对于所述词组集合中任意的第一词组,依次对所述第一词组与所述加密的待分类文本中的各词组进行同态减法计算,并统计计算结果为预定数值的第一数目,将所述第一数目作为所述第一词组的统计结果。
4.根据权利要求1所述的方法,所述各词组包括第一词组;所述通过迭代地修改所述初始加密词频,对所述各词组在所述加密的待分类文本中的词频进行统计,包括:
对于所述第一词组,依次对所述第一词组与所述加密的待分类文本中的各词组进行同态减法计算,若与任一词组的计算结果为预定数值,则将所述初始加密词频与1相加后作为新的初始加密词频;将达到统计结束条件时的初始加密词频作为所述第一词组的加密统计结果。
5.一种保护隐私的文本分类方法,通过第二服务器执行;所述第二服务器包括可信执行环境TEE,所述TEE中部署有文本分类模型;所述方法包括:
接收第一服务器发送的加密词频;所述加密词频为词组集合中各词组在加密的待分类文本中的词频统计的加密值;各词组的加密词频均通过迭代地修改从数据请求方接收的初始加密词频得到;所述初始加密词频采用所述数据请求方的第三公钥对随机数加密得到;
所述词组集合由所述第一服务器基于数据提供方提供的加密样本文本构建得到;所述加密样本文本采用数据请求方的第一公钥对样本文本加密得到;所述加密的待分类文本采用所述第一公钥对待分类文本加密得到;
将所述加密词频加载到所述TEE中,在所述TEE中,对所述加密词频进行解密;
将解密结果输入所述文本分类模型,得到所述待分类文本的分类结果,其中所述文本分类模型基于所述样本文本训练得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010691952.8/1.html,转载请声明来源钻瓜专利网。