[发明专利]一种社交媒体用户行为时间模式的自适应隐私保护方法有效
申请号: | 201710706006.4 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107688751B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 曾剑平;张泽文 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于互联网社交媒体技术领域,具体为社交媒体用户行为时间模式的自适应隐私保护方法。本发明方法包含自适应时间粒度选择方法和自适应微聚集隐私保护算法Ada‑MAPP。在用户行为时间模式的处理上,根据社交媒体的活跃度不同,自适应地选择合适的时间粒度;以社交媒体用户行为的时间模式和匿名度参数作为输入,通过Ada‑MAPP,根据信息损失的比较,决定候选点是否加入既有类中。Ada‑MAPP对用户行为模式数据进行由外向内的聚类,最后用质心替代原始数据实现匿名保护,得到隐私保护数据。本发明能够适应于不同活跃度的社交媒体;在保证匿名度的前提下,减少隐私保护所产生的信息损失,提升隐私数据的可用性。 | ||
搜索关键词: | 一种 社交 媒体 用户 行为 时间 模式 自适应 隐私 保护 方法 | ||
【主权项】:
一种社交媒体用户行为时间模式的自适应隐私保护方法,其特征在于,先定义所需处理的用户行为、行为模式元信息、行为模式的元信息集:定义1,用户行为,是指用户在网络社交媒体中留下附带有时间标签的痕迹的行为,包括发贴行为、评论行为、签到行为;在面向以时间点数据为主的应用中,时间模式是导致隐私泄露的主要数据源,将这种原始的用户行为表示为:其中,表示某个用户,表示某个时间段,表示行为在时间标签上的数值,是在时间段内的时间标签数;定义2,行为模式元信息,一定时间范围内的用户行为对应一个二维结构,将该时间范围按特定粒度切分成时间段,构成第一个维度,每个时间段上用户行为的频次作为第二个维度,连续的个时间段上用户行为的频次称为行为模式元信息;时间段是元信息的属性,记作,时间段上用户行为的频次是元信息的值,记作,从而元信息可以表示为连续个时间段属性上的投影,记投影映射为T:;定义3,行为模式的元信息集,把行为模式元信息看作空间中的数据点,由社交媒体中所有用户对应的K个数据点所构成的点集称为行为模式的元信息集,形式定义如下:其中,,i=1,2,…,K;自适应隐私保护方法分为预处理流程和隐私保护流程两个步骤:(一)预处理流程包括:获取原始数据,按最小时间分割粒度,扩大时间粒度,生成行为模式元信息集;(1)获取原始数据原始数据是指社交媒体上与用户行为有关的数据,可以通过各种网络爬虫或社交媒体自身提供的应用程序接口调用得到,将用户标识和行为的时间戳提取出来,该数据集包括若干个用户在一定时间内的行为数据,符合定义1的要求;(2)按最小时间粒度分割先设定一个最小时间粒度,其原则是优先保证数据可用性;分割过程就是对原始数据集的时间跨度按照最小时间粒度进行平均分割;(3)扩大时间粒度扩大时间粒度的目的是为了提升数据的隐私度,同时减小原始数据的数据量,以保证后续的自适应微聚集算法在处理这些数据时不需要太多的计算资源消耗;扩大时间粒度的过程为:依次扫描每个最小时间粒度上的用户行为数量,当该数量小于匿名度时,表明这种时间粒度无法保证k个不同用户的隐私;将其与后续的时间粒度进行合并,直到满足行为数量大于匿名度为止,得到获得了一系列时间粒度;(4)生成行为模式元信息集生成行为模式的元信息集就是统计每个用户在每个时间粒度分割区间上的行为数量,并构造成为一个大小为用户数量*时间粒度数的矩阵;对于已经获得的一系列时间粒度,按照顺序分别形成分割区间,即;最终所形成的矩阵形式上为:其中,每个元素表示第i个用户在第j个区间上的行为次数,K为用户数;(二)隐私保护流程,包括:设定匿名度k,执行微聚集隐私保护算法(Ada‑MAPP)的处理流程,产生隐私保护数据集(1)设定匿名度k匿名度是用于控制一个数据集中相同记录的个数;对于一个含有k个用户的数据集,如果这些用户的行为数据都相同,那么攻击者成功推断其中任何一个用户的概率为1/k;(2)微聚集隐私保护算法的处理,具体步骤如下:对于用户行为模式的元信息集,匿名度k;1)计算元信息集的整体质心,找出离整体质心最远的点作为离心点,并找出距离离心点最近的2k‑1个点;依距离从小到大排序,取前k‑1个与离心点组成一个既有类,而剩余的k个点构成一个候选点队列;2)对于候选点队列中的每一个候选点,循环执行步骤3)‑5)的自适应判断条件,决定是否将候选点加入到既有类中;3)构建第一假想类、第二假想类、第三假想类,既有类与候选点共同形成的类作为第一假想类,除第一假想类之外的个距离候选点最邻近的点形成的类作为第二假想类,候选点与除既有类之外的个最近邻点形成的类作为第三假想类;构造完假想类后,分别计算既有类、第一假想类、第二假想类以及第三假想类这四个类的信息损失;如果既有类与第三假想类的信息损失之和大于第一假想类与第二假想类的信息损失之和,则执行步骤4);反之,执行步骤5);4)将候选点加入既有类之中,并从候选点队列中删除,继续处理下一个候选点;5)只将候选点从候选点队列中删除,不加入既有类之中,继续处理下一个候选点;6)记录既有类信息,并将该既有类中的点从元信息集中删除,若元信息集剩余点的个数不少于2k,则回到步骤1)继续执行;否则,依照信息损失最小原则,将剩余点分配到相应的既有类之中;7)生成隐私保护后的数据集,对既有类中的每个点用其质心代替,对所有的既有类都这样处理,从而将原始行为模式的元信息集转换成为新的具备保护隐私能力的数据集;最后得到隐私保护后的数据集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710706006.4/,转载请声明来源钻瓜专利网。