[发明专利]基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法在审
申请号: | 202011228945.0 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112380455A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 李阳阳;尹小燕;孟一;魏春;王季;王培勇;王亚珅;金昊 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院;西北大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李郑建 |
地址: | 100041 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 溯源 安全 受控 入网 通道 境内外 互联网 数据 定向 隐蔽 采集 方法 | ||
1.一种基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法,其特征在于,该方法以受控网站的多个主题粒度下用户的活跃度以及该用户在社交网络中的影响力排名来综合评估用户数据的重要性,隐蔽数据采集以沙箱模式运行,根据设定抓取敏感目标,进行隔离保存,从而满足算法所需求的定向隐蔽性;具体包括以下步骤:
步骤一,爬取受控网站中用户的历史数据,计算出每个用户参与的主题集合;进一步计算出每个用户在其各个主题类别上的活跃程度,最后构造出用户的活跃度分布矩阵;
步骤二,根据用户的活跃度分布矩阵,同时考虑不同主题在社交网络中的重要性存在差异,将单个用户的总活跃度计算为该用户所有主体下活跃度与重要因子相乘的累加;
步骤三,采用具有最大生成树特征的树结构,并将其用于基于多粒度主题的索引模型中,从而获得更清晰的分层表示以及对活跃度和影响力的综合排名;
步骤四,设计受控网站中基于主题的投影函数,综合考虑用户在社交网络中存在的影响力以及在主题类别上的活跃程度,为用户数据的重要性作出评估,以实现隐蔽采集少量用户数据来最大程度满足算法的目标需求;
步骤五,根据给定的投影函数生成具有最大生成树特征的树索引结构,采用分层遍历算法自顶向下遍历树索引结构直至挖掘出社交网络中最有影响力的用户数据。
2.如权利要求1所述的方法,其特征在于,所述步骤一实现步骤如下:
步骤S10:构建一个带权有向图G(V,E)来表示社交网络中个体以及两个个体之间的关系结构;其中,V和E分别表示个体集合和个体之间的有向边集合;使用N表示图G上的节点,即个体总数,|V|=N,E中的每条有向边都有一个权值Wi,j,表示个体υi到个体υj的关联强度;当个体υi对个体υj频繁交互,但υj却对υi保持静默的状态下,Wij=1,Wji=0;当这两个个体之间相互联系的频率保持相近时,Wij和Wji都应该等于0.5;
步骤S11:利用深度学习NLP算法对用户数据进行主题归类,统计带权有向图G中所有υn感兴趣的m个主题,其中1≤n≤N:定义gm代表主题集合C中的特定主题,即C={g1,g2,...,gm},|C|=m;
步骤S12:确定每个用户在不同主题下的活跃度,首先将每个用户的所有历史社交数据进行聚类,形成集合B={b1,b2,...bh},|B|=h,其中,集合B中的每个元素表示社交网络中任何用户发布的一条消息,h表示总共的消息数量;
步骤S13:创建一维强度向量s来表征每个主题gm在网络中的主题参与强度,即S={s1,s2,...sm},|S|=m,其中向量s中的每一个元素sm定义为主题gm在消息集合B中发布的次数,s的长度对应于主题m的总数;
步骤S14:结合历史数据集B和主题参与强度向量s,建立一个活跃度分配矩阵A,如图3所示,矩阵A中每个元素anm表示用户υn在主题gm上活跃的程度,在计算每个元素anm时,假定所有参与该主题的用户将平等地共享活动度,即anm=1/N,N为该活动下参与个体的总数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院;西北大学,未经中国电子科技集团公司电子科学研究院;西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011228945.0/1.html,转载请声明来源钻瓜专利网。