[发明专利]基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法在审

申请号：	202011228945.0	申请日：	2020-11-06
公开（公告）号：	CN112380455A	公开（公告）日：	2021-02-19
发明（设计）人：	李阳阳;尹小燕;孟一;魏春;王季;王培勇;王亚珅;金昊	申请（专利权）人：	中国电子科技集团公司电子科学研究院;西北大学
主分类号：	G06F16/9536	分类号：	G06F16/9536;G06Q50/00
代理公司：	西安恒泰知识产权代理事务所 61216	代理人：	李郑建
地址：	100041 北京市石***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于溯源安全受控入网通道境内外互联网数据定向隐蔽采集方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法，其特征在于，该方法以受控网站的多个主题粒度下用户的活跃度以及该用户在社交网络中的影响力排名来综合评估用户数据的重要性，隐蔽数据采集以沙箱模式运行，根据设定抓取敏感目标，进行隔离保存，从而满足算法所需求的定向隐蔽性；具体包括以下步骤：

步骤一，爬取受控网站中用户的历史数据，计算出每个用户参与的主题集合；进一步计算出每个用户在其各个主题类别上的活跃程度，最后构造出用户的活跃度分布矩阵；

步骤二，根据用户的活跃度分布矩阵，同时考虑不同主题在社交网络中的重要性存在差异，将单个用户的总活跃度计算为该用户所有主体下活跃度与重要因子相乘的累加；

步骤三，采用具有最大生成树特征的树结构，并将其用于基于多粒度主题的索引模型中，从而获得更清晰的分层表示以及对活跃度和影响力的综合排名；

步骤四，设计受控网站中基于主题的投影函数，综合考虑用户在社交网络中存在的影响力以及在主题类别上的活跃程度，为用户数据的重要性作出评估，以实现隐蔽采集少量用户数据来最大程度满足算法的目标需求；

步骤五，根据给定的投影函数生成具有最大生成树特征的树索引结构，采用分层遍历算法自顶向下遍历树索引结构直至挖掘出社交网络中最有影响力的用户数据。

2.如权利要求1所述的方法，其特征在于，所述步骤一实现步骤如下：

步骤S10：构建一个带权有向图G(V,E)来表示社交网络中个体以及两个个体之间的关系结构；其中，V和E分别表示个体集合和个体之间的有向边集合；使用N表示图G上的节点，即个体总数，|V|＝N，E中的每条有向边都有一个权值W_i,j，表示个体υ_i到个体υ_j的关联强度；当个体υ_i对个体υ_j频繁交互，但υ_j却对υ_i保持静默的状态下，W_ij＝1，W_ji＝0；当这两个个体之间相互联系的频率保持相近时，W_ij和W_ji都应该等于0.5；

步骤S11：利用深度学习NLP算法对用户数据进行主题归类，统计带权有向图G中所有υ_n感兴趣的m个主题，其中1≤n≤N：定义g_m代表主题集合C中的特定主题，即C＝{g₁,g₂,...,g_m}，|C|＝m；

步骤S12：确定每个用户在不同主题下的活跃度，首先将每个用户的所有历史社交数据进行聚类，形成集合B＝{b₁,b₂,...b_h}，|B|＝h，其中，集合B中的每个元素表示社交网络中任何用户发布的一条消息，h表示总共的消息数量；

步骤S13：创建一维强度向量s来表征每个主题g_m在网络中的主题参与强度，即S＝{s₁,s₂,...s_m}，|S|＝m，其中向量s中的每一个元素s_m定义为主题g_m在消息集合B中发布的次数，s的长度对应于主题m的总数；

步骤S14：结合历史数据集B和主题参与强度向量s，建立一个活跃度分配矩阵A，如图3所示，矩阵A中每个元素a_nm表示用户υ_n在主题g_m上活跃的程度，在计算每个元素a_nm时，假定所有参与该主题的用户将平等地共享活动度，即a_nm＝1/N，N为该活动下参与个体的总数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院;西北大学，未经中国电子科技集团公司电子科学研究院;西北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011228945.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法在审

专利文献下载