[发明专利]基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法在审
申请号: | 202011228945.0 | 申请日: | 2020-11-06 |
公开(公告)号: | CN112380455A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 李阳阳;尹小燕;孟一;魏春;王季;王培勇;王亚珅;金昊 | 申请(专利权)人: | 中国电子科技集团公司电子科学研究院;西北大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 李郑建 |
地址: | 100041 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 溯源 安全 受控 入网 通道 境内外 互联网 数据 定向 隐蔽 采集 方法 | ||
本发明公开了一种基于反溯源安全受控入网通道的多粒度境内外互联网数据定向隐蔽采集方法,通过分析受控网站中用户的历史信息数据,计算其参与的不同主题类别和在每个主题中的活跃度大小,定向捕获该用户是否满足主题内容的采集需求。同时,为了快速隐蔽采集网络中的重要数据信息,结合用户在网络拓扑中所具有的影响力大小,给出了计算用户数据重要性的投影函数。使用具有最大生成树属性的树索引来表示个体数据信息重要性的层次结构,最后根据给定的基于树的索引模型和投影函数,结合分层挖掘算法,采用自上而下的方式遍历树节点来探索最重要的个体数据,从而快速挖掘出网络上最有价值的用户数据信息。
技术领域
本发明属于互联网数据定向采集技术领域,特别涉及一种基于反溯源安全受控入网通道的境内外互联网数据定向隐蔽采集方法。
背景技术
互联网是人类社会关系网络从现实世界到网络世界的一种映射,它是由多个用户和他们的重要个人数据组成的。随着新兴技术和社交平台的快速更新发展,规模越来越庞大的用户数据产生、散布在互联网的各个角落。这些数据所具有的大体量、多样化、低价值等特点使得在进行数据定向采集时,往往不能保证较好的隐蔽性和安全性。因此,如何在保证隐蔽性和安全性的前提下,高效、准确地从境内外网络中提取出重要的用户数据,对于数据分析、网络安全方面具有重要的研究价值。
在研究如何提取网络中重要信息的过程中,一些学者发现很难隐蔽地收集到满足主题类别需求的重要数据。互联网中每个用户的数据重要性都存在着一定的差异,即少数用户在特定主题下的重要性明显高于其他用户。与普通用户相比,较重要的用户个体拥有更大的社会影响力和商业价值。同时用户在面对不同主题时,其信息的重要性也会发生变化,即用户数据的重要性与采集主题需求是密切结合的。与社交网络中的影响力最大化问题类似,互联网隐蔽方向收集的目标是找到在网络中满足特定主题采集需求的重要用户,通过依次按照重要性大小采集这些用户的关键数据,从而满足实验分析和科学研究在时间效率和计算资源上的要求。目前用户基数较多的几个社交平台如Facebook、Twitter、LinkedIn等,通过分析影响力最大化问题寻找广告推荐适合的目标用户,获得了大量的经济效益。此外,互联网具有的强大发布、传播、交换和共享信息的能力,可以在短时间内收集大量的意见。同时,用户可以方便和低成本的方式建立和维护与他人的关系,他们可以足不出户快速查看最新相关新闻。
社交网络中关于用户重要性判断的研究主要集中在影响力最大化问题、信息传播和溯源过程等方面。在影响力最大化方面,通过分析社交网络中的拓扑结构(使用度中心度、介数中心度、聚类系数等特征)作为用户是否具有重要信息能力的指标,从而评估每个用户在网络中的重要性。在信息传播和可追溯性方面,通过对每个用户的行为特征进行分析、权衡信息在用户间传播的可能性,从而预测信息在社交网络中的传播方向。或者根据溯源算法,找到网络中信息传播的源节点,从而找到最重要的用户信息,隐蔽数据采集以沙箱模式运行,根据设定抓取敏感目标,进行隔离保存。
目前,已有的可有效评估用户在社交网络中重要性的算法策略有:
(1)基于网络拓扑的经典PageRank算法:基于静态网络拓扑来评估用户相关性和重要性,被用户关联越多的个体在社交网络中可能重要性更高;同时,一个重要性很高的用户所关联的其他个体也很可能较高。该方法通过给网络中每个用户设置一个初始PageRank值,然后通过关联链接递归计算直至排名或者PageRank值收敛为止,收敛后的排名即被认定为重要性排名。但是可能会存在主题不一致、结果不唯一、忽略用户个性化特征等问题。
(2)基于个体兴趣相似度的TwitterRank算法:利用历史记录数据推断用户的兴趣特征,两个用户的兴趣越相似,它们之间传播信息的可能性就越高。该算法缺乏对网络拓扑结构的全局性考虑。
(3)基于观测点的溯源定位方法:通过在网络拓扑中选取部分节点作为观测点,记录这些节点的传播状态,并使用最大似然估计等方法寻找源个体。这种方法可以有效的减少数据规模,但是该算法不适合动态网络,具有较大的局限性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司电子科学研究院;西北大学,未经中国电子科技集团公司电子科学研究院;西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011228945.0/2.html,转载请声明来源钻瓜专利网。