[发明专利]一种标识识别方法、装置及电子设备有效
申请号: | 202110870682.1 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113591088B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 董奕 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F16/951;G06F16/955 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标识 识别 方法 装置 电子设备 | ||
本公开提供了一种标识识别方法、装置及电子设备,涉及大数据领域,尤其涉及数据安全领域。具体方案为:获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图;计算目标关联图的连通分量,得到目标关联图的至少一个关联子图;通过至少一个关联子图,确定第一目标标识集和第二目标标识集。不再是利用标识的访问量直接与阈值比较来识别标识,而是通过多个关联数据以及所述多个关联数据中每个关联数据的网页访问量建立目标关联图,利用目标关联图的至少一个关联子图确定第一目标标识集和第二目标标识集,实现标识的识别,可提高对标识识别的准确性。
技术领域
本公开涉及大数据领域,尤其涉及数据安全领域,具体涉及一种标识识别方法、装置及电子设备。
背景技术
内容保护平台的建设,目标在于检出并封禁恶意爬虫流量,从而减少网站核心内容资产被爬取以及服务器资源被浪费等,平台检出恶意爬虫流量的核心是通过不断丰富反爬虫策略对恶意爬虫的标识信息进行识别。
目前,常用标识信息识别方法是针对单一标识的访问量异常来进行识别,比如一个第一标识在一小时内访问量异常多,网页访问量大于一个阈值,则会被反爬虫策略识别为恶意爬虫的标识。
发明内容
本公开提供一种标识识别方法、装置及电子设备。
第一方面,本公开一个实施例提供一种标识识别方法,方法包括:
获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;
基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量;
计算目标关联图的连通分量,得到目标关联图的至少一个关联子图;
通过至少一个关联子图,确定第一目标标识集和第二目标标识集。
在本实施例的标识识别方法中,不再是利用标识的访问量直接与阈值比较来识别标识,而是通过多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量,然后对目标关联图进行连通分量的计算,以得到至少一个关联子图,再利用至少一个关联子图来确定第一目标标识集和第二目标标识集,实现标识的识别,可提高对标识识别的准确性。
第二方面,本公开一个实施例提供一种标识识别装置,装置包括:
获取模块,用于获取多个关联数据,每个关联数据包括一个第一标识以及对应的一个第二标识;
建立模块,用于基于多个关联数据以及多个关联数据中每个关联数据的网页访问量,建立目标关联图,其中,任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量;
计算模块,用于计算目标关联图的连通分量,得到目标关联图的至少一个关联子图;
确定模块,用于通过至少一个关联子图,确定第一目标标识集和第二目标标识集。
第三方面,本公开一个实施例还提供一种电子设备,包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开如第一方面提供的标识识别方法。
第四方面,本公开一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开如第一方面提供的标识识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110870682.1/2.html,转载请声明来源钻瓜专利网。