[发明专利]一种标识识别方法、装置及电子设备有效

申请号：	202110870682.1	申请日：	2021-07-30
公开（公告）号：	CN113591088B	公开（公告）日：	2023-08-29
发明（设计）人：	董奕	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F21/56	分类号：	G06F21/56;G06F16/951;G06F16/955
代理公司：	北京银龙知识产权代理有限公司 11243	代理人：	许静;黄灿
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种标识识别方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种标识识别方法、装置及电子设备，涉及大数据领域，尤其涉及数据安全领域。具体方案为：获取多个关联数据，每个关联数据包括一个第一标识以及对应的一个第二标识；基于多个关联数据以及多个关联数据中每个关联数据的网页访问量，建立目标关联图；计算目标关联图的连通分量，得到目标关联图的至少一个关联子图；通过至少一个关联子图，确定第一目标标识集和第二目标标识集。不再是利用标识的访问量直接与阈值比较来识别标识，而是通过多个关联数据以及所述多个关联数据中每个关联数据的网页访问量建立目标关联图，利用目标关联图的至少一个关联子图确定第一目标标识集和第二目标标识集，实现标识的识别，可提高对标识识别的准确性。

技术领域

本公开涉及大数据领域，尤其涉及数据安全领域，具体涉及一种标识识别方法、装置及电子设备。

背景技术

内容保护平台的建设，目标在于检出并封禁恶意爬虫流量，从而减少网站核心内容资产被爬取以及服务器资源被浪费等，平台检出恶意爬虫流量的核心是通过不断丰富反爬虫策略对恶意爬虫的标识信息进行识别。

目前，常用标识信息识别方法是针对单一标识的访问量异常来进行识别，比如一个第一标识在一小时内访问量异常多，网页访问量大于一个阈值，则会被反爬虫策略识别为恶意爬虫的标识。

发明内容

本公开提供一种标识识别方法、装置及电子设备。

第一方面，本公开一个实施例提供一种标识识别方法，方法包括：

获取多个关联数据，每个关联数据包括一个第一标识以及对应的一个第二标识；

基于多个关联数据以及多个关联数据中每个关联数据的网页访问量，建立目标关联图，其中，任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量；

计算目标关联图的连通分量，得到目标关联图的至少一个关联子图；

通过至少一个关联子图，确定第一目标标识集和第二目标标识集。

在本实施例的标识识别方法中，不再是利用标识的访问量直接与阈值比较来识别标识，而是通过多个关联数据以及多个关联数据中每个关联数据的网页访问量，建立目标关联图，任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量，然后对目标关联图进行连通分量的计算，以得到至少一个关联子图，再利用至少一个关联子图来确定第一目标标识集和第二目标标识集，实现标识的识别，可提高对标识识别的准确性。

第二方面，本公开一个实施例提供一种标识识别装置，装置包括：

获取模块，用于获取多个关联数据，每个关联数据包括一个第一标识以及对应的一个第二标识；

建立模块，用于基于多个关联数据以及多个关联数据中每个关联数据的网页访问量，建立目标关联图，其中，任一关联数据的网页访问量为其包括的第一标识和第二标识共同访问的网页访问量；

计算模块，用于计算目标关联图的连通分量，得到目标关联图的至少一个关联子图；

确定模块，用于通过至少一个关联子图，确定第一目标标识集和第二目标标识集。

第三方面，本公开一个实施例还提供一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开如第一方面提供的标识识别方法。

第四方面，本公开一个实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开如第一方面提供的标识识别方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载