[发明专利]一种多平台虚拟身份账号的多维碰撞识别方法有效

申请号：	201911271999.2	申请日：	2019-12-12
公开（公告）号：	CN111160130B	公开（公告）日：	2022-04-01
发明（设计）人：	徐舒霖;胥小波;聂小明;王伟;康英来;范晓波;敖佳	申请（专利权）人：	中国电子科技网络信息安全有限公司
主分类号：	G06V10/774	分类号：	G06V10/774;G06V40/16;G06Q50/00;G06F40/284
代理公司：	成都九鼎天元知识产权代理有限公司 51214	代理人：	邓世燕
地址：	610207 四川省成都市***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种平台虚拟身份账号多维碰撞识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多平台虚拟身份账号的多维碰撞识别方法，其特征在于：包括如下步骤：

步骤一、对不同虚拟身份账号的头像进行相似度匹配：若匹配成功，则判断这些虚拟身份账号属于同一用户；若匹配不成功，则进入步骤二；

步骤二、对不同虚拟身份账号的属性进行相似度匹配：若匹配成功，则判断这些虚拟身份账号属于同一用户；若匹配不成功，则进入步骤三；其中：对不同虚拟身份账号的属性进行相似度匹配的方法为：

第一步、将每一个用户的所有简介属性表示成一个属性向量P＝f1,f2,...,fn，其中fi表示第i个属性域；

第二步、建立一个相似性向量V(P1,P2)＝v1,v2,...,vn，其中vi＝compi(fi,P1,fi,P2)，0≤vi≤1，若|V|代表向量V的维数，则|V|＝|P1|＝|P2|；

第三步、定义权重向量W来控制每个属性域的影响力，并将相似性向量V和与它同维的权重向量W相乘获得两个属性向量P1和P2的相似性得分，然后判断相似性得分是否大于设定的阈值：若是，则匹配成功，若否，则属性匹配不成功；

其中，采用MN函数对用户名进行相似度计算，具体方法为：

(1)预处理阶段：删除用户名中的特殊符号及在指定“黑名单”中出现的单词；

(2)匹配阶段：

采用如下公式计算预处理后不同用户名之间的相似性：

其中，w₁和w₂是来自用户名1和用户名2的单词数组，|w_i|表示w_i的单词数，w_i[k]表示矩阵数组w_i的第k个单词；支持函数Part用来计算部分字符串匹配：

其中：s₁、s₂是待匹配的字符串，l(s)是字符串s的长度，LCS函数返回最长公共子串；

步骤三、对不同虚拟身份账号的推文进行相似度匹配：若匹配成功，则判断这些虚拟身份账号属于同一用户；若匹配不成功，则判断这些虚拟身份账号不属于同一个用户；其中：对不同虚拟身份账号的推文进行相似度匹配的方法为：从多个维度对虚拟身份账号的推文信息进行相似度建模，然后将相似度权重分配问题转换为排序学习问题，再将排序学习问题转换为分类问题，最后利用机器学习方式对各个相似度权重进行学习从而实现相似性检测；

其中，从多个维度对社虚拟身份账号的推文信息进行相似度建模的方法为：

第一步、推文合并：

将每个虚拟身份账号发布的所有推文进行合并，形成长文本语料集；

第二步、推文关键词相似度计算：

抽取出每个虚拟身份账号所有推文中的关键词，并将关键词转换为语义向量，然后以空间距离为度量来计算不同虚拟身份账号的关键词相似度；

第三步、推文主题相似度计算：

抽取出每个虚拟身份账号所有推文中的主题，并将主题转换为语义向量，然后以空间距离为度量来计算不同虚拟身份账号的主题相似度；

第四步、推文提及的命名实体相似度计算：

提取出每个虚拟身份账号所有推文中提及到的所有命名实体，以每个实体的逆文档频率作为每个实体的权重，然后用不同虚拟身份账号提及到的命名实体相似度来判定账号的相似度；

第五步、推文发布时间分布相似度计算：

提取出每个虚拟身份账号一天的推文发布时间分布，然后在此基础上使用KL距离来判定不同虚拟身份账号每日推文发布时间分布的差异程度；

第六步、推文时间线内容相似度计算：