[发明专利]一种基于弱可信数据的跨社群潜在人物关系分析方法有效
申请号: | 201811310355.5 | 申请日: | 2018-11-05 |
公开(公告)号: | CN109492027B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 孙国梓;吕建伟;李华康 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/901;G06Q50/00 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 刘珊珊 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 可信 数据 社群 潜在 人物 关系 分析 方法 | ||
本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法,该方法不依赖人物属性标签无监督实体识别方法抽取出实体,使用层次结构来测量不同属性社群下用户节点的相似度,构建多层图来编码结构相似性,为节点生成由多重身份特征的用户根据不同特征聚类形成的结构性网络关系图,从而发现网络上无关联而现实中可能相似的潜在人物关系。此外,该方法基于用户相关系数算法,在发现无直接边相连的两个用户节点潜在关系具有明显的优势,准确率高。
技术领域
本发明涉及大数据分析及挖掘领域,尤其是在弱可信数据下潜在人物关系分析领域,具体为一种基于弱可信数据的跨社群潜在人物关系分析方法。
背景技术
潜在人物关系分析是指从互联网搜索引擎或者社交网站得到相关匿名用户的数据,并用关键词抽取和数理分析的方法对匿名数据进行处理。通过分析得到的结果,发现用户在不同属性关系网下的结构身份,总结用户与用户间未有公开数据显示的关联规律。能够掌握用户在不同属性关系网下的结构身份,对于挖掘用户潜在行为及潜在关系具有重要的意义。本发明从用户在不同属性关系网下的结构身份角度出发,通过对网络用户日常上网行为痕迹分析方法的研究,设计一个有效的潜在人物关系检测方法,快速发现弱关联用户中的强关系。
目前,各种人物关系检测算法主要分为两类:
(1)基于人工标注或半监督的分析方法,现有专利包括:一种人物关系分类方法与装置(专利号:CN106778878A)。
(2)基于强关联用户的关系分析方法,现有专利包括:一种基于海量数据的人物关系图谱分析方法(专利号:CN106708922A),融合分布式语义和句义特征的人物关系抽取方法(专利号:CN106484675A)。
上述方法存在着一定的局限性,预处理时人工标注的语料直接决定了后期的关系识别的准确性,而如何定义人工标注的量,以及如何进行标注,都无法科学量化;通过抽取、语义、句义特征分析的方法只能发现强关联用户中的强关系,而对于那些在互联网上无直接边连接、只是通过多个中间人单连接的用户之间潜在关系的发现问题等还没有很好的解决。
发明内容
发明目的:为解决上述技术问题,本发明提出一种基于弱可信数据的跨社群潜在人物关系分析方法,该方法不依赖人物标签,以无监督实体识别方法抽取出实体,再用层次结构来测量不同属性社群下用户节点的相似度,通过构建多层图来编码结构相似性,为节点生成结构性网络关系图。本发明中引进结构性网络关系图的概念,结构性网络关系图是由多重身份特征的用户根据不同特征聚类形成的结构性人际关系网,通过结构相似的关系图来发现网络上无关联而现实中可能相识的潜在人物关系。
技术方案:为实现上述技术效果,本发明提出以下技术方案:
一种基于弱可信数据的跨社群潜在人物关系分析方法,包括步骤:
(1)获取网页或社交网站上匿名用户的公开数据,并按照数据来源类别存成与来源类别相应格式的文件;
(2)对步骤(1)中得到的文件进行数据清洗,再进行属性提取,将提取的属性数据存放在实体属性数据库内;
(3)选取实体属性数据库内的某一属性A构建用户社群图,所述用户社群图中两用户之间的边值为两用户间关于属性A的属性关系值;
(4)根据步骤(3)生成的用户社群图计算用户间结构身份相似度、社群结构相似度、无直接边相连的任意两个用户节点之间的相关系数;
(5)根据预设相似度阈值选择社群结构相似度接近的用户社群,对于任意两个社群结构相似度接近的用户社群G1和G2,选取一对用户节点u和v,u∈G1,v∈G2,u和v直接相连;选取G1中用户u周边与v无直接连接的用户节点,计算这些用户节点与用户节点v之间的相关系数,选取相关系数最高N个用户节点作为用户节点v的潜在关系用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811310355.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置