[发明专利]一种基于异质数据的人物相似度刻画方法有效
申请号: | 201710827978.9 | 申请日: | 2017-09-14 |
公开(公告)号: | CN107577782B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 王卿;刘春阳;包秀国;张旭;王萌;李雄;吴俊杰;蒋丽娜 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/33;G06F16/9535 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 赵文利 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 质数 人物 相似 刻画 方法 | ||
本发明公开了一种基于异质数据的人物相似度刻画方法,属于数据挖掘领域。本发明首先搜集用户的微博文本,获取用户之间的关注关系以及各用户的基本信息,针对不同类型数据的特点个性化选择处理方式,并对于微博文本采用Doc2vec模型,结合上下文信息将文本表示成向量,再根据定义的相似度函数衡量相似度,最后将不同维度得到的矩阵进行融合,刻画用户最终的相似度。本发明引入了多种社交网络信息,包括社交关系数据、用户属性数据和用户文本数据等,通过对不同类型的信息加以综合考虑,以得到更全面的人物相似度刻画方法;同时本发明提供了对于多种数据的处理和计算方案,利用完整的数据和加权融合方法,个性化计算不同偏好的人物相似度。
技术领域
本发明属于数据挖掘领域,涉及一种相似度计算技术,具体是一种基于异质数据的人物相似度刻画方法。
背景技术
随着互联网的发展,人们的生活越来越离不开网络,依靠互联网进行工作、社交和发表言论越来越密切,导致线上和线下的界限逐渐模糊。在此过程中,人们通过不同形式表达出了自己的兴趣和特点;但是,面对巨大的信息量,人们要从海量信息中鉴别出自己感兴趣的内容和找到志趣相同的朋友,商家和政府机构要找到对自己更有价值的用户群体,并根据用户信息进行进一步的研究或推荐,越来越困难。
截至2016年6月,中国网民规模达7.10亿,互联网普及率达到51.7%,超过全球平均水平3.1个百分点,其中手机网民规模达6.56亿,社会网络的代表应用——微博的用户规模也达到了2.42亿,使用率为34%。基于此,充分利用社交网络的优势,根据用户在微博上发布的信息得到用户感兴趣的内容,根据用户的关注关系得到用户的交友情况,提取出用户不同的兴趣爱好,发现用户所处的社区,不仅为用户提高接收到信息的价值、节省社交成本,也为企业做用户群体发现、精准推荐等应用提供了巨大的价值。
发明内容
本发明鉴于微博中信息丰富,表达方式多样化,信息量大等特点,从中挖掘有用信息很困难,且用户相似度不易衡量的问题,提出了一种基于异质数据的人物相似度刻画方法,分别从用户的文本特征,关注关系特征以及基本信息特征等角度分析用户相似度,最后进行加权融合,刻画用户之间的相似度特征,并利用刻画的人物相似度做用户推荐或者社区发现。
具体步骤如下:
步骤一、从网络中收集关于某领域或者活跃度较高的微博数据流,进行预处理并存储在数据库中;
预处理是指:提取出每条微博的用户ID和文本信息,将文本信息存储在数据库中,并根据用户ID爬取微博网页,得到用户的基本信息和关注关系,存储在数据库中。
步骤二、从数据库中选取部分用户的文本信息作为样本,进行分词和筛选,训练Doc2vec模型。
分词是根据中文语言的特点,将选择的每条中文文本切割成一个一个的单词。
筛选是指对分词后的结果,分别去除无意义的停用词,单个词,以及高频词和低频词。
步骤三、利用数据库中剩余用户的文本信息为测试样本,输入训练后的Doc2vec模型,得到测试样本的每个文本信息的向量分布,进而计算文本相似度矩阵M1;
文本相似度矩阵M1中的每个元素是两个用户之间的余弦相似度值;
用户i与用户j之间的余弦相似度Si,j值为:vi为用户i的文本向量。
步骤四、针对测试样本,抽取各用户的关注关系,计算用户间的杰卡德相似性,构成链接关系矩阵M2;同时根据用户之间的关注关系,构建关注相似度矩阵M3;
链接关系矩阵M2中的每个元素是:采用杰卡德系数计算两个用户间的共同朋友数占总朋友数的比例值;其中,用户i与用户j之间的杰卡德相似性计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710827978.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电网调控模型中心模型实时维护方法
- 下一篇:一种电池盖帽供料机构