[发明专利]一种基于异质数据的人物相似度刻画方法有效

申请号：	201710827978.9	申请日：	2017-09-14
公开（公告）号：	CN107577782B	公开（公告）日：	2021-04-30
发明（设计）人：	王卿;刘春阳;包秀国;张旭;王萌;李雄;吴俊杰;蒋丽娜	申请（专利权）人：	国家计算机网络与信息安全管理中心
主分类号：	G06F16/335	分类号：	G06F16/335;G06F16/33;G06F16/9535
代理公司：	北京永创新实专利事务所 11121	代理人：	赵文利
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于异质数据的人物相似度刻画方法，属于数据挖掘领域。本发明首先搜集用户的微博文本，获取用户之间的关注关系以及各用户的基本信息，针对不同类型数据的特点个性化选择处理方式，并对于微博文本采用Doc2vec模型，结合上下文信息将文本表示成向量，再根据定义的相似度函数衡量相似度，最后将不同维度得到的矩阵进行融合，刻画用户最终的相似度。本发明引入了多种社交网络信息，包括社交关系数据、用户属性数据和用户文本数据等，通过对不同类型的信息加以综合考虑，以得到更全面的人物相似度刻画方法；同时本发明提供了对于多种数据的处理和计算方案，利用完整的数据和加权融合方法，个性化计算不同偏好的人物相似度。
搜索关键词：	一种基于质数人物相似刻画方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于异质数据的人物相似度刻画方法，其特征在于，包括如下步骤：步骤一、从网络中收集关于某领域或者活跃度较高的微博数据流，进行预处理并存储在数据库中；步骤二、从数据库中选取部分用户的文本信息作为样本，进行分词和筛选，训练Doc2vec模型；分词是根据中文语言的特点，将选择的每条中文文本切割成一个一个的单词；筛选是指对分词后的结果，分别去除无意义的停用词，单个词，以及高频词和低频词；步骤三、利用数据库中剩余用户的文本信息为测试样本，输入训练后的Doc2vec模型，得到测试样本的每个文本信息的向量分布，进而计算文本相似度矩阵M1；文本相似度矩阵M1中的每个元素是两个用户之间的余弦相似度值；用户i与用户j之间的余弦相似度Si,j值为：vi为用户i的文本向量；步骤四、针对测试样本，抽取各用户的关注关系，计算用户间的杰卡德相似性，构成链接关系矩阵M2；同时根据用户之间的关注关系，构建关注相似度矩阵M3；链接关系矩阵M2中的每个元素是：采用杰卡德系数计算两个用户间的共同朋友数占总朋友数的比例值；其中，用户i与用户j之间的杰卡德相似性计算公式为：Ii,j=|fi∩fj||fi∪fj|]]>其中，fi为用户i的朋友集合；关注相似度矩阵M3中的元素根据两个用户原始的互相关注关系定义，若用户i与用户j相互关注，则元素Ri,j值为1，没有相互关注，元素Ri,j值为0；Ri,j=10]]>步骤五、针对测试样本，抽取各用户的基本信息，对不同类型数据采用不同处理方法，并加权得到基本信息的相似度矩阵M4；相似度矩阵M4中的每个元素计算如下：首先，针对两个用户的基本信息，先分别计算类别型数据的信息相似度，文本型数据的信息相似度，以及连续型数据的信息相似度；然后，对三个相似度进行加权，所有的加权值构成基本信息的相似度矩阵M4；步骤六、融合文本相似度矩阵M1，链接关系矩阵M2，关注相似度矩阵M3和基本信息的相似度矩阵M4，刻画矩阵中两个用户之间的相似性；针对用户i与用户j具体融合公式如下：M＝ω1*M1+ω2*M2+ω3*M3+ω4*M4ω1为文本相似度矩阵M1的加权值；ω2为链接关系矩阵M2的加权值；ω3为关注相似度矩阵M3的加权值；ω4为基本信息的相似度矩阵M4的加权值，每个加权值根据用户需求的分配；步骤七、利用两个用户之间的相似性进行用户推荐或社区发现。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心，未经国家计算机网络与信息安全管理中心许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710827978.9/，转载请声明来源钻瓜专利网。

上一篇：一种电网调控模型中心模型实时维护方法
下一篇：一种电池盖帽供料机构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于异质数据的人物相似度刻画方法有效

专利文献下载