[发明专利]一种基于异质数据的人物相似度刻画方法有效

专利信息
申请号: 201710827978.9 申请日: 2017-09-14
公开(公告)号: CN107577782B 公开(公告)日: 2021-04-30
发明(设计)人: 王卿;刘春阳;包秀国;张旭;王萌;李雄;吴俊杰;蒋丽娜 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F16/335 分类号: G06F16/335;G06F16/33;G06F16/9535
代理公司: 北京永创新实专利事务所 11121 代理人: 赵文利
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 质数 人物 相似 刻画 方法
【权利要求书】:

1.一种基于异质数据的人物相似度刻画方法,其特征在于,包括如下步骤:

步骤一、从网络中收集关于某领域或者活跃度较高的微博数据流,进行预处理并存储在数据库中;

步骤二、从数据库中选取部分用户的文本信息作为样本,进行分词和筛选,训练Doc2vec模型;

分词是根据中文语言的特点,将选择的每条中文文本切割成一个一个的单词;

筛选是指对分词后的结果,分别去除无意义的停用词,单个词,以及高频词和低频词;

步骤三、利用数据库中剩余用户的文本信息为测试样本,输入训练后的Doc2vec模型,得到测试样本的每个文本信息的向量分布,进而计算文本相似度矩阵M1

文本相似度矩阵M1中的每个元素是两个用户之间的余弦相似度值;

用户i与用户j之间的余弦相似度Si,j值为:vi为用户i的文本向量;

步骤四、针对测试样本,抽取各用户的关注关系,计算用户间的杰卡德相似性,构成链接关系矩阵M2;同时根据用户之间的关注关系,构建关注相似度矩阵M3

链接关系矩阵M2中的每个元素是:采用杰卡德系数计算两个用户间的共同朋友数占总朋友数的比例值;其中,用户i与用户j之间的杰卡德相似性计算公式为:

其中,fi为用户i的朋友集合;

关注相似度矩阵M3中的元素根据两个用户原始的互相关注关系定义,若用户i与用户j相互关注,则元素Ri,j值为1,没有相互关注,元素Ri,j值为0;

步骤五、针对测试样本,抽取各用户的基本信息,对不同类型数据采用不同处理方法,并加权得到基本信息的相似度矩阵M4

相似度矩阵M4中的每个元素计算如下:

首先,针对两个用户的基本信息,先分别计算类别型数据的信息相似度,文本型数据的信息相似度,以及连续型数据的信息相似度;然后,对三个相似度进行加权,所有的加权值构成基本信息的相似度矩阵M4;计算过程如下:

步骤501、针对用户i与用户j的基本信息中,计算类别型数据的信息相似度;

公式如下:

为用户i在类别信息中的取值,其中分母ac表示类别信息的总数,分子表示用户i的类别与用户j的类别相等的数量;

步骤502、计算用户i与用户j的基本信息中文本型数据的信息相似度;

具体为:首先进行分词和筛选,输入训练后的Doc2vec模型,得到每个文本信息的向量分布,从而计算文本信息相似度

步骤503、计算用户i与用户j的基本信息中两个连续型数据的信息相似度;

首先,分别对用户i与用户j取对数,对连续型数据进行归一化,计算公式如下:

其中,表示用户i在连续属性s中的取值,为s属性下用户数值取对数后的平均值,为s属性下用户数值取对数后的标准差;

然后,采用欧式距离衡量在属性数值上的差距,以刻画用户间属性的相似程度;

计算公式为:

其中,s为当前选择的属性,n为属性的数量;

步骤504、对类别型数据的信息相似度,文本型数据的信息相似度,以及两个用户的属性相似度进行加权;

为用户属性相似度的加权值;为类别型数据的信息相似度的加权值;t∈T;

步骤505、用户i与用户j的加权值为属性信息相似度矩阵M4的元素;

步骤六、融合文本相似度矩阵M1,链接关系矩阵M2,关注相似度矩阵M3和基本信息的相似度矩阵M4,刻画矩阵中两个用户之间的相似性;

针对用户i与用户j具体融合公式如下:

M=ω1*M12*M23*M34*M4

ω1为文本相似度矩阵M1的加权值;ω2为链接关系矩阵M2的加权值;ω3为关注相似度矩阵M3的加权值;ω4为基本信息的相似度矩阵M4的加权值,每个加权值根据用户需求的分配;

步骤七、利用两个用户之间的相似性进行用户推荐或社区发现。

2.如权利要求1所述的一种基于异质数据的人物相似度刻画方法,其特征在于,步骤一中,所述的预处理是指:提取出每条微博的用户ID和文本信息,将文本信息存储在数据库中,并根据用户ID爬取微博网页,得到用户的基本信息和关注关系,存储在数据库中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710827978.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top