[发明专利]一种基于文件知识图谱的开源软件社区专家推荐方法有效
申请号: | 201710343007.7 | 申请日: | 2017-05-16 |
公开(公告)号: | CN107391542B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 宣琦;周鸣鸣;虞烨炜;傅晨波;陈晋音;吴哲夫 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文件 知识 图谱 软件 社区 专家 推荐 方法 | ||
1.一种基于文件知识图谱的开源软件社区专家推荐方法,其特征在于:所述推荐方法包括以下步骤:
S1:针对开源软件社区中的某个项目,根据文件路径计算两两文件路径之间的相似度,构建项目文件关系网络;
S2:对项目文件关系网络,使用node2vec算法,提取网络中各个文件的知识图谱特征;
S3:将开发者本人的历史编辑文件特征,与其联系过的专家的历史编辑文件特征整合为该开发者的已知开发行为特征;
S4:根据开发者的历史已知特征,训练随机森林模型,用于推荐其开发过程中需要联系的专家;
所述步骤S1中,计算两两文件路径之间的相似度,文件1与文件2在某个项目中的绝对路径分别为:f1=“src/com/android/settings/LocationSettings.java”,f2=“src/com/android/settings/Utils.java”,则文件1与文件2的路径相似度为:
其中StringComparison(f1,f2)为文件1与文件2的绝对路径中的相同部分个数;max(length(f1),length(f2))为文件1与文件2的绝对路径长度的最大值;
所述步骤S1中,构建项目文件关系网络,项目文件关系网络G(V,E,W),其中V表示文件作为网络节点,E表示两两文件的关系连边,W表示两两文件的路径相似度权重;
所述步骤S2中,对步骤S1得到的项目文件关系网络,使用node2vec算法,提取网络中各个文件的知识图谱特征,node2vec算法提取特征过程如下:
S2-1:根据项目文件关系网络G(V,E,W),定义每个节点随机游走的规则,假设上一时刻在节点t,现在随机游走到节点v,则下一步从节点v出发,会游走到节点v的其中一个邻居节点v′∈{t,x1,x2,x3},游走概率πvv′定义为:
πvv′=αpq(t,v′)·wvv′
其中dtv′指的是网络中节点t与节点v′的最短权重路径长度,p和q分别是控制随机游走返回到上一时刻的节点、控制随机游走选择深度遍历或广度遍历的常数项因子,wvv′指的是项目文件关系网络G(V,E,W)中,节点v与节点v′之间的相似度权重;
S2-2:根据节点随机游走的规则,得到网络G′(V,E,π),对网络G′中所有节点进行π权重概率、总步长l的随机游走,每次将游走记录放入walk列表中,循环设定次数;
S2-3:针对walk列表中所有位置上的节点,用随机梯度下降法最优化函数
T为walk列表的长度,c为窗口大小,最终得到每个文件节点v的知识图谱特征:n维向量Rv∈R1×n;
所述步骤S3中,将开发者的所有邮件联系数据按时间先后顺序排序,取前一半时间的数据作为训练数据,后一半时间的数据作为测试数据,针对每条开发者的邮件联系数据,将其当时联系的专家作为标签;定义:RA∈R1×n,为该开发者在此邮件联系时间之前的最近时刻编辑的文件集合的知识图谱特征的向量和;RB∈R1×n,为该开发者在此邮件联系时间之前的所有历史编辑的文件集合的知识图谱特征的向量和;RC∈R1×n,为该开发者在此邮件联系时间之前的最近时刻联系过的专家在最近一次编辑的文件集合的知识图谱特征的向量和;RD∈R1×n,为该开发者在此邮件联系时间之前的最近时刻联系过的专家的历史编辑文件集合的知识图谱特征的向量和;整合这4个向量特征(RA,RB,RC,RD)∈R1×4n,作为该开发者的历史已知特征;
所述步骤S4中,根据开发者的历史已知特征(RA,RB,RC,RD)∈R1×4n以及相应的专家标签数据,使用训练数据构建随机森林模型,用于推荐其在测试数据里的开发过程中需要联系的专家。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710343007.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种实时数据合并方法和装置
- 下一篇:一种无线热点的类型识别方法和装置