[发明专利]面向开源社区的跨项目issue参与者推荐框架在审
申请号: | 202111390863.0 | 申请日: | 2021-11-23 |
公开(公告)号: | CN114064990A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 汪亮;江会煜;陶先平 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/9035 | 分类号: | G06F16/9035;G06F40/30;G06F40/216;G06K9/62;G06F16/901 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 王磊 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 社区 项目 issue 参与者 推荐 框架 | ||
1.面向开源社区的跨项目issue参与者推荐框架,其特征在于,包括数据采集与文本预处理模块、关联文本语义嵌入模块、开源社区实体结构嵌入模块和推荐结果排序模块,
所述数据采集与文本预处理模块:用于从开源社区中获取信息并以一定格式加以处理,包括,去除质量差的issue和issue中的干扰部分,对issue文本进行词干提取、词形还原并去除停止词以得到issue文本集,分别提取每个issue对其他issue的引用关系以构建issue关系集;
所述关联文本语义嵌入模块:定义训练目标函数并利用issue文本集和issue关系集训练语义嵌入模型,通过语义嵌入模型获取待推荐issue的文本语义嵌入向量,并通过其与issue文本集中issue文本语义嵌入向量的距离找出与待推荐issue语义相似的issue集合;
所述开源社区实体结构嵌入模块:构建整个开源社区中开发者、仓库、issue三种结点间交互关系的异质图,为跨项目的推荐任务设计issue引用关系增强的元路径,以元路径对异质图进行采样并采用图嵌入方法训练得到每个结点的结构嵌入向量以构建结构关系向量集合;
所述推荐结果排序模块:从结构关系向量集合中找出issue集合和待推荐issue所属仓库的结构关系向量,并计算其与开发者结点的向量距离以得到有序的开发者推荐结果。
2.如权利要求1所述的面向开源社区的跨项目issue参与者推荐框架,其特征在于,所述数据采集与文本预处理模块的具体处理过程包括:
S1.1、从开源社区中获取需要的开源仓库集合R,对R中的每个仓库r,获取其issue集合Ir,每个issue包含标题、描述和评论的所有文本,所有仓库的issue构成集合I=∪r∈RIr;
S1.2、从集合I中去除标题单词数目少于m或描述字符数目少于n的issue,并去除issue中引用他人部分的文本和代码,利用传统文本预处理方法进行词干提取、词形还原、去除停止词得到issue预处理后的文本集;
S1.3、抽取出所有issue的参与者构成参与者集合D,再根据所有开发者参与issue的关系构成参与关系集合J;
S1.4、根据开源社区仓库信息抽取维护关系d,r构成维护关系集合M,d,r表示开发者d维护仓库r,d∈D,r∈R;
S1.5、提取issu之间的所有引用关系构成引用关系集合Q,其中im,in∈Q(im∈I,in∈I,im≠in)表示issue im中包含对issue in的引用链接;
S1.6、构建issue属于仓库的隶属关系集合B,其中im,rn∈B(im∈I,rn∈R)表示issueim属于仓库rn。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111390863.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于区块链的数字化防伪方法
- 下一篇:智能化便携式医疗仪