[发明专利]面向开源社区的软件项目个性化推荐方法有效

专利信息
申请号: 201610486067.X 申请日: 2016-06-23
公开(公告)号: CN106201465B 公开(公告)日: 2020-08-21
发明(设计)人: 孙小兵;徐文远;李斌;李云 申请(专利权)人: 扬州大学
主分类号: G06F8/10 分类号: G06F8/10;G06F8/70;G06F40/216;G06F16/9535
代理公司: 南京中新达专利代理有限公司 32226 代理人: 孙鸥;朱杰
地址: 225009 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及面向开源社区的软件项目个性化推荐方法。本发明对项目内容进行TF‑IDF特征抽取,结合用户对已知项目评价,推荐结合用户个性和项目需求的相似项目,并针对用户个性,通过ALS协同过滤计算候选推荐结果,使用词频‑逆文本频率计算每个项目特征,按其相似性计算候选推荐结果,将两者推荐结果线性组合,进行过滤和排名,产生推荐结果。本发明克服了过去推荐技术不能完全体现项目特征,粒度不细,准确率不高等缺陷。本发明从用户对已知项目评分和项目内容角度推荐出针对用户个性和项目内容的相似项目,准确地推荐出了与用户所在开发的项目类似的项目内容,实现了个性化推荐功能,为用户参考或重用提供便利,提高了开发人员搜索项目的效率。
搜索关键词: 面向 社区 软件 项目 个性化 推荐 方法
【主权项】:
面向开源社区的软件项目个性化推荐方法,其特征在于如下步骤:(1).提取用户行为的特征向量,针对软件协作开发领域中用户产生的标记——star,跟踪——watch,复制——fork和用户正在开发项目的行为进行提取,并对用户的上述行为赋予权重,分别为1‑标记、3‑跟踪、5‑复制、7‑正在开发,统一标示并组成用户特征向量;(2).软件项目的内容进行分类过滤处理,由于软件项目中包含许多类型的文件,例如:源代码文件、二进制文件、项目介绍文档,需要分类过滤,针对二进制文件,通过连续的ASCII码提取出文字;针对项目介绍文档,通过分词技术提取出单词;针对源代码文件,通过分词先提炼出单词,再将一些停用词过滤,得到每个项目的所有单词;(3).以步骤2中的过滤结果为输入,进行非结构化的特征处理,即使用词频‑逆文档频率TF‑IDF方法提取每个项目的关键词作为项目的特征向量,TF‑IDF是处理自然语言的一种常用方法,词频TF表现了一个单词在一个项目中出现的频繁程度,每个项目的长短有别,需要对词频标准化,逆文档频率IDF表现了一个单词在一个项目中的重要程度,反应了项目的特性,TF×IDF得出各个单词对每个项目的重要性;(4).根据已有数据进行ALS协同过滤的推荐,以步骤1中用户对项目的评分矩阵作为ALS协同过滤的输入,根据用户对已经评价过的几个项目预测用户对每个项目的需求程度,即通过矩阵分解的方法,将用户‑项目评分矩阵X转化为用户‑隐因子A与隐因子‑项目矩阵B,通过交替最小二乘法ALS完成两个矩阵的填充,同时尽量满足用户‑项目评分矩阵X,再由A×B得到用户‑项目评分的预测矩阵X′;(5).根据已有数据进行基于项目内容的推荐,即以步骤1所提供的用户数据和步骤3所提供的项目特征作为内容推荐模型的输入,根据用户目前对每一特征的需求程度来判断新项目的需求程度,并将项目中的关键词权重作为项目的特征,在通过项目特征向量通过余弦相似度计算出项目间的相似度,公式为pj表示项目P1的单词表所组成的向量;给用户推荐和他历史上需求的项目内容相似的项目,计算公式为quj=∑i∈N(u)∩S(j,k)wjirui,N(u)是用户需求项目的集合,Sj,k是和项目j最相似的K个项目的集合,rui是用户u对项目i的评价,同步骤1;(6).将步骤4和步骤5的结果做线性组合操作,并结合项目内容推荐的准确性和ALS推荐所体现的个性化的要求,采用公式Iui=0.618×pui+0.382×qui,得出最终的用户评分;(7).对步骤6的结果进行过滤和排名,即根据每个项目的得分进行排名,同时滤去用户已知项目,产生Top10推荐;(8).对步骤7的Top10项目进行解释,即根据步骤3中这些项目自身的TF‑IDF信息中的前几位结果给项目打上标签,作为最终推荐结果;例如向用户U1推荐项目P1,而单词w1,w3,w6在P1中最具代表性,则将单词w1,w3,w6作为P1的标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于扬州大学,未经扬州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610486067.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top