[发明专利]一种基于群体评论的开源软件推荐方法有效
申请号: | 201510617003.4 | 申请日: | 2015-09-21 |
公开(公告)号: | CN105389329B | 公开(公告)日: | 2019-02-12 |
发明(设计)人: | 王怀民;王涛;尹刚;伍名;侯翔;杨程;史殿习;刘惠;丁博;史佩昌;湛云;张洋 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/951 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 群体 评论 软件 推荐 方法 | ||
一种能够基于群体评论对开发者正在开发的软件项目进行有效的组合软件推荐方法,包括获取开源数据,对所述项目和评论文档标签进行预处理;提取用户本地项目特征,利用评论文档标签、标题和项目名称、标签,对项目和评论文档进行匹配;计算本地项目与采集的开源项目的相似性和相关性;对相关性和相似性进行线性加权求和,为用户生成项目推荐列表。本发明可以与开发者的软件开发环境集成,提高开发者对互联网范围内相关软件的检索效率,并从推荐的软件项目获得技术支持或者实现软件重用。
技术领域
本发明涉及一种开源软件项目自动化推荐的方法,尤其涉及在互联网开源社区中存在大量开源软件项目的条件下,一种能够基于群体评论对开发者正在开发的软件项目进行有效的组合软件推荐方法。
背景技术
随着计算机技术的快速发展和革新,尤其是互联网技术的兴起,软件已经渗入人们购物、交流、学习、生活等各个方面。2011年,著名风险投资人以及网景创始人托马斯.舒尔茨发表文章称“软件正在吞噬整个世界”。实际上,在此过程中开源软件扮演着关键角色,其以丰富开放的软件资源、开发者资源以及知识资源被越来越多的软件企业及个人所依赖。以Google为代表的大型互联网公司积极参与、引导并借鉴开源资源推导项目发展,而一些中小型企业则依赖和复用开源模块实现高质量的软件开发和发布。充分、高效的利用开源软件资源已经成为互联网软件企业持续保持竞争力的关键因素。
开源软件迅速发展,一方面为开发者提供了大量可复用资源,缩短了软件开发过程中的开发时间和成本,给软件开发者带来了极大的便利;另一方面,开源软件规模巨大,数量高速增长且分布广泛,同时还在不断演化。面对海量的软件资源,用户很难从中快速准确检索到自己真正需要的软件资源,对开源软件资源的利用效率反而下降,这就是所谓的信息过载。目前,针对这个问题的办法之一就是以搜索引擎为代表的信息检索系统,比如Google、Baidu等,它们在帮助用户获取信息方面发挥着极其重要的作用。但使用搜索引擎的不同用户在使用同一个关键词检索时,得到结果是相同的,而用户需求却是多元化和个性化的,通过以搜索引擎为代表的信息检索系统获得的结果不能满足用户的个性化需求,无法很好的解决软件资源信息过载的问题。因此,开源生态系统急需一种新型技术来解决开源软件资源的快速定位问题。
发明内容
本发明要解决的技术问题是:针对现有互联网软件信息检索技术的不足,提出一种基于互联网开源社区中群体评论的开源软件自动推荐方法。该方法将分布在互联网软件社区各类软件资源有效集成,通过对大规模开发者群体和用户群体对开源资源的评论进行深度分析和挖掘,为开发者推荐最相关的开源资源,使软件开发人员能够快速利用更大范围的相关软件信息和资源进行高效开发。
本发明的技术方案包括以下步骤:
步骤101、建立开源软件数据服务器SDS(Software Data Server),采用通用的Web爬虫技术从互联网的主要开源社区中采集开源软件资源信息数据,包括开源软件项目数据和评论文档数据,所述项目数据包括开源软件的项目名称、项目标签、项目主页,评论文档数据包括文档标题和文档标签。
步骤102、获取用户本地开发项目p的特征,主要包括本地项目名称和本地项目标签,并提取SDS中已采集获得的项目名称、项目标签和文档标题、文档标签,对本地开发项目及SDS中采集的项目与评论文档进行关联匹配。
步骤103、计算SDS中每一个项目q与本地开发项目p的标签文本相似性,标签文本表示为由项目标签组成的单词集合,提取项目p与项目q的项目标签,并将其表示为由自身标签组成的标签集合Tp和Tq,利用公式计算项目p与项目q的标签文本相似性。
步骤104、计算SDS中每一个项目q与项目p的相关性,根据步骤102中的关联匹配结果将项目p和q表示为向量vp和vq,向量的每一维表示与之相关联的评论文档,向量值表示匹配权重,根据余弦相似性公式:计算相关性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510617003.4/2.html,转载请声明来源钻瓜专利网。