[发明专利]开源社区中开发者代码提交次数的预测方法及系统在审

申请号：	202010124146.2	申请日：	2020-02-27
公开（公告）号：	CN111445006A	公开（公告）日：	2020-07-24
发明（设计）人：	曹健;童兰轩;钱诗友	申请（专利权）人：	上海交通大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06Q10/04
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	社区开发者代码提交次数预测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种开源社区中开发者代码提交次数的预测方法及系统，包括：步骤1：构建单位根检验，检验时间序列的平稳性；步骤2：构建LB或Q统计量，检验时间序列的白噪声；步骤3：构建季节性单位根检验，检验时间序列的季节性；步骤4：根据检验结果选择预测模型得到预测结果，所述预测模型包括ARIMA模型、LSTM模型和混合模型。本发明根据不同的时间粒度将开发者代码提交次数数据转变为时间序列，通过时间序列成分分析后，自适应地选择最合适的预测模型，以预测接下来的各个时间粒度中开发者代码提交次数。

技术领域

本发明涉及数据挖掘技术领域，具体地，涉及一种开源社区中开发者代码提交次数的预测方法及系统。

背景技术

开源软件已经成为了目前的软件开发的主流方式。开发者在这些开源社区中以各种方式作出贡献，推动着开源软件的发展。对开发者的代码提交行为进行预测，有助于对开源项目的管理和对人员工作状态的了解。由于每个开发者的代码提交的规律不相同，因此，无法以统一的预测模型应用于所有的开发者。

专利文献CN107644268A(申请号：201710813673.2)公开了一种基于多特征的开源软件项目孵化状态预测方法，包括如下步骤：步骤1收集关于Apache项目的文件提交以及邮件交流的历史数据；步骤2根据项目的前5个月的历史数据，构建项目成员的有向网络；步骤3提取特征数据，包括邮件网络的网络特征以及相关属性特征，作为训练测试数据；步骤4采用支持向量机(SupportVectorMachine，SVM)，的方法对数据进行训练，并构建多特征的开源软件项目孵化状态的预测模型。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种开源社区中开发者代码提交次数的预测方法及系统。

根据本发明提供的开源社区中开发者代码提交次数的预测方法，包括：

步骤1：构建单位根检验，检验时间序列的平稳性；

步骤2：构建LB或Q统计量，检验时间序列的白噪声；

步骤3：构建季节性单位根检验，检验时间序列的季节性；

步骤4：根据检验结果选择预测模型得到预测结果，所述预测模型包括ARIMA模型、LSTM模型和混合模型。

优选地，所述ARIMA模型根据对时间序列的成分分析对参数(p,d,q)进行范围定阶；

其中，p表示自回归项数，d表示滑动平均项数，q表示使该序列成为平稳序列所做的差分次数。

优选地，所述ARIMA模型包括：自回归模型、移动平均模型、移动平均自回归模型、趋势差分移动平均自回归模型和季节性差分移动自回归模型模型。

优选地，所述LSTM模型利用任何成熟实现，包括：基于tensorflow构建的LSTM和基于pytorch构建的LSTM。

优选地，所述混合模型包括ARIMA-LSTM混合模型；