[发明专利]考虑多参考因素的Stack Overflow重复问题检测方法有效

专利信息
申请号: 201811573937.2 申请日: 2018-12-21
公开(公告)号: CN109615017B 公开(公告)日: 2021-06-29
发明(设计)人: 陈荣;张德成;李博;李霄;李辉;郭世凯;唐文君 申请(专利权)人: 大连海事大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 李馨
地址: 116026 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 考虑 参考 因素 stack overflow 重复 问题 检测 方法
【权利要求书】:

1.一种考虑多参考因素的Stack Overflow重复问题检测方法,其特征在于,包括:如下步骤:

S1、从Stack Overflow历史问题数据集中挑选出重复问题与正常问题构建数据集,从数据集中筛选出本身包含参考信息并且原问题非空的重复问题作为有效重复问题,所述参考信息包括:描述、标题、标签信息,所述正常问题包括重复问题的原问题;

S2、对数据集中有效重复问题和正常问题各中各参考信息进行预处理,将各参考信息转化为向量形式;

S3、计算预处理后的有效重复问题与正常问题间各参考信息的相似度;

S4、对预设数量的一部分有效重复问题构建训练集,通过人工蜂群算法计算各参考信息所占权重,并通过添加问题的召回率和排名信息的目标函数判断权重分配的优劣,得到相似度模型;

S5、将预设数量的另一部分有效重复问题构建的测试集输入相似度模型中,对测试集中的每个重复问题和正常问题进行相似度计算,获取n个相似度分数最高的重复问题,进而判断获取的n个重复问题是否包含原问题,如果包含则为成功召回;

所述步骤S4中,改进后的人工蜂群算法基于传统ABC算法进行改进,其具体为:

输入各参考信息的相似度,设定改进后的人工蜂群算法,包括:初始蜂群数目,迭代次数,最大搜索限制,

1)根据式(1)初始化种群解xi,i=1,2,…,SN:

xij=xmin,j+rand(0,1)(xmax,j-xmin,j) (1)

i为初始化解的数目,j为向量的维度,即参考因素的数量,这里维度为6,xi为求解的参数向量;

2)计算种群中各蜜蜂的适应值,其中,适应度选择总体的召回问题数量;

3)cycle=1;

4)repeat;

5)雇佣蜂根据式(2)产生新的解vi并计算适应值:

vij=xijij(xij-xkj) (2)

其中,φ表示0~1的随机数,k表示另外一个解;

6)根据召回问题数量作为第一次比较因素,对召回问题数量相同的两组解进一步比较排序信息,召回问题以相似度排序,排名靠前给与一个高分,通过总的分数进行比较反映解的优劣,式(3)为排名信息计算公式,n为召回的问题数量,rankm为第m个问题的排名信息:

7)根据适应度大小即召回问题数量来计算选择蜜源xi的概率pi:

8)观察蜂根据概率pi选择蜜源xi,根据(2)式在该蜜源附近产生新的蜜源vi,并计算新蜜源vi的适应值;

9)观察蜂根据贪心算法选择蜜源;

10)决定是否存在需要放弃的蜜源,如果存在,根据(1)式随机产生一个蜜源代替它;

11)cycle=cycle+1

12)until cycle=MCN,

13)输出效果最佳的参数向量。

2.根据权利要求1所述的考虑多参考因素的Stack Overflow重复问题检测方法,其特征在于,所述步骤S2中,所述预处理包括:对数据集中的问题进行分词、词干化和去停用词处理。

3.根据权利要求1所述的考虑多参考因素的Stack Overflow重复问题检测方法,其特征在于,所述步骤S3中,计算各参考信息的相似度具体为:

计算标题相似度作为第一参考因素,通过余弦相似度来计算有效重复问题与正常问题间标题单词向量之间的相似程度,其中向量中的每一元素为词汇在标题中的出现频率,对于转换后的向量采用余弦相似度计算相似度;

计算描述相似度作为第二参考因素,通过余弦相似度来计算有效重复问题与正常问题间描述单词向量之间的相似程度,其中向量中的每一元素为该词汇在描述中的出现频率,对于转换后的向量采用余弦相似度计算相似度;

计算标签相似度作为第三参考因素,其中,无需通过步骤S2的预处理,直接提取有效重复问题与正常问题间标签单词组成向量采用余弦相似度计算相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811573937.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top