[发明专利]考虑多参考因素的Stack Overflow重复问题检测方法有效
申请号: | 201811573937.2 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109615017B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 陈荣;张德成;李博;李霄;李辉;郭世凯;唐文君 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种考虑多参考因素的Stack Overflow重复问题检测方法。本发明提供的技术方案通过对问题进行处理和比较获取各参考信息相似度,充分利用问题本身的各部分信息。采用改进后的人工蜂群算法来确定参数,保证参数求解的正确性。仅使用少部分问题进行训练,减少计算量,保证模型的稳定性。 | ||
搜索关键词: | 考虑 参考 因素 stack overflow 重复 问题 检测 方法 | ||
【主权项】:
1.一种考虑多参考因素的Stack Overflow重复问题检测方法,其特征在于,包括:如下步骤:S1、从Stack Overflow历史问题数据集中挑选出重复问题与正常问题构建数据集,从数据集中筛选出本身包含参考信息并且原问题非空的重复问题作为有效重复问题,所述参考信息包括:描述、标题、标签信息,所述正常问题包括重复问题的原问题;S2、对数据集中有效重复问题和正常问题各中各参考信息进行预处理,将各参考信息转化为向量形式;S3、计算预处理后的有效重复问题与正常问题间各参考信息的相似度;S4、对预设数量的一部分有效重复问题构建训练集,通过人工蜂群算法计算各参考信息所占权重,并通过添加问题的召回率和排名信息的目标函数判断权重分配的优劣,得到相似度模型;S5、将预设数量的另一部分有效重复问题构建的测试集输入相似度模型中,对测试集中的每个重复问题和正常问题进行相似度计算,获取n个相似度分数最高的重复问题,进而判断获取的n个重复问题是否包含原问题,如果包含则为成功召回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811573937.2/,转载请声明来源钻瓜专利网。