[发明专利]考虑多参考因素的Stack Overflow重复问题检测方法有效

专利信息
申请号: 201811573937.2 申请日: 2018-12-21
公开(公告)号: CN109615017B 公开(公告)日: 2021-06-29
发明(设计)人: 陈荣;张德成;李博;李霄;李辉;郭世凯;唐文君 申请(专利权)人: 大连海事大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 李馨
地址: 116026 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 考虑 参考 因素 stack overflow 重复 问题 检测 方法
【说明书】:

发明提供一种考虑多参考因素的Stack Overflow重复问题检测方法。本发明提供的技术方案通过对问题进行处理和比较获取各参考信息相似度,充分利用问题本身的各部分信息。采用改进后的人工蜂群算法来确定参数,保证参数求解的正确性。仅使用少部分问题进行训练,减少计算量,保证模型的稳定性。

技术领域

本发明涉及重复问题检测技术领域,具体而言,尤其涉及一种考虑多参考因素的Stack Overflow重复问题检测方法。

背景技术

随着IT技术的普遍应用和网络的普及,技术人员在遇到相关问题时,习惯在网络上发帖提问。随之而来的是技术相关提问网站的兴起,Stack Overflow便是其中的一个。Stack Overflow是一个基于众包思想的技术问答网站,用户在遇到IT相关的问题时,可以再网站上进行提问,描述自己遇到的相关问题,同时也可以贴出自己的代码。对于提出的问题,网站上的所有用户都可以进行解答。这样一来用户往往可以在网站上解决自己遇到的相关问题。但是这种模式下的网站也会遇到一些问题,例如用户间往往会遇到相同问题,在进行提问时可能提出内容相同的问题,这些问题存在的意义较小,浪费了网站的资源影响了网站的运行。对于这部分重复问题,网站现有的手段是对重复问题进行手动标记,网站上高荣誉值的用户可以对问题进行标记,网站的工作人员对标记的问题进行判断是否重复和是否删除。

目前一些研究人员试图解决Stack Overflow重复检测问题,夏鑫等人于计算机科学技术学报中的Multi-Factor Duplicate Question Detection in Stack Overflow一文中首次对Stack Overflow中的重复问题检测进行研究,提出了DupPredictor工具,考虑描述,标题,标签和主题间相似度。M.Ahasanuzzaman于Mining duplicate questions instack overflow提出dupe工具进行重复检测,应用wordnet和命名实体识别工具同时结合逻辑回归模型进行重复问题检测。Wei Emma Zhang于Detecting Duplicate Posts inProgramming QACommunities via Latent Semantics and Association Rules提出PCQADup工具,除了考虑文本信息以外进行关联对开发作为相似度的一个度量标准。

上述提到的重复问题检测时都考虑到多种参考因素,对于要考虑的多种参考因素主要分为使用分类算法和分配权重两种方法来进行组合利用。其中使用分类的方法时,要进行分类器训练,使用数据集中大部分数据才能保证效果,对数据集的大小有一定的要求,另外数据集变化时需要重新训练分类器,另外属性较多时往往需要更长的计算时间。而在分配权重方法中,虽然训练集数据较少,参数分布较为稳定,但求解参数使用贪婪算法,存在参数未能求解最优的情况,另外该方法中考虑因素较少,考虑不全面。

发明内容

根据上述提出的技术问题,而提供一种考虑多参考因素的Stack Overflow重复问题检测方法。

本发明采用的技术手段如下:

一种考虑多参考因素的Stack Overflow重复问题检测方法,包括如下步骤:

S1、从Stack Overflow历史问题数据集中挑选出重复问题与正常问题构建数据集,从数据集中筛选出本身包含参考信息并且原问题非空的重复问题作为有效重复问题,所述参考信息包括:描述、标题、标签信息,所述正常问题包括重复问题的原问题;

S2、对数据集中有效重复问题和正常问题各中各参考信息进行预处理,将各参考信息转化为向量形式;

S3、计算预处理后的有效重复问题与正常问题间各参考信息的相似度;

S4、对预设数量的一部分有效重复问题构建训练集,通过人工蜂群算法计算各参考信息所占权重,并通过添加问题的召回率和排名信息的目标函数判断权重分配的优劣,得到相似度模型;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811573937.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top