[发明专利]一种基于侧面信息的代码片段编程语言识别方法在审
申请号: | 201610218523.2 | 申请日: | 2016-04-08 |
公开(公告)号: | CN105912648A | 公开(公告)日: | 2016-08-31 |
发明(设计)人: | 吕建;徐锋;李立成 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于侧面信息的代码片段编程语言识别方法,通过对代码片段周围附属的侧面信息,如评论、描述、标签等的分析,构造更为合理的用于代码片段编程语言识别的分类器,从而较好地解决了传统的仅基于源代码本身的识别方法的准确率低下问题。本方法分为两个主要步骤,首先利用关键词增强的多标记学习技术对代码片段周围的文本信息和已知标签进行分析,扩充足够数量的与代码片段相关的标签,之后利用已知编程语言的代码片段和标签训练出贝叶斯分类器,用于对未知编程语言的代码片段进行编程语言识别。在收集于编程社区问答网站StackOverflow的真实数据集上的实验表明,该方法较传统的识别技术具有更高识别准确率。 | ||
搜索关键词: | 一种 基于 侧面 信息 代码 片段 编程 语言 识别 方法 | ||
【主权项】:
一种基于侧面信息的代码片段编程语言识别方法,其特征在于,包括如下部分:首先通过代码片段周围文字解释信息即代码片段的侧面信息对标签信息进行推断补全,然后利用补全之后的标签信息训练识别模型,根据模型预测得到识别出的语言类别;方法实现设计两个技术:一是推断补全标签的技术,即基于文本关键词增强的文本标签推荐技术MATAR;二是利用标签信息识别语言类别的技术,即基于代码片段附属标签的编程语言识别技术SIPLDM‑MATAR。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610218523.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于大数据的用户标签合并方法
- 下一篇:一种信息扩展方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置