[发明专利]一种面向程序设计答疑系统的知识库检索方法在审
申请号: | 201910333734.4 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110297891A | 公开(公告)日: | 2019-10-01 |
发明(设计)人: | 薛景;施寅瑞;孙彤;李洲洋;林丹 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 代码文本 检索 词频 余弦相似度 程序设计 答疑系统 文本匹配 文本属性 度量 权重 算法 预处理 哈希值计算 相似度计算 检索问题 算法融合 文本特征 文本替换 相似程度 向量计算 相似度 准确率 哈希 加权 向量 词汇 存储 文本 学生 | ||
一种面向程序设计答疑系统的知识库检索方法,获取学生检索的问题;系统对检索的问题和知识库中问题进行处理获取代码文本;再对代码文本进行预处理,将文本替换后获取标记串及文本属性度量向量;根据simhash算法对标记串分别进行词频计算,将词汇作为文本特征,词频作为特征的权重,计算出对应权重,并获取标记串的全文哈希值,根据哈希值计算出文本相似程度;根据文本属性度量向量计算出余弦相似度;根据标记串计算出文本匹配度;余弦相似度和文本匹配度通过Sim‑win三权法计算出检索问题与知识库问题中的代码文本相似度,并将知识库中存储的问题由高到低排列。该方法通过加权的方式将sim‑win三权法、Simhash算法和Winnowing算法融合,有效提升了代码文本相似度计算的准确率。
技术领域
本发明属于智能检索技术领域,具体涉及一种面向程序设计答疑系统的知识库检索方法。
背景技术
随着互联网时代的到来,计算机快速发展,逐渐成为炙手可热的话题性行业。现代大学纷纷开设计算机相关专业,培养学生的计算机编程能力。其中,程序设计作为计算机专业的基础课程,在各大高校有着庞大的学生需求。
为了保证学生们作业以及实验项目等内容的时效性,我们需要能够高效快捷地解决学生的问题的方法。而在科学技术飞速发展的今天,教育的方式、辅助手段和工具也发生着日新月异的变化,尤其是计算机在教育教学上的普遍运用,越来越多的学生把网站在线交流作为一种学习的重要方法。
以往经验来看,学生们通常在遇到疑难问题无法解决时会尝试不同的方法,包括:1、上网检索。虽然很多时候学生提出的各种问题能得到网友回复,但是成功解决的概率并不算高,更多的时候无法找到解决方法,尤其代码类问题通常只包含答案,无法给出思路或指导帮助。2、向老师寻求帮助。大学不同于中学,授课老师通常在校时间短,课下寻找老师,时间往往需要调节;如果学生在线上提问,老师又无法保证及时给出回复。
由此可见,程序设计答疑系统的建立是必要的。有了这样的知识库,学生们可以通过输入问题来查找知识库内已经存在的相似问题及其答案,更好的弄懂自己的问题,得到具体的解决方案或建议。
然而,目前常见的知识库检索算法一般只适用于以自然语言组织的问答内容,而在程序设计类课程的答疑系统知识库检索领域,由于课程的特殊性,需要对包含代码片段的问句进行检索。所以当问题文本并非自然语言,而是代码文本的时候。检索的效率往往很低,无法找到自己需要解决的问题的解决方案。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种面向程序设计答疑系统的知识库检索方法,通过加权的方式将sim-win三权法、Simhash 算法和Winnowing算法融合,有效提升了代码文本相似度计算的准确率。
本发明提供一种面向程序设计答疑系统的知识库检索方法,包括如下步骤:
步骤S1、从前端获取学生检索的问题test A;
步骤S2、系统对test A进行处理获取代码文本code A,并对知识库中存储的问题文本tset B进行处理,获取代码文本code B;
步骤S3、对代码文本code A和code B进行预处理,文本替换后获取标记串TA=(v1,v2,…,vn),TB=(u1,u2,…,un),文本属性度量向量AttrA, AttrB;
步骤S4、根据simhash算法对TA和TB分别进行词频计算,将词汇作为文本特征,词频作为特征的权重,计算出对应权重和并获取TA和TB的全文哈希值和并根据哈希值计算出文本相似程度
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910333734.4/2.html,转载请声明来源钻瓜专利网。