[发明专利]一种编程教育知识图谱构建、补全与智能问答的方法在审
申请号: | 202111491707.3 | 申请日: | 2021-12-08 |
公开(公告)号: | CN114238653A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 冯博;王丽苹;宋培东;李逸飞;周琪丰 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/242;G06F40/295;G06N3/04;G06Q50/20 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 编程 教育 知识 图谱 构建 智能 问答 方法 | ||
1.一种编程教育知识图谱构建、补全与智能问答的方法,其特征在于,该方法包括以下具体步骤:
步骤1:构建一个包含程序设计基础、数据结构、算法课程知识的编程垂直领域知识图谱,具体包括:
A1:借助书籍、网站结构化知识源,从中提取本体模式和知识点,用自顶向下的构建方式得到本体约束,构建本体约束五步法:确定本体的专业领域和范畴、列出本体中的重要术语、定义类和类的层次关系、定义类的属性、定义类之间的关系;
A2:将编程领域书籍、网站的知识文本语料中每句知识点作为一条语料数据,人工标注每条语料数据包含的实体,这些语料数据构成语料数据集,采用标注方法BIO对数据进行标注,即注明句子中每个字是知识点术语实体的开头、知识点术语的中间或其他非知识点术语词汇,将语料中整理出的知识点术语实体整合得到知识点术语词典;
A3:使用模型BiLSTM-CRF结合步骤A2构建的知识点术语词典进行实体匹配识别,即双向LSTM网络作为特征提取器,序列化标注算法CRF进行命名实体识别输出;
A4:人工从编程领域书籍、网站知识库中提取实体、关系,结合步骤A3识别的实体,组成头实体-关系-尾实体形式的结构化文本;
A5:将步骤A4得到的结构化文本按照步骤A1构建的本体约束存入Neo4j数据库作为数据层,数据层得到一个包含程序设计基础、数据结构、算法课程知识的编程垂直领域知识图谱;
步骤2:基于节点中心性判别的知识图谱质量评估算法,查找步骤1构建的知识图谱的不完善之处,具体包括:
B1:节点重要程度即权重用NI值表示,如果节点A指向节点B,将B的NI值加在A的NI值上,每次计算出的NI值用于下一轮迭代,直到两次迭代间的误差小于阈值;
B2:统计知识图谱每个节点定义的有无、数据结构相关操作的个数、运算操作代码的有无、知识点关联题目的个数,根据统计结果计算得分;
B3:将步骤B1计算得到的节点NI值和步骤B2统计得分做乘法,得到最终节点完善程度得分,得分低的实体即为知识图谱中不完善处;
步骤3:对步骤2查找出的知识图谱不完善之处进行补全,具体包括:
C1:对于步骤B3计算出的完善程度得分低的节点,数据管理员优先在Neo4j图数据库中进行补全;
C2:对于缺失情况繁杂、补全任务庞大的,通过众包方案予以解决,即数据管理员在搭建的众包平台上发布添加题目、添加节点、修改节点及其他四类任务,交由用户解决,用户在使用平台中主动在众包平台发布补全方案;
C3:管理员对步骤C2用户在众包平台发布的补全方案进行审核、通过,管理员根据通过的补全方案对知识图谱进行补全,得到一个完善的包含程序设计基础、数据结构、算法课程知识的编程垂直领域知识图谱;
步骤4:构建智能问答系统所依托的模板库,具体包括:
D1:从以自然语言形式提问的百度知道平台上爬取原始问题语料数据,对原始数据进行清洗,剔除问句中无实际意义部分:包括特殊符号、重复标点、客套催促短语及语气词;
D2:同类问句间语义和结构有共性、只有主题词不同,对步骤D1预处理后的问句进行主题词遮盖,对遮盖主题词后的问句数据用模型Bert将文本转化成定长向量,提取特征,用K均值算法和紧邻传播聚类算法进行文本聚类,同类相似问句结构归为一类;
D3:对步骤D2文本聚类而得的每一类问句定义模板的格式,包含问句模板和答案模板,根据该类问句特征将问句转化为在步骤C3构建的知识图谱中进行查找的cypher语句,cypher语句返回的结果填入答案模板,完成模板库的构建;
步骤5:进行问答系统的验证,具体包括:
E1:人工提取知识图谱中知识点,构建知识点实体词典,使用HanLP分词工具对问句进行分词、序列标注及预测单词类型,问句中匹配实体词典的知识点实体标注为特殊词性;
E2:向量化步骤E1知识点实体词典中的实体和步骤E1分词问句得到的单词,计算二者相似度进行实体链接匹配;
E3:对经实体链接后的问句与步骤D3构建的模板库中的问句模板计算相似度,进行模板匹配,若匹配度大于预设阈值,则模板匹配成功,否则选取默认模板作为匹配结果,根据模板给出的cypher语句在知识图谱中查找,返回的答案填入答案查询,得到问句的回答。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111491707.3/1.html,转载请声明来源钻瓜专利网。