[发明专利]一种编程教育知识图谱构建、补全与智能问答的方法在审

专利信息
申请号: 202111491707.3 申请日: 2021-12-08
公开(公告)号: CN114238653A 公开(公告)日: 2022-03-25
发明(设计)人: 冯博;王丽苹;宋培东;李逸飞;周琪丰 申请(专利权)人: 华东师范大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/242;G06F40/295;G06N3/04;G06Q50/20
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 编程 教育 知识 图谱 构建 智能 问答 方法
【权利要求书】:

1.一种编程教育知识图谱构建、补全与智能问答的方法,其特征在于,该方法包括以下具体步骤:

步骤1:构建一个包含程序设计基础、数据结构、算法课程知识的编程垂直领域知识图谱,具体包括:

A1:借助书籍、网站结构化知识源,从中提取本体模式和知识点,用自顶向下的构建方式得到本体约束,构建本体约束五步法:确定本体的专业领域和范畴、列出本体中的重要术语、定义类和类的层次关系、定义类的属性、定义类之间的关系;

A2:将编程领域书籍、网站的知识文本语料中每句知识点作为一条语料数据,人工标注每条语料数据包含的实体,这些语料数据构成语料数据集,采用标注方法BIO对数据进行标注,即注明句子中每个字是知识点术语实体的开头、知识点术语的中间或其他非知识点术语词汇,将语料中整理出的知识点术语实体整合得到知识点术语词典;

A3:使用模型BiLSTM-CRF结合步骤A2构建的知识点术语词典进行实体匹配识别,即双向LSTM网络作为特征提取器,序列化标注算法CRF进行命名实体识别输出;

A4:人工从编程领域书籍、网站知识库中提取实体、关系,结合步骤A3识别的实体,组成头实体-关系-尾实体形式的结构化文本;

A5:将步骤A4得到的结构化文本按照步骤A1构建的本体约束存入Neo4j数据库作为数据层,数据层得到一个包含程序设计基础、数据结构、算法课程知识的编程垂直领域知识图谱;

步骤2:基于节点中心性判别的知识图谱质量评估算法,查找步骤1构建的知识图谱的不完善之处,具体包括:

B1:节点重要程度即权重用NI值表示,如果节点A指向节点B,将B的NI值加在A的NI值上,每次计算出的NI值用于下一轮迭代,直到两次迭代间的误差小于阈值;

B2:统计知识图谱每个节点定义的有无、数据结构相关操作的个数、运算操作代码的有无、知识点关联题目的个数,根据统计结果计算得分;

B3:将步骤B1计算得到的节点NI值和步骤B2统计得分做乘法,得到最终节点完善程度得分,得分低的实体即为知识图谱中不完善处;

步骤3:对步骤2查找出的知识图谱不完善之处进行补全,具体包括:

C1:对于步骤B3计算出的完善程度得分低的节点,数据管理员优先在Neo4j图数据库中进行补全;

C2:对于缺失情况繁杂、补全任务庞大的,通过众包方案予以解决,即数据管理员在搭建的众包平台上发布添加题目、添加节点、修改节点及其他四类任务,交由用户解决,用户在使用平台中主动在众包平台发布补全方案;

C3:管理员对步骤C2用户在众包平台发布的补全方案进行审核、通过,管理员根据通过的补全方案对知识图谱进行补全,得到一个完善的包含程序设计基础、数据结构、算法课程知识的编程垂直领域知识图谱;

步骤4:构建智能问答系统所依托的模板库,具体包括:

D1:从以自然语言形式提问的百度知道平台上爬取原始问题语料数据,对原始数据进行清洗,剔除问句中无实际意义部分:包括特殊符号、重复标点、客套催促短语及语气词;

D2:同类问句间语义和结构有共性、只有主题词不同,对步骤D1预处理后的问句进行主题词遮盖,对遮盖主题词后的问句数据用模型Bert将文本转化成定长向量,提取特征,用K均值算法和紧邻传播聚类算法进行文本聚类,同类相似问句结构归为一类;

D3:对步骤D2文本聚类而得的每一类问句定义模板的格式,包含问句模板和答案模板,根据该类问句特征将问句转化为在步骤C3构建的知识图谱中进行查找的cypher语句,cypher语句返回的结果填入答案模板,完成模板库的构建;

步骤5:进行问答系统的验证,具体包括:

E1:人工提取知识图谱中知识点,构建知识点实体词典,使用HanLP分词工具对问句进行分词、序列标注及预测单词类型,问句中匹配实体词典的知识点实体标注为特殊词性;

E2:向量化步骤E1知识点实体词典中的实体和步骤E1分词问句得到的单词,计算二者相似度进行实体链接匹配;

E3:对经实体链接后的问句与步骤D3构建的模板库中的问句模板计算相似度,进行模板匹配,若匹配度大于预设阈值,则模板匹配成功,否则选取默认模板作为匹配结果,根据模板给出的cypher语句在知识图谱中查找,返回的答案填入答案查询,得到问句的回答。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111491707.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top