[发明专利]一种基于教育知识图谱的问答分析与处理方法及系统有效
申请号: | 201810637048.1 | 申请日: | 2018-06-20 |
公开(公告)号: | CN108846104B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 余胜泉;陈锡洋;陈鹏鹤;卢宇 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06Q50/20 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 教育 知识 图谱 问答 分析 处理 方法 系统 | ||
1.一种基于教育知识图谱的问答分析与处理方法,其特征在于,包括以下步骤:
第一步,人工构建教育知识图谱,并设计匹配规则;
第二步,接收用户的自然语言;
第三步,采用知识点与关系抽取算法处理自然语言问句,抽取出知识点、关系及知识点与关系两者的次序信息;
第四步,在第一步设计出的匹配规则中寻找能与第三步抽取出的知识点、关系及知识点与关系两者的次序信息相对应的匹配规则;
第五步,根据第三步抽取出的知识点、关系及知识点与关系两者的次序信息及第四步的匹配规则在教育知识图谱中检索答案;
第六步,根据第五步检索出的答案,按照主谓宾的方式组合答案并反馈给用户,如果答案为空则提示用户重新提问;
所述第三步,采用知识点与关系抽取算法处理自然语言问句,抽取出的知识点、关系及知识点与关系两者的次序信息为:当问题涉及的是知识点N1的e1关系所对应的推理答案时需要在问句中提取出知识点N1、关系e1、及N1与e1的位置次序关系信息,具体实现如下:
(1)将教育知识图谱中的所有节点和边按照词组的长度进行倒序排序,形成倒序词组表,教育知识图谱中的节点和边都是知识点;
(2)基于(1)中的词组表,依次检测自然语言问句中包含词组表中哪些词,定位出词组X在自然语言问句中的起始位置下标Ax、终止位置下标Bx,定位出词组Y在自然语言问句中的起始位置下标Ay、终止位置下标By,过程中保证抽取出的任意词组X、Y的位置下标构成的区间[Ax,Bx]、[Ay,By]不重叠;
(3)将(1)(2)中抽取出的词组X、Y和其在教育知识图谱中的节点N或边e的标识信息组成元组(X,N)、(Y,e),按节点N或边e在问句中的出现次序组成列表[(X,N)(Y,e)],最后将所述列表返回;
所述第四步,寻找匹配规制具体如下:
各规则互为互斥关系:
规则1:由知识点N1及一个以N1为尾节点的关系e1检索出知识点N2,此时N2满足N1+e1=N2;
规则2:由知识点N2及一个以N2为头结点的关系e1检索出知识点N1,此时N1满足N1+e1=N2;
规则3:由知识点N1及知识点N2检索出关系e1,此时e1满足N1+e1=N2;或检索出关系e2,此时e2满足N2+e2=N1;
规则4:由知识点N1及一个关系e3检索出知识点N3,此时满足N2+e3=N3、N1+e1=N2、e1的定义为“包括”或“子过程”;
规则5:由知识点N2及一个关系e1检索出知识点N3,此时满足N1+e1=N3、N1+e2=N2、e2的定义为“属于”或“父过程”;
规则6:由知识点N1及两个关系e1,e2检索出知识点N3,此时满足N1+e1=N2、N2+e2=N3;
规则7:由知识点N1及一个关系e4检索出知识点N3,此时满足N3+e3=N2、N1+e1=N2、e3+e1=e4,e3+e1=e4定义为:通过关系e3与e1定义出一种新的关系e4。
2.一种实现基于教育知识图谱的问答分析与处理方法的系统,其特征在于:包括教育知识图谱的构建模块、问题预处理模块、问答分析与处理模块、后处理模块,其中:
教育知识图谱的构建模块:根据中小学课程标准、教材及知识点目录框架人工进行知识点与关系的提取,采用自底向上数据驱动对中小学的生物、数学、地理、物理、化学学科进行设计形成各自知识图谱;
问题预处理模块:对接收的用户的自然语言问句进行预处理,通过对问句的语义分析,将非结构化问句解析成结构化的知识信息,具体实现为:首先,需要根据建好的模糊词库更正语音识别结果中的错误的字词;然后,利用知识点与关系抽取算法抽取出问题中的知识点相关信息;所述模糊词库的构建过程:请不同口音的10个人对知识图谱中的每个知识点及关系都进行不少于10次的语音识别测试收集识别错误的词语,将语音识别错的词语和对应的正确词语进行整理来构建模糊词库;
问答分析与处理模块:将设计好的教育知识图谱以图数据库形式进行存储;然后设计定义面向教育知识图谱的匹配规则,根据问题预处理模块提取出的知识点、关系及两者的次序信息寻找匹配规则,然后根据匹配规则在教育知识图谱中检索答案,输出答案或空值;
后处理模块:根据问答分析与处理模块的输出做相应处理,当问答分析与处理模块输出答案时后处理模块会以主语+谓语+宾语的形式将答案组合成完整语句后反馈给学习者;当问答分析与处理模块输出空值时,后处理模块会提示用户“请重新提问”,保证整个问答流程的流畅进行;
所述问题预处理模块中,知识点与关系抽取算法实现为:
(1)将教育知识图谱中的所有节点和边按照词组的长度进行倒序排序,形成倒序词组表,教育知识图谱中的节点和边都是知识点;
(2)基于(1)中的词组表,依次检测自然语言问句中包含词组表中哪些词,定位出词组X在自然语言问句中的起始位置下标Ax、终止位置下标Bx,定位出词组Y在自然语言问句中的起始位置下标Ay、终止位置下标By,过程中保证抽取出的任意词组X、Y的位置下标构成的区间[Ax,Bx]、[Ay,By]不重叠;
(3)将(1)(2)中抽取出的词组X、Y和其在教育知识图谱中的节点N或边e的标识信息组成元组(X,N)、(Y,e),按节点N或边e在问句中的出现次序组成列表[(X,e)(Y,e)],最后将所述列表返回。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810637048.1/1.html,转载请声明来源钻瓜专利网。