[发明专利]一种面向汉语国际教育的智能导学方法在审
申请号: | 201810632982.4 | 申请日: | 2018-06-20 |
公开(公告)号: | CN109062939A | 公开(公告)日: | 2018-12-21 |
发明(设计)人: | 任亚峰;任函;姬东鸿;吕晨 | 申请(专利权)人: | 广东外语外贸大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推理 文本 图谱 国际教育 智能 问答式 汉语 语义 关系向量 领域知识 逻辑结构 实体关系 图谱构建 推理模型 有效支持 语料收集 知识发现 推导 构建 自举 应用 注意力 抽取 答案 研究 联合 | ||
1.一种面向汉语国际教育的智能导学方法,其特征在于:该面向汉语国际教育的智能导学方法具体步骤如下:
S1:领域知识图谱构建,具体如下:
1)构建过程:
通过以下三个步骤构建领域知识图谱:第一步,利用网络爬虫采集教学资源和网络百科知识语料;第二步,从教学大纲、教案、教材、试题库抽取知识点和知识点关系,构建整个知识图谱的核心;第三步,通过网络百科语料扩展学科知识图谱;
2)语料收集:
教学资源可分为两类,第一类是具有较强结构化特征的教学大纲,第二类是与教学大纲高度相关的其他教学资源,包括教案、教材、试题库等,这类教学资源详细描述了知识点以及知识点之间的关联信息,教学资源一般由领域专家手工创建,具有专业性强、准确率高等特点,
通过收集汉语国际教育教学资源,以抽取知识点之间的关联信息,从而构建整个领域知识图谱的核心,
除教学资源外,还将从开放的网络百科知识库中抽取领域知识百科知识语料属于互联网上开放的知识文本数据,具有规模庞大、不断更新扩展的特点,中文的百科知识语料主要来源有中文维基百科、百度百科、搜狗百科等,这类知识百科文本一般具有较高的质量和半结构化的特点,是知识图谱扩充的重要来源,同时采用迭代方式扩充知识图谱,即首先利用知识图谱核心中的实体及实体关系,在百科知识库中进行搜索,抽取搜索结果中的实体及实体关系,然后再利用扩充的实体及实体关系进行再次搜索,从而不断扩充整个知识图谱;
3)基于自举的实体及实体关系联合识别:
实体和实体关系的抽取是知识图谱构建的核心内容,决定着知识图谱的质量,传统的实体和实体关系抽取通常需要标注大量的训练数据,或者人工提供种子实体、种子关系等;
S2:文本推理模型,在深度文本推理模型中,输入为一个语段T及一个假设H,在关系向量计算阶段,首先利用实体及实体关系联合识别模型对T和H中的实体进行识别,并将其表示为词向量,然后,利用卷积神经网络进行关系向量计算以获取关系向量,在知识推理阶段,模型利用知识图谱计算词向量和关系向量的语义向量并进行拼接,以获取实体及其关系的整体语义向量表示,随后,词向量、关系向量及整体语义向量表示被输入基于注意力机制的LSTM模型中,以学习(T,H)对的总体向量表示,最后,(T,H)对的总体语义表示被输入一个逻辑斯蒂回归分类器中,判断(T,H)对的蕴涵关系(蕴涵或非蕴涵),具体如下:
1)关系向量计算:
关系向量计算的任务是利用神经网络模型计算实体关系的低维度向量表示,其目的在于更好地表示句子中的语义信息,首先需要对文本中的实体及实体关系进行识别,然后,对实体关系进行向量化表示,
对于实体及实体关系识别,可采用前面提到的联合识别模型进行处理。例如,语段T,需要识别出实体“莫言”、“斯德哥尔摩”,以及对应的实体关系“前往”,用三元组表示为(莫言,前往,斯德哥尔摩),
对于关系的向量表示,Zhang等人提出了一种基于深度神经网络的关系表示模型,在该模型中,文本的每个关系被表示为词特征和位置特征,其中词特征由句子中全部词的词向量组合而成,位置特征由关系词与存在该关系的两个词的相对位置组成,例如,对于(莫言,前往,斯德哥尔摩),“前往”对于“莫言”和“斯德哥尔摩”的相对位置为-5和3,为表示位置信息,相对位置的数值被映射至一个随机初始化的矩阵d,最终,“前往”的位置特征可表示为[d(-5),d(3)],然后,经过卷积操作和最大池化过程,并使用激活函数进行计算,最终得到关系的向量表示;
2)知识推理:
知识推理的任务是,利用知识图谱获取实体及实体关系的语义向量表示,其目的在于挖掘语段与假设中的复杂语义关系并表示为向量,从而将推理问题转化为表示学习问题,
在文本推理的任务中,假设H往往无法从语段T中直接得出,其原因在于T中包含了复杂的语义关系,需要进行一系列的推理,例如,假设H所包含的事实(通过实体关系三元组表示):
(瑞典皇家科学院,位于,斯德哥尔摩)
需要从语段T中所包含的事实经过推理得出:
(莫言,前往,斯德哥尔摩)
(莫言,领取,诺贝尔文学奖)
(瑞典皇家科学院,颁发,诺贝尔文学奖)
知识图谱中包含大量的实体关系,可形成丰富的推理规则,为文本推理提供支持,然而,直接利用实体关系生成的推理规则可能导致歧义问题,产生推理错误,为此,本项目将知识图谱中的实体及实体关系表示为语义向量,其理由很明显:基于全局的语义表示能够在一定程度上避免歧义,
采用PTransE模型对知识图谱中的实体及实体关系进行表示,该模型提出一种考虑关系路径的表示学习方法,类似于r1+r2=r3,这与推理规则的形式非常相似,换言之,基于PTransE的知识表示实际上就是对推理规则的表示,并且由于关系表示的结果(即Embedding)可直接进行计算,等价于进行多步推理,能够有效避免因推理步骤复杂导致的歧义和错误,
经过上述步骤,知识图谱中的实体及实体关系被表示为向量,接下来,我们只需找出语段T及假设H在知识图谱中对应的实体及实体关系,即可获得T和H中实体及实体关系的语义表示,采用启发式规则进行搜索,对于T和H中的实体,可以直接在知识图谱的实体集中搜索匹配的字符串,若找到,则将知识图谱中实体的语义向量直接赋值给该实体;若未找到,则将该实体的向量置为0,对于T和H中的关系,仍可以采用上述办法进行,然而,由于复杂的关系往往包含多个词,采用上述方法可能导致匹配失败,为此,采用一种宽松的办法,即以关系中全部词的词向量的平均值作为该关系的语义向量表示,然后计算该关系与知识图谱中关系的余弦相似度,选择知识图谱中相似度最小且超过阈值的关系,并将其语义向量赋值给T和H中的关系;
3)基于注意力的LSTM模型:
基于注意力的LSTM模型的任务是,利用词向量、关系向量及语义向量表示计算(T,H)的总体向量表示,并利用分类器得到最终的推理判断,采用LSTM模型的理由是,相比其它神经网络模型,LSTM使用了记忆单位存储远距离的信息,因此更适合处理实体及实体关系相距较远的情况,此外,还将采用注意力模型,其目的在于加强T和H中推理关系的对应,从而更好地模拟推理过程,
为此,可以使用两个LSTM,分别用于处理语段和假设,采用的注意力模型描述如下:
α=softmax(wTM)
r=YαT
其中,Wy和Wh为投影矩阵,Y为语段LSTM的输出向量[h1,h2,...,hL]构成的矩阵,L为语段T的长度,eL为两个LSTM处理后的第一个输出向量,hN为最后输出向量,α为注意力权重,w为训练参数向量,r加权注意力向量表示,表示重复操作,其次数为语段T的长度,即L,M为注意力表示矩阵,M的第i列即为语段T的第i个实体或实体关系的注意力权重与w的组合,
最终,(T,H)的向量表示为语段T的加权注意力向量表示r与最后输出向量hN的非线性组合:
h*=tanh(Wpr+WxhN);
S3:问答式导学方法,问答式导学系统包括问句分析、文本检索、答案抽取和知识导学四个模块,其中,问句分析模块对问句进行预处理,包括分词、词性标注、句法分析等,然后利用知识图谱进行问句扩展,以扩充文本检索的搜索内容;同时,进行实体及实体关系识别,用于基于知识图谱的搜索中;模块还进行问句类型分析,用于答案验证,文本检索模块包括知识图谱搜索以及文档和段落检索,前者利用问句中的实体及实体关系发现与问句类型相同的实体或实体关系,然后再经过答案验证以判定是否为正确答案;后者利用问句扩展结果在采集语料和网络资源中搜索可能的文档及相关段落,答案抽取模块利用文本推理方法将段落搜索结果中的各句进行排序,在排名靠前的句子中根据问句类型抽取答案,并利用文本推理方法进行答案验证;最后,高置信度的答案输出作为结果,知识导学模块获取最终答案结果,利用知识图谱搜索与之相关的实体及实体关系,并在收集语料和网络资源中搜索相关信息返回给用户,为实现,还需要研究:基于知识图谱的问句扩展,基于文本推理的答案抽取和基于知识图谱的相关知识发现,
1)基于知识图谱的问句扩展:
问句扩展的任务是利用知识图谱对问句中相关实体及实体关系进行替换,以扩充查询实例,经过扩充后,文本检索的输入由单一查询扩展为查询集合,能够扩大搜索范围,从而改进检索的召回率,
采用基于知识图谱的问句扩展算法,其中,实体相关度计算方法采用基于词向量的相似度计算方法,利用百科知识语料构建词向量,并计算词汇蕴涵相似度,该算法的特点在于:将实体相似性度量转化为有向的词汇蕴涵相似性度量,保证了实体扩充的语义方向,避免语义漂移;严格的关系匹配能够对关系扩充进行约束,提高关系扩充的准确性;
2)基于文本推理的答案抽取:
答案抽取的任务是对检索结果中的句子进行排序,抽取答案并进行验证,答案抽取包括答案句排序和答案验证两部分,
本系统采用基于文本推理的方法,即首先将检索结果中的每个句子与问句利用文本推理判断是否存在推理关系,并根据蕴涵度进行排名;当问句为事实型(factoid)问题时,选择排名靠前的N个句子,抽取其中与问句类型相同的词、短语或实体,然后填充至原问句,再利用文本推理计算填充后的问句与抽取词所在句子的蕴涵度,最后选择蕴涵度最高的修改问句,其所填充的词、短语或实体即为原问句的答案;当问句为复杂(complex)问题时,直接输出排名第一的句子作为答案,若答案抽取至知识图谱,则仍采用事实型问题的处理方法;
3)基于知识图谱的相关知识发现:
相关知识发现的任务是,找出与答案相关的知识点,为用户提供学习参考,采用基于知识图谱和实体相关度计算的方法:即利用知识图谱找出与答案密切相关的实体(如相邻的实点)作为相关知识点,同时利用问句扩展中采用的实体相关度计算方法找出意义包含在答案中的实体作为下级知识点,然后,系统从现有教案、教材、试题库及网络百科知识库中搜索该知识点的相关内容,并返回给学习者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东外语外贸大学,未经广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810632982.4/1.html,转载请声明来源钻瓜专利网。