[发明专利]一种从课件文本自动抽取知识单元间学习依赖关系的方法有效
申请号: | 201610874480.3 | 申请日: | 2016-09-30 |
公开(公告)号: | CN106649259B | 公开(公告)日: | 2019-05-24 |
发明(设计)人: | 魏笔凡;王晨晨;刘均;郑庆华;曾宏伟;姚思雨;吴蓓;石磊;郭朝彤 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22;G06F16/36 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 陆万寿 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种从课件文本自动抽取知识单元间学习依赖关系的方法,通过处理知识单元对应课件中的文本,得到候选术语集合,然后处理候选术语集合中的同义术语,并计算每个术语对知识单元的关键程度,构建出最优化模型,通过求解得到最优化的学习依赖关系抽取模型,能够对课件文本进行自动分析,识别出文本中的术语并计算出术语对知识单元的关键程度,并通过最优化术语之间的关系得到学习依赖关系挖掘的模型,该过程不依赖于学习依赖关系的局部性,能够用来挖掘主题关联较远的知识单元之间的学习依赖关系,为学习者提供更为完整的知识导航服务。 | ||
搜索关键词: | 一种 课件 文本 自动 抽取 知识 单元 学习 依赖 关系 方法 | ||
【主权项】:
1.一种从课件文本自动抽取知识单元间学习依赖关系的方法,其特征在于,包括以下步骤:1)基于互信息的候选术语生成:首先将课件文档转换成文本格式,并进行分词处理;然后利用互信息衡量相邻词汇结合的紧密程度,并对结合紧密的词汇进行合并处理,从而得到候选术语集合;2)基于维基百科的同义术语约减:爬取术语对应的维基百科页面,利用维基百科页面中的重定向标志和多语言链接,对同义术语进行约减处理;3)术语关键程度度量:首先计算每个术语对应的TF‑IDF参数值,然后利用知识单元名称特征和格式特征对TF‑IDF参数值进行加权处理,以此衡量每个术语对知识单元的关键程度;4)最优化模型构建及求解:建立知识单元之间学习依赖关系与术语关系之间的定量表示,将模型求解问题转化为最优化问题,构建出最优化的目标函数,并利用梯度下降算法进行模型求解,完成从课件文本自动抽取知识单元间学习依赖关系;所述步骤3)包括以下步骤:3.1)对候选术语集合CT'中的每一个术语,通过TF‑IDF指标计算其对每个知识单元的基本关键程度,TF‑IDF指标计算公式为:
式中:fij表示术语i在文档dj中的词频;dfi表示术语i的文档词频;N表示文档总数;ni表示文档中出现术语i的文档数;3.2)基于知识单元名称的加权:通过考察术语是否出现在知识单元名称中对原始的TF‑IDF参数进行加权,加权公式为:Namei,j=wname×bi,j,式中:wname表示知识单元名称加权权重;bi,j表示术语i是否出现在知识单元j的名称中;3.3)基于格式特征的加权:通过术语所在位置的字体大小,对术语的关键程度进行加权处理,加权公式如下:
式中:wfont表示字体大小加权权重;k表示知识单元j对应课件中所有不同字体大小;fi,k表示术语i是否以字体大小k出现;rankk表示所有字体大小逆序排序后,字体大小k的排序值;3.4)通过知识单元名称以及课件字体对原始TF‑IDF参数进行综合加权,得到术语关键程度,加权的公式为:scorei,j=wi,j×(1+Namei,j+Fonti,j),式中:scorei,j表示术语i对知识单元j的关键程度;所述步骤4)包括以下步骤:4.1)目标函数构建:对于知识单元i和知识单元j,通过下式衡量它们之间存在学习依赖关系的可能性:
式中:xi是由所有术语对知识单元i的关键程度构成的向量,向量中每一个元素代表相应术语对知识单元i的关键程度;A矩阵代表模型的参数;对知识单元i,设集合Ωi={(i,j)|yij=1,j=1,2,...,n}是所有与知识单元i存在学习依赖关系的知识单元与知识单元i组成的节点对,集合
为所有与知识单元i不存在学习依赖关系的知识单元与知识单元i组成的节点对,令
定义如下最优化问题:
式中:X是一个矩阵,矩阵中第i行由
构成;(1‑v)+代表hinge损失函数;||A||F代表矩阵A的弗罗贝尼乌斯范数;4.2)模型求解:对最优化问题,使用加速梯度下降进行求解:令,
则原目标函数写成:
公式对A求导,得到梯度:
式中:
ei、ej、ek都是单位向量;4.3)学习依赖关系挖掘:通过步骤4.2)得到模型的最优化参数A矩阵,对于任意两个知识单元,通过最优化模型判断它们之间是否存在学习依赖关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610874480.3/,转载请声明来源钻瓜专利网。