[发明专利]一种基于路径质量判别的强化学习知识图谱推理方法有效
申请号: | 202110308273.2 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113190684B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 贾海涛;罗林洁;李嘉豪;任利;许文波;周焕来;贾宇明 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/216;G06F40/295;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06N5/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 路径 质量 别的 强化 学习 知识 图谱 推理 方法 | ||
1.一种基于路径质量判别的强化学习知识图谱推理方法,该方法包括以下步骤:
步骤1:实体描述关键信息提取
实体描述集合Descriptions即为本方法的语料库,每一个实体对应的描述文本为一篇文档;首先TF-IDF算法计算某个词语word在某篇文档description中的词频(TermFrequency,TF),词语word在描述文本description中出现次数越多,那么该词语word可能越能反应description的主题,具有更重要的意义;为防止统计词频时结果偏向总字数多的描述文本,将最终的统计结果进行归一化;最后计算某个词语word在某篇文档description中的词频-逆向文件频率(TF-IDF),得到某个文档中各个词语TF-IDF后进行降序排序即可得到重要程度排名高的词语集合作为该篇描述文本的关键词组;其中词语word在某篇描述文本的TF-IDF值就是其TF值tfword,description和IDF值idfword,description的乘积;完成计算流程后即可得到每篇描述文本的关键词组;
步骤2:类别信息提取
由各类百科作为结构化数据来源的知识图谱的实体本身带有分类相关信息,在NELL-995中,观察可得到其实体格式均为“concept_”加之“类别词_”加之下划线相连接的实体名,其中concept表示该词组为一个概念;使用形式为“concept_*_”的正则过滤出模型需要的类别相关词;接下来提取关系对应的类别信息,来源于各类百科的知识图谱中的关系也有可作为分类依据的前缀描述或详细分级路径;在NELL-995中,数据集中关系有类别词相关的前缀描述,其关系格式为“关系名”或“关系名_inv”,其中后缀“inv”表示为逆向关系;观察到类别词主要为关系名中介词前后内容,使用词性标注后抽取出介词前后重要内容,再对抽取出的数据进行人工调整;
步骤3:基于文本相似度的路径质量评估
智能体通过路径path=(eh,r1,e1,r2,e2,...,rm,em,rm+1,etarget)从头实体eh到达目标尾实体etarget,对应的路径实体集合即智能体到达尾实体前经过的实体,具体为entities={e1,e2,...,em};提取出查询中头实体的描述信息的关键词,从维基百科爬取实体描述信息,并基于TF-IDF进行关键词提取,关键词集合具体为words={word1,word2,...,wordn};得到了路径实体集合与头实体描述信息关键词集合之后,我们需要计算两者之间的语义相似度;针对两个词语集合,我们以Word2Vec作为文本表示模型,以cosine距离为相似度度量方法,计算出词组之间的相似度矩阵;路径实体集合所包含的实体个数为m,头实体描述信息的关键词集合所包含的实体个数为n,两个词组之间的相似度可由一个m×n维的相似度矩阵Xi=1,2,...,m;j=1,2,...,n表示,矩阵中的元素Xij为路径实体集合中的实体ei和头实体描述信息的关键词集合中的实体关系wordj的语义相似度;路径实体集合与头实体描述信息关键词集合的语义相似度SIM(entities,words)是由集合中各个实体和关键词的语义相似度得到的,具体地由m×n维的相似度矩阵Xi=1,2,...,m;j=1,2,...,n得到集合间语义相似度SIM(entities,words);智能体从头实体eh出发,经过多次跳转经过多个实体与关系边到达尾实体etarget,其中经过的实体集合为entities={e1,e2,...,em};通过提取实体集合中各个元素的类别信息,得到路径实体类别集合classes={class1,class2,...,classm};再通过用样的方式得到查询q=(eh,r)中的关系r对应的类别信息classrelation;得到路径实体类别集合和查询中关系的类别之后,我们需要以数值的方式衡量两者之间的语义相似度,我们同样使用Word2Vec作为文本表示模型,以cosine距离为相似度度量方法,计算出词组与关系之间的相似度矩阵;路径实体类别集合所包含的实体类别个数为m,查询中关系的类别所包含的类别词个数为1,词组与关系之间的相似度可由一个m×1维的相似度矩阵Xi=1,2,...,m表示,矩阵中的元素Yi为路径实体类别集合中的实体类别classi和查询中关系的类别词classrelation的语义相似度;路径实体类别集合和查询中关系的类别合的语义相似度SIM(classes,classrelation)是由集合中各个实体和关键词的语义相似度得到的,具体地由m×1维的相似度矩阵Xi=1,2,...,m得到集合间语义相似度SIM(classes,classrelation);
步骤4:参数设置
在参数选择方面,基于路径质量评估的强化学习知识图谱推理算法在质量评估模块方面需要确定的超参数主要包括路径实体集合与头实体描述信息关键词集合的语义相似度SIM(entities,words)的阈值α和路径实体类别集合和查询中关系的类别合的语义相似度SIM(classes,classrelation)的阈值β并且α,β∈(0,1);本文遵循相关工作中的参数选择方法,使用网格搜索法对以上参数进行确定;选取搜索范围后,设置参数α的选取范围为{0.2,0.3,0.4},参数β的范围为{0.10,0.15,0.20};对于基于路径质量评估的强化学习知识图谱推理模型来说,实体和关系嵌入尺寸的大小设置为200;3层LSTM的隐藏大小为200,β表示熵正则化常数,值在0-0.1之内;我们使用Adam优化器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110308273.2/1.html,转载请声明来源钻瓜专利网。