[发明专利]基于知识图谱表示学习的隐喻计算和装置有效
申请号: | 202110231003.6 | 申请日: | 2021-03-02 |
公开(公告)号: | CN113157932B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 宋巍;郭京津;刘丽珍 | 申请(专利权)人: | 首都师范大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/289 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 韩海花 |
地址: | 100037 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 表示 学习 隐喻 计算 装置 | ||
1.一种基于知识图谱表示学习的隐喻计算方法,其特征在于,包括以下步骤:
获取多对本体、属性和喻体三元组,根据所述多对本体、属性和喻体三元组构建隐喻知识图谱;
从语料库中统计本体概念与属性信息,和/或,喻体概念与属性信息之间的共现频率,根据共现频率和预设频率阈值的比较结果,确定外部概念属性信息集合;
根据所述隐喻知识图谱确定概念集合和属性集合,从所述概念集合和所述属性集合获取训练样本,根据所述训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型;
计算所述外部概念属性信息集合中概念属性对的相关概率,根据所述相关概率和预设第二损失函数训练概念属性嵌入模型;
根据所述隐喻知识图谱嵌入模型、第一权重、所述概念属性嵌入模型和第二权重生成联合嵌入模型;
获取计算请求;其中,所述计算请求包括:待处理语句或概念属性信息,通过所述联合嵌入模型对所述计算请求进行处理,获取计算结果。
2.如权利要求1所述的方法,其特征在于,所述获取多对本体、属性和喻体三元组,包括:
从作文语料中获取多个明喻语句;
对所述多个明喻语句进行标注,获取所述多对本体、属性和喻体三元组。
3.如权利要求1所述的方法,其特征在于,所述获取多对本体、属性和喻体三元组,包括:
获取多个待处理语句,对所述多个待处理语句进行分类,获取多个明喻语句;
通过句子表示编码器对所述多个明喻语句进行标注,获取所述多对本体、属性和喻体三元组。
4.如权利要求1所述的方法,其特征在于,所述从语料库中统计本体概念与属性信息,和/或,喻体概念与属性信息之间的共现频率,根据共现频率和预设频率阈值的比较结果,确定外部概念属性信息集合,包括:
使用句法分析器从所述语料库中抽取主语与动词、动词与宾语、形容词与名词和名词与动词模式的多个短语对,并统计所述多个短语对的共现频率;
在任一短语对的共现频率大于所述预设频率阈值,则确定为外部概念属性信息,所述多个外部概念属性信息构建成所述外部概念属性信息集合。
5.如权利要求1所述的方法,其特征在于,所述根据所述隐喻知识图谱确定概念集合和属性集合,从所述概念集合和所述属性集合获取训练样本,根据所述训练样本和预设第一损失函数训练隐喻知识图谱嵌入模型,包括:
所述隐喻知识图谱中的三元组为(t,a,s),分数计算函数如下式所示:
f(t,a,s)=-d(t⊥+a,s⊥)+g1(t⊥,a)+g2(s⊥,a) (1)
其中,t为本体,a为共有属性,s为喻体,d为距离计算方法,通常为L1或L2函数;g1,g2分别为计算属性与本体、属性喻体之间的相关性函数,计算公式如下所示:
g1(t,a)=t⊥MtaT, (2)
g2(s,a)=s⊥MsaT (3)
其中,Mt和Ms分别为本体和喻体的映射矩阵;
对于所述隐喻知识图谱中每个正确三元组,通过替换本体、属性或喻体来构造对应的错误三元组;
通过公式(1)和(2)对所述每个正确三元组和所述每个错误三元组进行相关性计算,获取每个单元组的相关分数,通过所述第一损失函数基于所述相关分数计算所述每个正确三元组与对应的所述每个错误三元组之间的误差,根据所述误差和预设误差阈值调整所述隐喻知识图谱嵌入模型的参数,直到所述误差小于预设误差阈值,获取所述隐喻知识图谱嵌入模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于首都师范大学,未经首都师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110231003.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:传送带能量回收设备
- 下一篇:一种气体静压轴承微间隙气膜流场观测装置