[发明专利]一种面向大规模知识库的快速学习方法有效

申请号：	201910431538.0	申请日：	2019-05-22
公开（公告）号：	CN110275959B	公开（公告）日：	2023-04-28
发明（设计）人：	程良伦;陈柯棠;张凡龙	申请（专利权）人：	广东工业大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/28;G06F40/30;G06F40/211;G06F40/289
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510006 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向大规模知识库快速学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向大规模知识库的快速学习方法，其特征在于，所述方法包括以下步骤：

S1：知识提取：从异源异构的数据中进行知识数据的提取，知识数据为事实三元组，包括：实体和关系；

S2：知识表示：构建TransH模型，利用TransH模型，把知识数据中的所有实体和关系嵌入到低维向量空间中，从而实现知识数据的知识表示；

S3：知识融合：通过RLCD模型对经S2知识表示之后的知识数据进行融合，并将融合后的知识数据存入知识图谱；

S4：知识推理：从知识图谱中提取S3融合后的知识数据进行推理，并将推理后的知识数据存入知识图谱；获得更新的知识和结论；

S3包括以下步骤：

S3.1：使用TransH模型对事实三元组进行训练；

S3.2：使用Doc2Vec编码器对实体描述进行训练；

S3.3：RLCD模型将实体的事实三元组和文本描述连接起来，从而输出嵌入包含文本实体描述和文本三元组的完整语义信息，进而能完成知识的融合；

S3.4：然后将融合完毕后的知识数据存入到知识图谱中；

S3.2包括以下步骤：

S3.2.1：首先在以c表示的中心词的上下文词中，随机生成N维的段落向量x^paragraph-id和N维独热编码向量x^c-m,…,c+m，其中上下文的窗口大小为m；S3.3.2：将向量x^paragraph-id和独热编码向量x^c-m,…,c+m的维数从N维向量x^{c-m,…,c+m,paragraph-id}减少到n维并嵌入v_{c-m,…,c+m,paragraph-id}中，嵌入公式为：

v_c-m＝x^(c-m)V,v_c-m+1＝x^(c-m+1)V,…,v_c+m＝x^(c+m)V,v_paragraph-id＝x^paragraph-idV

其中，V是一个N行n列的权重矩阵，v_c-m为N维独热码向量x^c-m降维后得到n维稠密向量，x^(c-m)为一个上下文词向量；

S3.2.4：通过计算上下文词向量和段落嵌入的平均值来计算中心词向量的值：

S3.2.5：将n行N列的权重矩阵U与中心词向量相乘得到z，即从而将中心词向量维数由n变回N；

S3.2.6：利用softmax函数将z转换为概率：将一个独热码的中心向量乘以最大化匹配概率

其中y表示分布概率。

2.根据权利要求1所述的面向大规模知识库的快速学习方法，其特征在于，S1中异源异构的数据包括：结构化数据、半结构化数据、非结构化数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910431538.0/1.html，转载请声明来源钻瓜专利网。