[发明专利]一种大规模知识图谱路径查询预测器构造方法有效
申请号: | 201611025159.4 | 申请日: | 2016-11-18 |
公开(公告)号: | CN106776729B | 公开(公告)日: | 2020-08-14 |
发明(设计)人: | 黄震华;程久军 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 知识 图谱 路径 查询 预测 构造 方法 | ||
本发明涉及一种大规模知识图谱路径查询预测器的构造方法,包括以下3个模块:1)路径查询置信度建模;2)路径查询训练样本集生成;3)路径查询预测器构建。路径查询置信度建模模块实现对大规模知识图谱中路径查询的表示、编码以及置信度表示;路径查询训练样本集生成模块针对不同路径长度,产生正训练样本集及其负训练样本集;而路径查询预测器构建模块基于模块1)和2)实现预测目标函数的构建和随机优化。与现有技术相比,本发明具有显著提高路径查询预测的准确度、降低级联误差以及增强泛化能力等优点。
技术领域
本发明涉及一种大规模知识图谱路径查询预测器的构造技术,属于计算机应用和模式识别技术的交叉领域。
背景技术
近些来,随着物联网、云计算和社交网络等技术的迅猛发展,网络空间中的大数据,即网络大数据,越发显现4“V”(Volume:数据体量巨大、Velocity:数据更新快、Variety:数据类型繁多、Value:价值密度低)特性。网络大数据,特别是来源于社交网络平台的大数据,蕴含着丰富的社会信息,其中包含着大量重要社会事件线索信息的网络映射,而这些网络映射信息通常看似杂乱无章的。目前,学术界和工业界(如Google、facebook、百度、搜狐等)大都利用知识图谱来组织网络大数据,并利用其强大的知识推理能力来实现网络大数据的深度分析和挖掘,进而快速精准地发现其中所暗含的隐性线索与规律。
知识图谱旨在描述和刻画真实世界中存在的各种实体(entity)以及实体间的关系(relation),通常用有向图来组织和表示。图中的节点表示实体,而图中的边则由关系构成,关系用来连接两个实体,刻画它们之间的关联。通常,我们用G(E,R)来表示知识图谱,其中E={ei}为所有实体组成的集合,R={rei,ej}为实体间关系的集合,rei,ej表示实体ei到ej的关系。不难看出,在多数情况下,rei,ej≠rej,ei。与现有的研究工作类似,我们将知识图谱G用资源描述框架RDF(Resource Description Framework)三元组的集合来表示,即G(E,R)={ei,r,ej}。目前比较主流的知识图谱包括Freebase、YAGO、Dbpedia、Internet Movie Database等。
路径查询是深度分析和挖掘知识图谱,进而发现知识图谱隐含线索与规律的重要手段,目前成为知识图谱理论及技术领域的一个研究热点和重点。给定一个实体es,以及一条长度为l且以es为起始实体的路径p=r1,r2,…,rl,其中ri(1≤i≤l)为相邻的关系(有向边),路径查询Q[es,p]就是获取从实体es出发,经过路径p所能到达的所有实体A(es,p)={e1,e2,…,em}。由于大数据时代,导致了其上所构建的知识图谱的规模也是庞大的,因此,路径查询的时间代价非常巨大。为此,学术界和工业界提出了通过机器学习的方式来高效实现大规模知识图谱的路径查询。该类技术的核心思路是构造一个路径查询预测器,并通过一定规模数据样本进行预测器的训练,一直到预测误差用户可以接受为止。目前,国内外有一些知名的实验室团队在做这类的研究工作并取得了较好的应用成果,例如斯坦福大学的Andrew Y.Ng团队和Kelvin Guu团队、曼切斯特大学Rajarshi Das团队、微软研究院的Z.Wang团队、加州大学圣巴巴拉分校的Arijit Khan团队、中国人民大学的X.Zhang团队以及同济大学的Y.Xiang团队。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611025159.4/2.html,转载请声明来源钻瓜专利网。