[发明专利]基于词嵌入的多源异构水利领域数据融合方法在审
申请号: | 202110490308.9 | 申请日: | 2021-05-06 |
公开(公告)号: | CN113177105A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 胡伟;高祥涛;朱向荣;陆小明;高凤宁;司存友;曹帅 | 申请(专利权)人: | 南京大学;江苏省水文水资源勘测局 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/284;G06F40/295 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 嵌入 多源异构 水利 领域 数据 融合 方法 | ||
本发明公开了一种基于词嵌入的多源异构水利领域数据融合方法,包括以下步骤:给定多源异构的水利领域数据,首先将多源异构的水利领域数据构建成水利知识图谱。接下来,使用词嵌入模型,为水利知识图谱中每个实体或者属性生成向量表示。然后,根据实体或者属性的字面量中文部分、字面量英文部分和向量表示分别计算两两之间的相似度。最后,结合上述三种相似度得到两个候选实体或者属性的相似度得分。使用预设的相似度得分阈值和候选相似词条数量上限来约束相似实体或者属性的数量,得出最终认定匹配的实体对或者属性对。应用本发明能够找到多源异构的水利领域数据中的相似实体对相似属性对,降低了水利专业从业人员检索数据的复杂度。
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种基于词嵌入的多源异构水利领域数据融合方法。
背景技术
2012年,Google公司首次提出了一个新的概念——知识图谱,其通过引入知识图谱来结构化关于搜索目标的信息,以此提高搜索的质量。从内容上看,知识图谱主要由相互连接的实体和他们的属性构成;而本质上,其可被视作基于语义网络构建的知识库,其中每条知识可以由一条三元组表示。例如(阳澄湖,位置,苏州),刻画了真实世界中的一条知识(事实):阳澄湖位于苏州。由于真实世界很多场景都适用于用知识图谱进行表示,近年来,关于知识图谱的构建以及应用工作成为一个新的研究热点。当前,一大批优质的知识图谱在业界涌现,例如Freebase等,其被广泛应用于真实世界应用中。
“水无形而有万形”,治水与用水是维系民生的千年难题。水利领域由于固有的时间跨度上的连续性和空间跨度上的广泛分布,会持续不断地产生海量领域数据,这些水利领域数据尤其适合使用知识图谱来管理。防洪排涝、水环境、水资源以及水生态等诸多问题,需要广泛的知识和复杂的推理,知识图谱可以作为水利领域专家和普通从业者存储、管理以及利用知识的强有力工具。
传统上,水利行业一般采用基于关键字的搜索技术,难以利用对象间的关系进行信息检索。另一方面,不同数据来源的相同实体或者属性可能以不同的文本来表述,基于关键字的搜索技术难以处理多源异构数据的检索问题。
发明内容
发明目的:针对上述现有技术存在的问题与不足,本发明的目的是提供一种基于词嵌入的多源异构水利领域数据融合方法,该方法可以为多源异构水利领域数据中的实体与属性找到相似实体与属性,助力多源异构水利领域数据的链接与融合,提升水利领域数据检索的召回率,提高水利专业从业人员信息检索的效率。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于词嵌入的多源异构水利领域数据融合方法,包括以下步骤:
(1.1)对于当前给定的水利领域数据,将实体和属性分开,生成候选实体对和候选属性对;
(1.2)对于所述步骤(1.1)生成的候选实体对和候选属性对,分别计算其中的两个实体或者属性的中文字面量、英文字面量以及向量表示层面的相似度;
(1.3)结合所述步骤(1.2)计算出的中文字面量、英文字面量以及向量表示层面的相似度,计算出实体对的相似度和属性对的相似度;
(1.4)将所述步骤(1.3)计算出的相似度与预设的阈值进行比较,相似度低于所述阈值的候选实体对与候选属性对被过滤,相似度高于所述阈值的候选实体对与候选属性对被保留,筛选出匹配实体对和匹配属性对。
进一步地,所述候选实体对由两个候选实体组成,所述候选属性对由两个候选属性组成,所述步骤(1.2)包括以下步骤:
(2.1)根据雅卡尔指数计算两个候选实体或者属性中文名称的字符串相似度;
(2.2)根据编辑距离计算两个候选实体或者属性英文名称的字符串相似度;
(2.3)根据余弦距离计算两个候选实体或者候选属性嵌入向量层面的相似度。
进一步地,所述步骤(2.3)包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;江苏省水文水资源勘测局,未经南京大学;江苏省水文水资源勘测局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110490308.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种垃圾分类系统及方法
- 下一篇:行人重识别方法、装置、计算机设备和存储介质