[发明专利]一种多场景的异构数据处理方法有效
申请号: | 202310416643.3 | 申请日: | 2023-04-19 |
公开(公告)号: | CN116150405B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 曹扬;李响;仲恺;谢红韬;汪榕;支婷;祁纲;程建润;周伟;黄铁淳 | 申请(专利权)人: | 中电科大数据研究院有限公司;太极计算机股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06F18/25;G06F18/22;G06N3/0464;G06N3/045;G06N3/09;G06N3/084 |
代理公司: | 北京智桥联合知识产权代理事务所(普通合伙) 11560 | 代理人: | 金光恩 |
地址: | 550081 贵州省贵阳市观*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 场景 数据处理 方法 | ||
本发明提供一种多场景的异构数据处理方法,包括:从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中提取图结构信息,获取文本实体的结构拓扑特征;从第一知识图谱和第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;融合第一知识图谱和第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;基于第一知识图谱中任一文本实体的第一实体表示与第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;基于第一实体对齐概率矩阵,确定第一知识图谱和第二知识图谱的对齐实体对。本发明提升了异构数据融合的准确性。
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种多场景的异构数据处理方法。
背景技术
随着大数据时代的到来,分散于不同应用场景下的数据可以被有效地融合起来,实现数据信息的集中管理,提高数据分析、数据检索等任务的性能。在数据推荐、数据检索等领域,会为特定领域或场景(例如电影领域、医学领域等)下的文本数据构建相应的知识图谱,通过将各场景下的知识图谱连接在一起实现数据融合。
不同应用场景下的数据之间具备异构性和冗余性,即不同应用场景下的数据存在结构不同、表达不同等问题,导致生成的不同场景的知识图谱之间也存在相当程度的异构性,在融合多场景的异构知识图谱时,容易出现数据冗余和数据冲突。因此,为了提升多场景异构数据的融合准确性,可以对不同场景下的知识图谱进行文本实体对齐,将对应同一对象的文本实体对齐,以降低融合数据中的数据冗余和数据冲突。然而,目前的知识图谱异构性过强,文本实体存在同含义不同表达以及同表达不同含义,知识图谱网络结构不同,甚至语言不同等问题,导致实体对齐的准确性难以保障。
发明内容
本发明提供一种多场景的异构数据处理方法,用以解决现有技术中知识图谱异构性过强且部分知识图谱存在缺失不完整的现象,导致实体对齐的准确性欠佳的缺陷。
本发明提供一种多场景的异构数据处理方法,包括:
基于第一图神经网络,从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中获取对应文本实体的结构拓扑特征;所述第一图神经网络是基于图卷积神经网络构建的;
基于第二图神经网络,从所述第一知识图谱和所述第二知识图谱的各三元组中获取连接各个文本实体的实体关系的关系特征;所述第二图神经网络是基于transE模型构建的;所述三元组包括两个文本实体以及连接所述两个文本实体的实体关系;
融合所述第一知识图谱和所述第二知识图谱中各个文本实体的结构拓扑特征和连接对应文本实体的实体关系的关系特征,得到各个文本实体的第一实体表示;
基于所述第一知识图谱中任一文本实体的第一实体表示与所述第二知识图谱中任一文本实体的第一实体表示之间的相似度,构建第一实体对齐概率矩阵;
基于所述第一实体对齐概率矩阵,确定所述第一知识图谱和所述第二知识图谱的对齐实体对,并基于所述对齐实体对融合所述第一知识图谱和所述第二知识图谱的数据;
所述从不同场景下的第一知识图谱和第二知识图谱中各个文本实体的邻居子图中获取对应文本实体的结构拓扑特征,具体包括:
图结构信息提取步骤:针对任一文本实体,基于所述任一文本实体的任一邻居文本实体在上一网络层的图实体特征以及连接所述任一邻居文本实体与所述任一文本实体的实体关系在上一网络层的图关系特征,确定所述任一邻居文本实体在当前网络层传递给所述任一文本实体的关联特征,再融合各个邻居文本实体在当前网络层传递给所述任一文本实体的关联特征,得到所述任一文本实体在当前网络层的图实体特征,并更新得到连接所述任一邻居文本实体与所述任一文本实体的实体关系在当前网络层的图关系特征;任一文本实体在首层网络层的图实体特征以及任一实体关系在首层网络层的图关系特征是初始化得到的;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司;太极计算机股份有限公司,未经中电科大数据研究院有限公司;太极计算机股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310416643.3/2.html,转载请声明来源钻瓜专利网。