[发明专利]适用于艺术领域的知识图谱搭建方法及装置、电子设备有效
申请号: | 201910926347.1 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110704411B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 李慧;许蕾 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/28;G06F16/951;G06F16/955 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 陈蕾 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 艺术 领域 知识 图谱 搭建 方法 装置 电子设备 | ||
本发明涉及一种适用于艺术领域的知识图谱搭建方法及装置、电子设备。该方法包括:根据预先设置的艺术领域的关键词获取与其相关的源数据;根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗源数据;根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、实体的属性信息以及实体之间的关系信息;融合实体、实体的属性信息以及实体之间的关系信息得到数据三元组,将数据三元组作为关键词所搭建的知识图谱;将知识图谱存储到图形数据库中。本实施例中,通过对源数据进行清洗可以提高源数据的正确性;并且将获取的知识图谱存储到图形数据库中,可以方便用户直接检索出艺术领域内的艺术品等信息,提升用户的使用体验。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种适用于艺术领域的知识图谱搭建方法及装置、电子设备。
背景技术
目前,随着人们生活水平的提高,越来越的用户追求提升生活质量,例如购买、学习和欣赏艺术作品。目前,用户查询艺术品可以通过线上和线下两种方式,以线上为例,用户可以在互联网上检索相应的艺术品,在查询到感兴趣的艺术品后再继续查询与其相关的其他资料,这样用户所查询的资料是分散的,甚至疏漏比较重要的信息,影响到用户的检索体验。
发明内容
本发明提供一种适用于艺术领域的知识图谱搭建方法及装置、电子设备,以解决相关技术中因艺术品的知识分布较分散导致用户检索比较困难且容易疏漏重要信息而影响到检索体验的问题。
根据本发明实施例的第一方面,提供一种用于艺术领域的知识图谱搭建方法,包括:
根据预先设置的艺术领域的关键词获取与其相关的源数据;
根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据;
根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息;
融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱;
将所述知识图谱存储到预先设置的图形数据库中。
可选地,所述源数据包括半结构化的源数据和结构化的源数据;根据预先设置的艺术领域的关键词获取与其相关的源数据包括:
根据所述关键词采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站上爬取半结构化的源数据;
和/或,
根据所述关键词在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。
可选地,若所述源数据包括半结构化的源数据,根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据之前,所述方法还包括对所述半结构化的源数据进行预处理,以获得结构化的源数据,具体包括:
根据预先设置的属性信息对所述半结构化的源数据进行分组;
基于word2vec算法获取各分组内所述半结构化的源数据中各数据对应的相似度向量;
基于所述相似度向量获取同一分组内任意两个数据的相似度;
对比所述相似度和预先设置的相似度阈值;
若所述相似度超过所述相似度阈值,则将所述任意两个数据融合为一条源数据;
针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据。
可选地,根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据,包括:
利用所述错误信息表处理所述源数据中的单值属性,以将所述单值属性中的错误值替换为正确值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910926347.1/2.html,转载请声明来源钻瓜专利网。