[发明专利]适用于艺术领域的知识图谱搭建方法及装置、电子设备有效
申请号: | 201910926347.1 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110704411B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 李慧;许蕾 | 申请(专利权)人: | 京东方科技集团股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/28;G06F16/951;G06F16/955 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 陈蕾 |
地址: | 100015 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 适用于 艺术 领域 知识 图谱 搭建 方法 装置 电子设备 | ||
1.一种用于艺术领域的知识图谱搭建方法,其特征在于,包括:
根据预先设置的艺术领域的关键词获取与其相关的源数据;
根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据;
根据预先设置的画家、画作和博物馆的实体关系,从清洗后的源数据内提取实体、所述实体的属性信息以及所述实体之间的关系信息;
融合所述实体、所述实体的属性信息以及所述实体之间的关系信息得到数据三元组,将所述数据三元组作为所述关键词所搭建的知识图谱;
将所述知识图谱存储到预先设置的图形数据库中;
根据预先设置的艺术领域的关键词获取与其相关的源数据,包括:
响应于用户的操作,获取到用户输入的语句,并分割所述语句得到词语;然后将所述词语与预先设置的艺术领域的关键词进行匹配;如果匹配通过,则确定获取到关键词;在获取到所述关键词之后,根据所述关键词获取与其相关的源数据;
根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据,包括:
利用所述错误信息表处理所述源数据中的单值属性,以将所述单值属性中的错误值替换为正确值;
根据所述单值属性从预先设置的艺术数据字典内查询所述源数据对应的实体属性信息和关系信息;
统计所述错误信息表;
若所述错误信息表内未包含替换单值属性的源数据,则输出所述源数据对应的实体信息和关系信息;
所述错误信息表更新方式如下:
若正确名的值在errors里,则错误信息表调整正确名和别名内的值;若正确名的值不在trues里,对应实体的错误信息表需要增加实体名的正确名;
若其他含义有值,实体名替换为空值,表示这个实体名并不应该是这个字典里;
若原实体名在errors里,对应实体的错误信息表修改为原实体名,trues数组对应正确名位置的值替换为空值;
若原实体名不在errors里:对应实体的错误信息表需要增加数据原实体名,errors,trues数组分别追加原实体名,空值;
若别名有值,则别名也替换为正确名的值;若正确名有值,别名在errors里,并且对应trues里对应值不等于正确名,trues里对应值修改为正确名;
若正确名有值,别名不在errors里:errors,trues数组分别追加别名,正确名;
若正确名空值,别名在errors里,并且对应trues里对应值不等于原实体名:trues里对应值修改为原实体名;
若正确名空值,别名不在errors里:errors,trues数组分别追加别名,原实体名。
2.根据权利要求1所述的知识图谱搭建方法,其特征在于,所述源数据包括半结构化的源数据和结构化的源数据;根据预先设置的艺术领域的关键词获取与其相关的源数据包括:
根据所述关键词采用Scrapy应用框架在预先设置的与艺术领域相关的目标网站上爬取半结构化的源数据;
和/或,
根据所述关键词在预先设置的与艺术领域相关的数据库内检索出结构化的源数据。
3.根据权利要求2所述的知识图谱搭建方法,其特征在于,若所述源数据包括半结构化的源数据,根据预先设置的艺术数据字典和关于艺术领域的错误信息表清洗所述源数据之前,所述方法还包括对所述半结构化的源数据进行预处理,以获得结构化的源数据,具体包括:
根据预先设置的属性信息对所述半结构化的源数据进行分组;
基于word2vec算法获取各分组内所述半结构化的源数据中各数据对应的相似度向量;
基于所述相似度向量获取同一分组内任意两个数据的相似度;
对比所述相似度和预先设置的相似度阈值;
若所述相似度超过所述相似度阈值,则将所述任意两个数据融合为一条源数据;
针对融合后的半结构化的源数据,从各源数据内提取相应的数据形成结构化的源数据。
4.根据权利要求1所述的知识图谱搭建方法,其特征在于,还包括:
将所述知识图谱应用预先设置的场景中,所述预先设置的场景包括以下至少一种:百科卡片、搜索场景、推荐场景、问答场景、解释场景和辅助决策场景。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东方科技集团股份有限公司,未经京东方科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910926347.1/1.html,转载请声明来源钻瓜专利网。