[发明专利]知识数据的处理方法及装置在审

专利信息
申请号: 201510689910.X 申请日: 2015-10-22
公开(公告)号: CN105373590A 公开(公告)日: 2016-03-02
发明(设计)人: 陈琳;李浩;王波 申请(专利权)人: 百度在线网络技术(北京)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京金律言科知识产权代理事务所(普通合伙) 11461 代理人: 罗延红;杨移
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 知识 数据 处理 方法 装置
【说明书】:

技术领域

发明涉及互联网技术领域,尤其涉及一种知识数据的处理方法及 装置。

背景技术

近年来,互联网正从仅包含网页和网页之间超链接的文档万维网, 向包含大量描述各种实体和实体之间丰富关系的数据万维网转变。在上 述背景下,百度、Google等知名搜索引擎公司纷纷以此为基础,通过构 建知识图谱来改进搜索质量。

实体关联是指将文本描述的实体信息与实体信息库中的具体实体进 行关联,从而建立实体知识库中实体间的关系,进而形成完善的知识图 谱。在现有技术中,一般通过人工编辑方式来进行实体关联。然而,人 工编辑方式具有耗费人力、周期长、不适用于大规模实体数据关联等不 足之处。

发明内容

本发明的目的在于,提供一种知识数据的处理方法及装置,以实现 自动、快速地将实体数据中描述的实体对象与实体信息库中的实体对象 进行关联,从而更新完善与实体对象相关的知识图谱。

根据本发明的一方面,提供一种知识数据的处理方法,包括:获取 包括第一实体对象的标识、属性及其属性值的实体数据;从预设的实体 信息库提取分别与所述实体数据中的属性值匹配的第二实体对象的信息; 将所述第二实体对象与第一实体对象进行关联,以更新与所述第一实体 对象相关的知识图谱。

优选地,所述将所述第二实体对象与第一实体对象进行关联,以更 新与所述第一实体对象相关的知识图谱的处理包括:将所述第一实体对 象相对应的实体数据中匹配的属性值替换为所述第二实体对象的标识。

优选地,所述方法还包括:从所述实体数据提取值为专有名词的属 性值;

所述从预设的实体信息库提取分别与所述实体数据中的属性值匹配 的第二实体对象的信息的处理包括:从预设的实体信息库提取分别与所 述提取的属性值匹配的第二实体对象的信息。

优选地,所述从预设的实体信息库提取分别与所述提取的属性值匹 配的第二实体对象的信息的处理包括:分别根据所述提取的属性值从预 设的实体信息库提取与多个候选第二实体对象的信息,分别从所述多个 候选第二实体对象选取匹配度高的第二实体对象的信息。

优选地,所述分别从所述多个候选第二实体对象选取匹配度高的候 选第二实体对象的信息的处理包括:分别获取包含每个所述候选第二实 体对象相应的属性值的多个文本数据,选取所述第一实体对象的标识在 所述多个文本数据中出现次数最多的文本数据对应的候选第二实体对象, 作为所述匹配度高的第二实体对象。

优选地,所述实体数据是多个包括第一实体对象的标识、属性及其 属性值的三元组数据。

根据本发明的另一方面,还提供一种知识数据的处理装置,包括: 实体数据获取模块,用于获取包括第一实体对象的标识、属性及其属性 值的实体数据;实体信息提取模块,用于从预设的实体信息库提取分别 与所述实体数据中的属性值匹配的第二实体对象的信息;实体关联模块, 用于将所述第二实体对象与第一实体对象进行关联,以更新与所述第一 实体对象相关的知识图谱。

优选地,所述实体关联模块用于将所述第一实体对象相对应的实体 数据中匹配的属性值替换为所述第二实体对象的标识。

优选地,所述装置还包括:属性值提取模块,用于从所述实体数据 提取值为专有名词的属性值,所述实体信息提取模块用于从预设的实体 信息库提取分别与所述提取的属性值匹配的第二实体对象的信息。

优选地,所述实体信息提取模块包括:候选实体信息提取单元,用 于分别根据所述提取的属性值从预设的实体信息库提取与多个候选第二 实体对象的信息,实体信息选取单元,用于分别从所述多个候选第二实 体对象选取匹配度高的第二实体对象的信息。

优选地,所述实体信息选取单元用于分别获取包含每个所述候选第 二实体对象相应的属性值的多个文本数据,选取所述第一实体对象的标 识在所述多个文本数据中出现次数最多的文本数据对应的候选第二实体 对象,作为所述匹配度高的第二实体对象。

优选地,所述实体数据是多个包括第一实体对象的标识、属性及其 属性值的三元组数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510689910.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top