[发明专利]知识数据的处理方法及装置在审
申请号: | 201510689910.X | 申请日: | 2015-10-22 |
公开(公告)号: | CN105373590A | 公开(公告)日: | 2016-03-02 |
发明(设计)人: | 陈琳;李浩;王波 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京金律言科知识产权代理事务所(普通合伙) 11461 | 代理人: | 罗延红;杨移 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 数据 处理 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种知识数据的处理方法及 装置。
背景技术
近年来,互联网正从仅包含网页和网页之间超链接的文档万维网, 向包含大量描述各种实体和实体之间丰富关系的数据万维网转变。在上 述背景下,百度、Google等知名搜索引擎公司纷纷以此为基础,通过构 建知识图谱来改进搜索质量。
实体关联是指将文本描述的实体信息与实体信息库中的具体实体进 行关联,从而建立实体知识库中实体间的关系,进而形成完善的知识图 谱。在现有技术中,一般通过人工编辑方式来进行实体关联。然而,人 工编辑方式具有耗费人力、周期长、不适用于大规模实体数据关联等不 足之处。
发明内容
本发明的目的在于,提供一种知识数据的处理方法及装置,以实现 自动、快速地将实体数据中描述的实体对象与实体信息库中的实体对象 进行关联,从而更新完善与实体对象相关的知识图谱。
根据本发明的一方面,提供一种知识数据的处理方法,包括:获取 包括第一实体对象的标识、属性及其属性值的实体数据;从预设的实体 信息库提取分别与所述实体数据中的属性值匹配的第二实体对象的信息; 将所述第二实体对象与第一实体对象进行关联,以更新与所述第一实体 对象相关的知识图谱。
优选地,所述将所述第二实体对象与第一实体对象进行关联,以更 新与所述第一实体对象相关的知识图谱的处理包括:将所述第一实体对 象相对应的实体数据中匹配的属性值替换为所述第二实体对象的标识。
优选地,所述方法还包括:从所述实体数据提取值为专有名词的属 性值;
所述从预设的实体信息库提取分别与所述实体数据中的属性值匹配 的第二实体对象的信息的处理包括:从预设的实体信息库提取分别与所 述提取的属性值匹配的第二实体对象的信息。
优选地,所述从预设的实体信息库提取分别与所述提取的属性值匹 配的第二实体对象的信息的处理包括:分别根据所述提取的属性值从预 设的实体信息库提取与多个候选第二实体对象的信息,分别从所述多个 候选第二实体对象选取匹配度高的第二实体对象的信息。
优选地,所述分别从所述多个候选第二实体对象选取匹配度高的候 选第二实体对象的信息的处理包括:分别获取包含每个所述候选第二实 体对象相应的属性值的多个文本数据,选取所述第一实体对象的标识在 所述多个文本数据中出现次数最多的文本数据对应的候选第二实体对象, 作为所述匹配度高的第二实体对象。
优选地,所述实体数据是多个包括第一实体对象的标识、属性及其 属性值的三元组数据。
根据本发明的另一方面,还提供一种知识数据的处理装置,包括: 实体数据获取模块,用于获取包括第一实体对象的标识、属性及其属性 值的实体数据;实体信息提取模块,用于从预设的实体信息库提取分别 与所述实体数据中的属性值匹配的第二实体对象的信息;实体关联模块, 用于将所述第二实体对象与第一实体对象进行关联,以更新与所述第一 实体对象相关的知识图谱。
优选地,所述实体关联模块用于将所述第一实体对象相对应的实体 数据中匹配的属性值替换为所述第二实体对象的标识。
优选地,所述装置还包括:属性值提取模块,用于从所述实体数据 提取值为专有名词的属性值,所述实体信息提取模块用于从预设的实体 信息库提取分别与所述提取的属性值匹配的第二实体对象的信息。
优选地,所述实体信息提取模块包括:候选实体信息提取单元,用 于分别根据所述提取的属性值从预设的实体信息库提取与多个候选第二 实体对象的信息,实体信息选取单元,用于分别从所述多个候选第二实 体对象选取匹配度高的第二实体对象的信息。
优选地,所述实体信息选取单元用于分别获取包含每个所述候选第 二实体对象相应的属性值的多个文本数据,选取所述第一实体对象的标 识在所述多个文本数据中出现次数最多的文本数据对应的候选第二实体 对象,作为所述匹配度高的第二实体对象。
优选地,所述实体数据是多个包括第一实体对象的标识、属性及其 属性值的三元组数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510689910.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置