[发明专利]本体建立方法、装置及存储介质有效
申请号: | 201811459195.0 | 申请日: | 2018-11-30 |
公开(公告)号: | CN111259161B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 吴小飞;浦世亮;姜伟浩;闫春 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 韩东艳 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 本体 建立 方法 装置 存储 介质 | ||
本发明公开了一种本体建立方法、装置及存储介质,属于大数据处理技术领域。所述方法包括:对于用于建立本体的至少一个文档,根据至少一个文档确定多个多元组,根据多个多元组确定多个语义关系数据组,然后根据多个语义关系数据组,建立针对至少一个文档的本体。整个建立本体的过程中,无需人工参与,提高了建立本体的效率。
技术领域
本发明涉及大数据处理技术领域,特别涉及一种本体建立方法、装置及存储介质。
背景技术
本体是一种数据结构,该数据结构用于对某些文档采用标准的、规范的方式进行说明,以便于根据该本体对这些文档进行共享。其中,本体包括多个概念和多个概念中存在关联的两个概念之间的概念关系。比如,针对描述雨伞的多个文档建立一个本体,该本体中包括多个概念,比如雨伞、用具、伞把等。其中,概念“雨伞”和概念“用具”之间存在一个概念关系,且该概念关系由“雨伞”指向“用具”。概念“雨伞”和概念“伞把”之间也存在一个概念关系,且该概念关系由“伞把”指向“雨伞”。
相关技术中,当需要建立本体时,获取用户建立本体的至少一个文档,通过人工方式对至少一个文档中每个文档中的词语进行归类,然后根据归类之后的多个词语建立本体。该建立本体的过程中人工参与度较高,严重影响了建立本体的效率。
发明内容
本发明实施例提供了一种本体建立方法、装置及存储介质,可以提高建立本体的效率。所述技术方案如下:
第一方面,提供了一种本体建立方法,所述方法包括:
获取用于建立本体的至少一个文档,并根据所述至少一个文档确定多个多元组,每个多元组包括两个第一类词语和一个第二类词语,所述第一类词语是指用于描述对象自身属性的词语,所述第二类词语是指用于指示不同对象之间的关联关系的词语;
确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多个元组中的第二类词语对应的概念关系,并将确定的两个概念分别替换对应的两个第一类词语,将确定的概念关系替换对应的第二类词语,得到多个语义关系数据组;
根据所述多个语义关系数据组,建立针对所述至少一个文档的本体。
可选地,所述确定所述多个多元组中每个多元组中的两个第一类词语分别对应的两个概念,以及每个多元组中的第二类词语对应的概念关系,包括:
对于所述多个多元组中任一多元组A,从参考数据库中查找与所述多元组A中的两个第一类词语分别对应的两个概念,所述参考数据库是指用于描述多个词语中每个词语所代表的概念以及不同概念之间的概念关系的数据库;
根据查找到的两个概念,从所述参考数据库中继续查找与所述多元组A中的第二类词语对应的概念关系。
可选地,所述从参考数据库中查找所述多元组A中的两个第一类词语分别对应的两个概念,包括:
对于所述多元组A中两个第一类词语中的任一第一类词语B,确定所述至少一个文档中与所述第一类词语B的词义相同的词语;
如果所述至少一个文档中不存在与所述第一类词语B的词义相同的词语,则从所述参考数据库中查找所述第一类词语B对应的概念。
可选地,所述确定所述至少一个文档中与所述第一类词语B的词义相同的词语之后,还包括:
如果所述至少一个文档中存在与所述第一类词语B的词义相同的词语,则确定所述第一类词语B,以及与所述第一类词语B的词义相同的词语分别在所述至少一个文档中的出现次数;
从所述第一类词语B,以及与所述第一类词语B的词义相同的词语中,确定出现次数最大的词语;
从所述参考数据库中查找所述出现次数最大的词语对应的概念,并将查找到的概念作为所述第一类词语B对应的概念。
可选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811459195.0/2.html,转载请声明来源钻瓜专利网。