[发明专利]生成知识图谱的方法及装置、搜索方法、引擎及系统在审
申请号: | 202010311287.5 | 申请日: | 2020-04-20 |
公开(公告)号: | CN111782816A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 吕望 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王莉莉 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 知识 图谱 方法 装置 搜索 引擎 系统 | ||
本公开涉及生成知识图谱的方法及装置、搜索方法、引擎及系统。生成知识图谱的方法包括:对多个物品标题进行分词处理,获得与多个物品标题对应的多个主题词和每个主题词的词性;选取多个主题词中的至少一部分,作为多个实体;根据与多个实体对应的各个主题词和各个主题词的词性、或各个主题词与物品标题的对应关系,确定多个实体对,每个实体对包括具有相关关系的两个实体,相关关系为相似关系或关联关系;确定每个实体的实体类型;根据每个实体对中的两个实体的实体类型,确定每个实体对中的两个实体的关系类型,关系类型为相似关系的子类或关联关系的子类;根据多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。
技术领域
本公开涉及计算机技术领域,特别涉及生成知识图谱的方法及装置、搜索方法、引擎及系统、计算机可存储介质。
背景技术
随着电商领域的成熟发展,业务人员依据海量的电商数据在电商领域的业务挖掘面临着巨大的挑战。而知识图谱为业务人员的业务挖掘提供了更为便利的条件。
相关技术中,从包括大量噪声信息的文本语料中挖掘实体以及实体间的相似关系,并利用大量的标注数据对深度学习算法模型进行训练,从而利用训练好的深度学习算法模型,确定实体间的关系类型,实体间的关系类型为相似关系的子类,进而根据已确定的实体及实体间的关系类型生成知识图谱。
发明内容
发明人认为:相关技术中,仅仅挖掘实体之间的相似关系,生成的知识图谱的全面性和准确性差,利用深度学习算法模型来确定实体间的关系类型,生成的知识图谱的准确性较差和效率低。
针对上述技术问题,本公开提出了一种解决方案,提高了生成知识图谱的全面性、准确性及效率。
根据本公开的第一方面,提供了一种生成知识图谱的方法,包括:对多个物品标题进行分词处理,获得与所述多个物品标题对应的多个主题词和每个主题词的词性;选取所述多个主题词中的至少一部分,作为多个实体,每个实体对应一个主题词;根据与所述多个实体对应的各个主题词和所述各个主题词的词性、或所述各个主题词与物品标题的对应关系,确定多个实体对,每个实体对包括具有相关关系的两个实体,所述相关关系为相似关系或关联关系;确定每个实体的实体类型;根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型,所述关系类型为相似关系的子类或关联关系的子类;根据所述多个实体、每个实体的实体类型和实体间的关系类型,生成知识图谱。
在一些实施例中,根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型包括:根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定所述每个实体对中的两个实体的关系类型。
在一些实施例中,所述每个实体对包括第一实体和第二实体,与所述第一实体的实体类型和所述第二实体的实体类型对应的关系类型包括至少一种特定关系类型,根据每个实体对中的两个实体的实体类型,利用用户行为数据,确定所述每个实体对中的两个实体的关系类型包括:从所述多个实体中,确定与所述第二实体的实体类型相同的其他实体;对于每种特定关系类型,利用与该特定关系类型对应的用户行为数据,计算所述第一实体与所述第二实体的关系类型为该特定关系类型的概率、以及所述第一实体与每个其他实体的关系类型为该特定关系类型的概率;根据所述第一实体和所述第二实体的关系类型为该特定关系类型的概率在各个概率中的排名,确定所述第一实体与所述第二实体的关系类型是否包括该特定关系类型。
在一些实施例中,根据每个实体对中的两个实体的实体类型,确定所述每个实体对中的两个实体的关系类型包括:根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定所述每个实体对中的两个实体的关系类型。
在一些实施例中,所述每个实体对中的两个实体的实体类型分别为第一实体类型和第二实体类型,根据每个实体对中的两个实体的实体类型与关系类型的对应关系,确定所述每个实体对中的两个实体的关系类型包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010311287.5/2.html,转载请声明来源钻瓜专利网。