[发明专利]发现实体的方法和装置、电子设备、计算机可读介质有效
申请号: | 201910516155.3 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110222156B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 林泽南;卢佳俊;李然 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/295 |
代理公司: | 北京天昊联合知识产权代理有限公司 11112 | 代理人: | 柴亮;张天舒 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发现 实体 方法 装置 电子设备 计算机 可读 介质 | ||
本公开提供了一种发现实体的方法,该方法包括:获取检索内容及其对应的高选择检索结果,所述高选择检索结果的被选择概率大于第一阈值;在预设的第一数据库中,查找与所述高选择检索结果匹配的匹配实体;若未找到所述匹配实体,则根据所述检索内容及其对应的高选择检索结果建立新实体。本公开还提供了一种发现实体的装置、电子设备、计算机可读介质。
技术领域
本公开实施例涉及数据库技术领域,特别涉及发现实体的方法和装置、电子设备、计算机可读介质。
背景技术
随着社会的发展,会不断出现新的实体(包括新增的词,或者词的新义项),为完善知识图谱、知识百科等,需要不断发现新出现的实体并将其收录到知识图谱、知识百科等数据库中。
当前主要通过人工方式判断哪些实体是新增的,但这样的方式难以体系化、难以全面覆盖新实体、效率低下、成本高,且人为因素大,容易出现错误。
发明内容
本公开实施例提供一种发现实体的方法和装置、电子设备、计算机可读介质。
第一方面,本公开实施例提供一种发现实体的方法,其包括:
获取检索内容及其对应的高选择检索结果,所述高选择检索结果的被选择概率大于第一阈值;
在预设的第一数据库中,查找与所述高选择检索结果匹配的匹配实体;
若未找到所述匹配实体,则根据所述检索内容及其对应的高选择检索结果建立新实体。
在一些实施例中,所述高选择检索结果为转移型高选择检索结果;
在第一时间段中,所述检索内容对应的第一检索结果的被选择概率为第一概率,所述转移型高选择检索结果的被选择概率为第二概率;
在所述第一时间段后的第二时间段中,所述第一检索结果的被选择概率小于所述第一概率,且与所述第一概率间的差距大于第一阈值,所述转移型高选择检索结果的被选择概率大于所述第二概率,且与所述第二概率间的差距大于第二阈值,且所述转移型高选择检索结果的被选择概率大于第一阈值。
在一些实施例中,所述第一检索结果为实体卡片。
在一些实施例中,所述在预设的第一数据库中,查找与所述高选择检索结果匹配的匹配实体包括:
分别计算所述第一数据库中的至少部分实体与所述高选择检索结果的匹配度;
以大于第三阈值的匹配度中的最大的匹配度对应的所述实体为所述匹配实体。
在一些实施例中,在所述分别计算所述第一数据库中的至少部分实体与所述高选择检索结果的匹配度前,还包括:通过文字匹配,从所述第一数据库中筛选出与所述高选择检索结果具有匹配可能的实体作为候选实体;
所述分别计算所述第一数据库中的至少部分实体与所述高选择检索结果的匹配度包括:分别计算各所述候选实体与所述高选择检索结果的匹配度。
在一些实施例中,所述分别计算所述第一数据库中的至少部分实体与所述高选择检索结果的匹配度包括;
采用语义匹配神经网络分别计算所述第一数据库中的至少部分实体与所述高选择检索结果的匹配度:所述语义匹配神经网络包括:
第一输入端,用于输入所述高选择检索结果;
第二输入端,用于输入所述第一数据库中对应所述实体的信息;
输出端,用于输出所述实体与所述高选择检索结果的匹配度。
在一些实施例中,若找到所述匹配实体,则将所述匹配实体对应的实体卡片作为对应所述检索内容的推荐检索结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910516155.3/2.html,转载请声明来源钻瓜专利网。