[发明专利]实体标签的确定方法和装置在审
申请号: | 202010617196.4 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111967262A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 程鸣权;杨浩;刘昊;刘欢;陈坤斌;刘准;何伯磊;和为 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/2458;G06F16/31;G06F16/36;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 标签 确定 方法 装置 | ||
1.一种实体标签的确定方法,包括:
获取与目标文档的文档类型对应的实体标签库,其中,所述实体标签库中包括与所述文档类型对应的多个实体标签;
将所述目标文档与所述实体标签库匹配,获取匹配成功的多个候选实体标签;
获取所述目标文档的属性特征,并根据所述目标文档获取与每个所述候选实体标签对应的标签特征;
将所述属性特征和所述标签特征输入预先训练的标签识别模型,获取与每个所述候选实体标签对应的第一置信度;
根据所述第一置信度从所述多个候选实体标签中,确定所述目标文档的目标实体标签。
2.如权利要求1所述的方法,在所述获取与目标文档的文档类型对应的实体标签库之前,还包括:
获取与所述文档类型对应的文档搜索日志、专业文档、知识图谱和关联垂类文档;
提取所述文档搜索日志中的搜索词,对所述搜索词切词处理获取搜索分词,并根据所述搜索分词获取所述文档类型对应的第一参考实体标签;
提取所述专业文档中的多个关键词,根据预设算法计算所述多个关键词中的每个关键词在所述专业文档的重要值;
根据所述重要值在所述多个关键词中确定预设个数的目标关键词为第二参考实体标签;
识别所述知识图谱和所述关联垂类文档中的专有名词,并根据所述专有名词确定第三参考实体标签;
根据所述第一参考实体标签、所述第二参考实体标签和所述第三参考实体标签确定所述实体标签库。
3.如权利要求2所述的方法,其中,所述根据所述第一参考实体标签、所述第二参考实体标签和所述第三参考实体标签确定所述实体标签库,包括:
将所述第一参考实体标签、所述第二参考实体标签和所述第三参考实体标签中的每个参考实体标签,输入预先训练的神经网络模型,获取与所述每个参考实体标签对应的第二置信度;
根据所述第二置信度大于预设置信值的参考实体标签,确定所述实体标签库。
4.如权利要求2所述的方法,其中,所述根据所述搜索分词获取所述文档类型对应的第一参考实体标签,包括:
根据文档搜索日志的搜索分词构建所述搜索词的第一倒排索引表;
确定所述第一倒排索引表中的节点优先级大于预设等级的目标节点;
确定所述目标节点在所述第一倒排索引表中的第一节点路径,根据所述第一节点路径覆盖的搜索分词确定所述第一参考实体标签。
5.如权利要求1所述的方法,其中,所述将所述目标文档与所述实体标签库匹配,获取匹配成功的多个候选实体标签,包括:
对所述目标文档的文档标题和文档内容切词处理,获取多个文档分词;
对所述实体标签切词处理获取标签分词,并根据所述标签分词构建与所述实体标签库对应的第二倒排索引表;
将多个文档分词中的每个文档分词与第二倒排索引表中的节点匹配,判断是否包含与每个文档分词对应的第二节点路径;
若包含所述第二节点路径,则确定所述第二节点路径对应的实体标签为候选实体标签。
6.如权利要求5所述的方法,在所述确定所述第二节点路径对应的实体标签为所述候选实体标签之前,还包括:
统计所述第二节点路径对应的实体标签在所述目标文档中的出现次数;
确定所述出现次数大于预设次数阈值。
7.如权利要求1所述的方法,其中,所述将所述目标文档与所述实体标签库匹配,获取匹配成功的多个候选实体标签,包括:
计算所述目标文档的文档标题的标题语义向量;
计算每个所述实体标签的标签语义向量;
计算所述标题语义向量和每个所述实体标签的标签语义向量的语义相似度,确定所述语义相似度大于预设相似阈值的实体标签为候选实体标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010617196.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:动画驱动方法、装置、电子设备及存储介质
- 下一篇:一种深度清洁作业车