[发明专利]实体识别方法、装置及计算机程序产品在审
申请号: | 202111413500.4 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114120304A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 陈禹燊;岳洪达;许海洋;韩光耀;章良杰;方文浩;冯博豪;肖非;权梁旭 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/774;G06V30/10;G06K9/62;G06F40/295 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 计算机 程序 产品 | ||
1.一种实体识别方法,包括:
识别待识别图像,以确定对于所述待识别图像中的实体的初步识别结果;
响应于确定所述初步识别结果中包括同类别的多个实体,确定所述待识别图像的图像特征和所述多个实体的文本特征;
结合所述图像特征和所述文本特征,确定所述多个实体是否为连续的完整实体,得到完整实体确定结果;
结合所述初步识别结果和所述完整实体确定结果,得到最终识别结果。
2.根据权利要求1所述的方法,其中,所述确定所述待识别图像的图像特征和所述多个实体的文本特征,包括:
通过预训练的特征提取模型得到所述待识别图像的整体图像特征和所述待识别图像中对应于所述多个实体的区域图像的区域图像特征;
确定标记序列中的每个标记对应的位置嵌入特征、片段嵌入特征和标记嵌入特征,其中,所述标记序列中包括所述多个实体中的每个预设粒度文本对应的文本标记和所述待识别图像中对应于所述多个实体的区域图像对应的图像标记,位置嵌入特征用于表征标记的位置信息,片段嵌入特征用于表征标记的片段信息,标记嵌入特征用于表征标记对应的预设粒度文本的嵌入信息。
3.根据权利要求2所述的方法,其中,所述结合所述图像特征和所述文本特征,确定所述多个实体是否为连续的完整实体,得到完整实体确定结果,包括:
对于所述标记序列中的每个文本标记,结合该标记对应的整体图像特征、位置嵌入特征、片段嵌入特征和标记嵌入特征,和/或,对于所述标记序列中的每个图像标记,结合该标记对应的区域图像特征、位置嵌入特征、片段嵌入特征和标记嵌入特征,得到结合后特征;
将所述结合后特征输入预训练的完整实体确定模型,确定所述多个实体是否为连续的完整实体,得到所述完整实体确定结果,其中,所述完整实体确定模型用于确定所述结合后特征所表征的多个实体是否为连续的完整实体。
4.根据权利要求1-3中任一项所述的方法,其中,所述结合所述初步识别结果和所述完整实体确定结果,得到最终识别结果,包括:
在所述初步识别结果的基础上,响应于确定所述完整实体确定结果表征所述多个实体为连续的完整实体,拼接所述多个实体,得到所述最终识别结果。
5.根据权利要求1-3中任一项所述的方法,其中,所述识别待识别图像,以确定对于所述待识别图像中的实体的初步识别结果,包括:
识别所述待识别图像,得到文本信息;
通过预训练的全局指针模型提取所述文本信息中的实体,得到所述初步识别结果,其中,所述全局指针模型用于提取所述文本信息中的实体。
6.根据权利要求3所述的方法,其中,所述完整实体确定模型通过如下方式训练得到:
获取训练样本集,其中,所述训练样本集中的训练样本包括多个分裂实体和表征多个分裂实体属于同一完整实体的关系标签;
利用机器学习方法,以训练样本中的多个分裂实体为输入,以所输入的训练样本中的关系标签为期望输出,训练得到所述完整实体确定模型。
7.一种实体识别装置,包括:
识别单元,被配置成识别待识别图像,以确定对于所述待识别图像中的实体的初步识别结果;
第一确定单元,被配置成响应于确定所述初步识别结果中包括同类别的多个实体,确定所述待识别图像的图像特征和所述多个实体的文本特征;
第二确定单元,被配置成结合所述图像特征和所述文本特征,确定所述多个实体是否为连续的完整实体,得到完整实体确定结果;
得到单元,被配置成结合所述初步识别结果和所述完整实体确定结果,得到最终识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111413500.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大容量电池的密封结构
- 下一篇:时间戳数据读写电路以及测距系统