[发明专利]核心实体标注方法、装置及电子设备有效
申请号: | 202010042343.X | 申请日: | 2020-01-15 |
公开(公告)号: | CN111241832B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 王述;任可欣;张晓寒;冯知凡;张扬;朱勇 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/36 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 戎郑华 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 核心 实体 标注 方法 装置 电子设备 | ||
1.一种核心实体标注方法,其特征在于,包括:
分别将目标文本进行字向量映射、词向量映射及实体向量映射,获取所述目标文本分别对应的字向量序列、第一词向量序列及实体向量序列,其中,所述字向量序列包括所述目标文本中每个字符对应的字向量,所述第一词向量序列包括所述目标文本中每个分词对应的词向量,所述实体向量序列包括所述目标文本中每个实体对应的实体向量;
根据所述目标文本对应的字向量序列、第一词向量序列及实体向量序列,生成所述目标文本对应的目标向量序列;
利用预设的网络模型对所述目标向量序列进行编码、解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率;
根据每个字符作为核心实体的起始字符概率、及终止字符概率,确定所述目标文本的核心实体;
所述获取所述目标文本分别对应的字向量序列、第一词向量序列及实体向量序列之前,还包括:
对所述目标文本进行识别,判断所述目标文本中是否包含以预设符号间隔的多个实体;
对所述目标文本进行实体向量映射,包括:
若包含,则对第一个所述预设符号前的第四实体、及所述目标文本中除所述以预设符号间隔的多个实体之外的第五实体进行实体向量映射;
所述确定所述目标文本的核心实体之后,还包括:
判断所述第四实体是否为核心实体;
若所述第四实体为核心实体,则确定与所述第四实体以预设符号间隔的其他各实体为所述目标文本的核心实体。
2.如权利要求1所述的方法,其特征在于,所述确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率之前,还包括:
获取所述目标文本中每个实体对应的核心实体先验概率;
对所述目标文本中各实体对应的核心实体先验概率进行全连接处理,确定所述目标文本对应的先验序列向量;
所述确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率,包括:
利用预设的网络模型对所述目标向量序列进行编码处理,确定所述目标向量序列对应的目标序列向量;
利用所述预设的网络模型,对所述目标序列向量及所述先验序列向量进行解码处理,确定所述目标文本中每个字符作为核心实体的起始字符概率、及终止字符概率。
3.如权利要求1所述的方法,其特征在于,所述生成所述目标文本对应的目标向量序列,包括:
若所述第一词向量序列中的第一词向量对应的第一分词中包含的字符数量为N,则将所述第一词向量重复N次,生成第二词向量序列;
将所述第二词向量序列进行矩阵变换,生成第三词向量序列,所述第三词向量序列的维数与所述目标文本对应的字向量序列维数相同;
将所述第三词向量序列与所述目标文本对应的字向量序列进行合成,生成预处理向量序列;
将所述目标文本对应的实体向量序列进行对齐及矩阵变换,生成与所述预处理向量序列维数相同的变换向量序列;
将所述变换向量序列与所述预处理向量序列进行合成,生成所述目标向量序列。
4.如权利要求1所述的方法,其特征在于,所述生成所述目标文本对应的目标向量序列,包括:
将所述目标文本对应的字向量序列、第一词向量序列及实体向量序列进行拼接处理,生成所述目标文本对应的目标向量序列。
5.如权利要求1-4任一所述的方法,其特征在于,所述确定所述目标文本的核心实体之后,还包括:
根据每个核心实体中的起始字符概率及终止字符概率,确定每个核心实体的得分。
6.如权利要求5所述的方法,其特征在于,若确定所述目标文本的核心实体包含多个,则所述确定每个核心实体的得分之后,还包括:
判断所述目标文本的多个核心实体中是否包含相交实体;
若第一实体分别与第二实体及第三实体相交,则判断所述第一实体的得分,是否大于第二实体的得分与第三实体的得分的和;
若所述第一实体的得分,大于第二实体的得分与第三实体的得分的和,则将所述第二实体及第三实体从所述目标文本的核心实体中剔除;
若第二实体的得分与第三实体的得分的和,大于所述第一实体的得分,则将所述第一实体从所述目标文本的核心实体中剔除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010042343.X/1.html,转载请声明来源钻瓜专利网。