[发明专利]实体识别方法、装置、计算机可读介质及电子设备在审
申请号: | 201911121649.8 | 申请日: | 2019-11-15 |
公开(公告)号: | CN112818083A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 王颖帅;李晓霞;苗诗雨 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F40/295 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 识别 方法 装置 计算机 可读 介质 电子设备 | ||
1.一种实体识别方法,其特征在于,所述方法包括:
通过样本序列对应的多个原始实体类型以及所述样本序列中由所述多个原始实体类型分别对应的原始实体标注所述样本序列;
通过标注后的样本序列训练针对所述多个原始实体类型中至少一种原始实体类型的实体识别网络;
根据训练后的实体识别网络识别用户输入的会话序列中的实体。
2.根据权利要求1所述的方法,其特征在于,通过样本序列对应的多个原始实体类型以及所述样本序列中由所述多个原始实体类型分别对应的原始实体标注所述样本序列,包括:
分别采集多组历史用户会话中的首句作为样本序列,并根据所述多组历史用户会话的内容确定所述多组历史用户会话分别对应的用户意图;
根据所述用户意图确定所述样本序列对应的多个原始实体类型以及所述样本序列中由所述多个原始实体类型分别对应的原始实体;
根据所述多个原始实体类型和所述原始实体标注所述样本序列。
3.根据权利要求2所述的方法,其特征在于,分别采集多组历史用户会话中的首句作为样本序列,包括:
分别采集所述多组历史用户会话中的首句,并根据预设话术规则对所述首句进行筛选,并将筛选后的首句确定为样本序列。
4.根据权利要求2所述的方法,其特征在于,根据所述用户意图确定所述样本序列对应的多个原始实体类型以及所述样本序列中所述多个原始实体类型分别对应的原始实体,包括:
根据所述多组历史用户会话分别对应的用户意图确定所述样本序列分别对应的用户意图;
根据预设的用户意图数据分布对各类型的所述用户意图分别对应的样本序列的数量进行调整,以及根据预设的序列长度分布对各序列长度区段的样本序列的数量进行调整;
根据所述用户意图确定调整后的样本序列对应的多个原始实体类型,以及确定调整后的样本序列中由所述多个原始实体类型分别对应的原始实体。
5.根据权利要求1所述的方法,其特征在于,通过标注后的样本序列训练针对所述多个原始实体类型中至少一种原始实体类型的实体识别网络,包括:
确定标注后的样本序列的字符级别特征向量和词语级别特征向量;
将所述字符级别特征向量和所述词语级别特征向量输入实体识别网络,通过所述实体识别网络识别所述样本序列对应的实体;其中,所述实体识别网络用于针对所述多个原始实体类型中至少一种原始实体类型进行实体识别;
通过所述实体与对应的原始实体之间的损失函数更新所述实体识别网络的网络参数。
6.根据权利要求5所述的方法,其特征在于,确定标注后的样本序列的字符级别特征向量以及词语级别特征向量,包括:
确定标注后的样本序列中每个字对应的特征向量,作为字符级别特征向量;
对标注后的样本序列进行分词处理,并确定分词结果对应的特征向量,作为词语级别特征向量。
7.根据权利要求5所述的方法,其特征在于,其中:
所述实体识别网络包括针对第一原始实体类型的第一实体识别网络和针对第二原始实体类型的第二实体识别网络,所述多个原始实体类型中包括所述第一原始实体类型和所述第二原始实体类型;
将所述字符级别特征向量和所述词语级别特征向量输入实体识别网络,通过所述实体识别网络识别所述样本序列对应的实体,包括:
将所述字符级别特征向量和所述词语级别特征向量分别输入所述第一实体识别网络和所述第二实体识别网络,通过所述第一实体识别网络识别与所述第一原始实体类型对应的第一实体,并通过所述第二实体识别网络识别与所述第二原始实体类型对应的第二实体;
通过所述实体与对应的原始实体之间的损失函数更新所述实体识别网络的网络参数,包括:
计算所述第一实体与所述第一原始实体类型对应的原始实体之间的第一损失函数,并计算所述第二实体与所述第二原始实体类型对应的原始实体之间的第二损失函数;
根据所述第一损失函数更新所述第一实体识别网络的网络参数,并根据所述第二损失函数更新所述第二实体识别网络的网络参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911121649.8/1.html,转载请声明来源钻瓜专利网。