[发明专利]意图识别优化处理方法、装置、设备及存储介质有效
申请号: | 202010432368.0 | 申请日: | 2020-05-20 |
公开(公告)号: | CN111611366B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 宁泽钰;姚旭晨;方文浩;付波;冯丽芹;褚晓梅 | 申请(专利权)人: | 北京百度网讯科技有限公司;百度(美国)有限责任公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06Q30/015 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 意图 识别 优化 处理 方法 装置 设备 存储 介质 | ||
1.一种意图识别优化处理方法,其特征在于,包括:
获取第一意图集和至少一条原始语料;
获取每一条所述原始语料的第一识别结果,其中,任意一条所述原始语料的第一识别结果包括利用意图识别模型识别出的该原始语料对应的第一意图;
获取每一条所述原始语料的第二识别结果,其中,任意一条所述原始语料的第二识别结果包括人工识别出该原始语料对应的第二意图;
根据每一条所述原始语料的所述第一识别结果,确定所述第一意图为该任意一个意图的原始语料的数目,构成第一语料数;
根据所述第一意图为该任意一个意图的每一条原始语料的所述第二识别结果,确定所述第二意图为该任意一个意图的原始语料的数目,构成第二语料数;
根据所述第一意图集中的每一个意图对应的所述第一语料数和所述第二语料数,确定所述第一意图集的第一准确率;
重复该步骤,直至确定出所述第一意图集中的每两个意图是否需要合并:根据所述第一意图集中的任意两个意图对应的所述第一语料数和所述第二语料数,确定该任意两个意图合并后得到的第三意图集对应的第二准确率,当所述第二准确率高于所述第一准确率时,确定该任意两个意图需要合并;
对所述第一意图集中的任意两个需要合并的意图进行合并处理,得到所述第二意图集。
2.根据权利要求1所述的方法,其特征在于,所述第一准确率为所述第一意图集中的所有意图对应的第二语料数总和与第一语料数总和的比值;所述第二准确率为所述第三意图集中的所有意图对应的第二语料数总和与第一语料数总和的比值。
3.根据权利要求1所述的方法,其特征在于,获取每一条所述原始语料的第二识别结果,包括:
根据每一条所述原始语料的所述第一识别结果,确定每一条所述原始语料的标注价值,并将所述标注价值超过设定阈值的所述原始语料确定为价值语料,得到至少一条价值语料;
获取每一条所述价值语料的所述第二识别结果。
4.根据权利要求3所述的方法,其特征在于,每一条所述原始语料的所述第一识别结果还包括所述原始语料对应所述第一意图集中的每一个意图的意图置信度;根据每一条所述原始语料的所述第一识别结果,确定每一条所述原始语料的标注价值,包括:
根据每一条所述原始语料对应所述第一意图集中的每一个意图的意图置信度,确定每一条所述原始语料对应的置信度信息熵、最高意图置信度和次最高意图置信度;
根据每一条所述原始语料对应的置信度信息熵、最高意图置信度和次最高意图置信度,确定每一条所述原始语料的标注价值。
5.根据权利要求1所述的方法,其特征在于,获取每一条所述原始语料的第二识别结果,包括:
当未获取到某条原始语料的所述第二识别结果时,确定该原始语料的所述第二识别结果为与所述第一识别结果相同的识别结果。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括在得到所述第二意图集后,利用所述意图识别模型在所述第二意图集中选择意图进行语料标注。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:根据每一条所述原始语料的所述第二识别结果,训练所述意图识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司;百度(美国)有限责任公司,未经北京百度网讯科技有限公司;百度(美国)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010432368.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动泊车性能评价方法
- 下一篇:用于执行散列算法的电路和方法