[发明专利]一种模型失效检测方法、装置、电子设备及介质有效
申请号: | 202111402604.5 | 申请日: | 2021-11-19 |
公开(公告)号: | CN114065759B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 吕博文;何维华;刘宝强 | 申请(专利权)人: | 深圳数阔信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/44;G06F18/214 |
代理公司: | 深圳智汇远见知识产权代理有限公司 44481 | 代理人: | 蒋学超 |
地址: | 518057 广东省深圳市南山区西*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 失效 检测 方法 装置 电子设备 介质 | ||
1.一种模型失效检测方法,其特征在于,包括:
获取待测模型对应的训练数据的第一文本分布;所述训练数据为自然语言数据,所述第一文本分布包括单词及所述单词对应的词频;
获取所述待测模型对应的业务数据的第二文本分布;所述业务数据为在预设的时间区间内采集的所述待测模型对应的自然语言数据,所述第二文本分布包括单词及所述单词对应的词频;
获取所述第一文本分布以及所述第二文本分布之间的偏移值;
在所述偏移值大于预设的预警阈值时,执行预设操作。
2.根据权利要求1所述的模型失效检测方法,其特征在于,所述获取待测模型对应的训练数据的第一文本分布,包括:
对所述训练数据进行分词处理,得到第一文本集合;
将所述第一文本集合中的停用词删除,得到第二文本集合;
对所述第二文本集合中的单词进行词频统计,得到所述第一文本分布。
3.根据权利要求1或2所述的模型失效检测方法,其特征在于,所述获取所述待测模型对应的业务数据的第二文本分布,包括:
对所述业务数据进行分词处理,得到第三文本集合;
将所述第三文本集合中的停用词删除,得到第四文本集合;
对所述第四文本集合中的单词进行词频统计,得到所述第二文本分布。
4.根据权利要求1所述的模型失效检测方法,其特征在于,所述获取所述第一文本分布以及所述第二文本分布之间的偏移值,包括:
提取所述第一文本分布与所述第二文本分布中的公共词,得到公共词集合;
从所述第一文本分布中,筛选出所述公共词的词频,得到第三文本分布;
从所述第二文本分布中,筛选出所述公共词的词频,得到第四文本分布;
对所述第三文本分布进行归一化处理得到第一概率分布Q;
对所述第四文本分布进行归一化处理得到第二概率分布Pt;
根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值。
5.根据权利要求4所述的模型失效检测方法,其特征在于,所述根据所述第一概率分布Q和第二概率分布Pt计算所述偏移值,包括:
通过以下公式计算所述第一概率分布Q和第二概率分布Pt之间的KL散度作为所述偏移值;
或计算所述第一概率分布Q和第二概率分布Pt之间的JS散度,作为所述偏移值。
6.根据权利要求4或5所述的模型失效检测方法,其特征在于,还包括:
选取预设数量的单词作为主要归因词汇;
根据所述主要归因词汇筛选目标训练数据;
通过所述目标训练数据对所述待测模型进行训练。
7.根据权利要求6所述的模型失效检测方法,其特征在于,所述选取预设数量的单词作为主要归因词汇,包括:
根据所述第三文本分布,获取所述公共词集合中的单词在所述第三文本分布中的第一频次占比;
根据所述第四文本分布,获取所述公共词集合中的单词在所述第四文本分布中的第二频次占比;
根据所述第一频次占比以及第二频次占比,获取所述公共词集合中的单词的偏离量;所述偏离量为第一频次占比相对于第二频次占比的偏离差异;
通过公式计算所述偏离量Δw,其中qw为第一频次占比,pw为第二频次占比;
从所述公共词集合中按照偏离量由大到小的顺序对单词进行排序。
8.一种模型失效检测装置,其特征在于,所述模型失效检测装置包括用于执行如权利要求1-7任一项所述方法的单元。
9.一种电子设备,其特征在于,包括:
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳数阔信息技术有限公司,未经深圳数阔信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111402604.5/1.html,转载请声明来源钻瓜专利网。