[发明专利]基于掩码语言模型的语料检测方法、装置、设备及介质有效
申请号: | 202010888877.4 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112069795B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 邓悦;郑立颖;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F16/35;G06N3/0455;G06N3/08 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 掩码 语言 模型 语料 检测 方法 装置 设备 介质 | ||
本申请涉及人工智能,具体公开了一种基于掩码语言模型的语料检测方法、装置、设备及介质,所述方法包括:将待训练的语料单词输入所述生成器进行训练,得到所述语料单词对应的概率分布;将所述概率分布输入到所述判别器进行训练,得到所述概率分布对应的预测结果,所述预测结果包括所述语料单词是否被替换过,所述预测结果存储于区块链节点中;根据所述语料单词的类别,在所述判别器中输入分类标签,通过所述判别器基于分类标签以及语料单词调整所述预测结果,得到上下文向量;根据所述上下文向量检测所述待训练的语料单词的状态。有效提高模型训练效率,且能高效准确的判断日志文件的异常情况。
技术领域
本申请涉及智能决策技术领域,尤其涉及一种基于掩码语言模型的语料检测方法、装置、计算机设备及介质。
背景技术
在文本处理时,日志文件的异常检测在现代大型分布式系统的管理中起着重要的作用,其广泛用于记录系统运行时信息的日志中。目前,运维人员通常是使用关键字搜索和规则匹配来检查并匹配日志。然而,随着工作量和业务需求的增加,人工检测所需时长也相应增长,变得更加耗时耗力。为了减少人工工作量和同时为了提高目前检测的正确率,基于深度学习的日志异常检测方法在异常检测方向的应用逐渐增加。
目前比较流行的文本处理模型就是基于掩码预训练语言模型,但由于其对于计算资源要求很高,训练成本和运行时长的限制了对模型的修改以及训练。
发明内容
本申请提供了一种智能决策的一种基于掩码语言模型的语料检测方法、装置、计算机设备及介质,有效提高模型训练效率,且能高效准确的判断日志文件的异常情况。
第一方面,本申请提供了一种基于掩码语言模型的语料检测方法,所述方法应用于掩码语言模型,所述掩码语言模型包括生成器和判别器;所述方法包括:
将待训练的语料单词输入所述生成器进行训练,得到所述语料单词对应的概率分布;
将所述概率分布输入到所述判别器进行训练,得到所述概率分布对应的预测结果,所述预测结果包括所述语料单词是否被替换过;
根据所述语料单词的类别,在所述判别器中输入分类标签,通过所述判别器基于分类标签以及语料单词调整所述预测结果,得到上下文向量;
根据所述上下文向量检测所述待训练的语料单词的状态;所述语料单词的类别包括日志文件类别。
第二方面,本申请还提供了一种语料检测装置,所述装置包括:
第一训练模块,用于将待训练的语料单词输入所述生成器进行训练,得到所述语料单词对应的概率分布;
第二训练模块,用于将所述概率分布输入到所述判别器进行训练,得到所述概率分布对应的预测结果,所述预测结果包括所述语料单词是否被替换过;
调整模块,用于根据所述语料单词的类别,在所述判别器中输入分类标签,通过所述判别器基于分类标签以及语料单词调整所述预测结果,得到上下文向量;
检测模块,用于根据所述上下文向量检测所述待训练的语料单词的状态。
第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于存储计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的基于掩码语言模型的语料检测方法。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的基于掩码语言模型的语料检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010888877.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种整车CAN通信功能检测方法
- 下一篇:一种电力抢修用电缆架线装置