[发明专利]文本模型的训练方法、识别方法、装置、设备及存储介质在审
申请号: | 202011446681.6 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112734050A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 李志韬;王健宗;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06F40/279 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 模型 训练 方法 识别 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,公开了一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型,实现保护数据隐私的基础上联合训练多个模型,并提高预测违规文本的准确率以及减少模型的训练时间。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
违规内容识别在互联网世界被广泛应用,违规内容在互联网上广泛传播会给国家和社会造成潜在或显在的负面影响和危害。所以,如何能快速分析识别互联网中的违规内容,成为行业部门面临的挑战。违规内容的载体有很多,如文字、图片、视频、音频等。
传统的违规内容检测的做法是雇佣职业人员去筛查,标注,过滤,虽然目前引入了AI过滤,用到了语义识别、分类的技术,但不同企业平台收到不同的违规内容,但这些违规内容数据考虑到隐私性、不安全性以及不能传播共享性,难以实现联合建模。
发明内容
本申请的主要目的在于提供一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质,旨在解决现有将数据集上传至云端作为模型训练数据的过程中,容易出现数据集泄露,损害用户的安全,且得到的训练模型预测违规内容不准确的技术问题的技术问题。
第一方面,本申请提供一种基于联邦学习的文本模型的训练方法,所述基于联邦学习的文本模型的训练方法包括以下步骤:
获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
第二方面,本申请提供一种基于联邦学习的文本模型的识别方法,所述基于联邦学习的文本模型的识别方法包括以下步骤:
获取待预测文本;
基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息;
基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息;
根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为上述的基于联邦学习的文本模型的训练方法得到的。
第三方面,本申请还提供一种基于联邦学习的文本模型的训练装置,所述基于联邦学习的文本模型的训练装置包括:
第一获取模块,用于获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
第二获取模块,用于将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
生成模块,用于基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
第四方面,本申请还提供一种基于联邦学习的文本模型的训练装置,所述基于联邦学习的文本模型的训练装置包括:
第一获取模块,用于获取待预测文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011446681.6/2.html,转载请声明来源钻瓜专利网。