[发明专利]文本模型的训练方法、识别方法、装置、设备及存储介质在审

申请号：	202011446681.6	申请日：	2020-12-11
公开（公告）号：	CN112734050A	公开（公告）日：	2021-04-30
发明（设计）人：	李志韬;王健宗;程宁	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06N20/20	分类号：	G06N20/20;G06F40/279
代理公司：	深圳市力道知识产权代理事务所(普通合伙) 44507	代理人：	张传义
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本模型训练方法识别装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，公开了一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质，该方法包括：通过获取待训练集数据，基于所述待训练集数据训练预置语言模型，得到所述预置语言模型的模型参数信息；将所述模型参数信息加密并上传至预置聚合联邦模型，以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息；基于所述聚合模型参数信息更新所述预置语言模型，得到对应的文本模型，实现保护数据隐私的基础上联合训练多个模型，并提高预测违规文本的准确率以及减少模型的训练时间。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

违规内容识别在互联网世界被广泛应用，违规内容在互联网上广泛传播会给国家和社会造成潜在或显在的负面影响和危害。所以，如何能快速分析识别互联网中的违规内容,成为行业部门面临的挑战。违规内容的载体有很多，如文字、图片、视频、音频等。

传统的违规内容检测的做法是雇佣职业人员去筛查，标注，过滤，虽然目前引入了AI过滤，用到了语义识别、分类的技术，但不同企业平台收到不同的违规内容，但这些违规内容数据考虑到隐私性、不安全性以及不能传播共享性，难以实现联合建模。

发明内容

本申请的主要目的在于提供一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质，旨在解决现有将数据集上传至云端作为模型训练数据的过程中，容易出现数据集泄露，损害用户的安全，且得到的训练模型预测违规内容不准确的技术问题的技术问题。

第一方面，本申请提供一种基于联邦学习的文本模型的训练方法，所述基于联邦学习的文本模型的训练方法包括以下步骤：

获取待训练集数据，基于所述待训练集数据训练预置语言模型，得到所述预置语言模型的模型参数信息；

将所述模型参数信息加密并上传至预置聚合联邦模型，以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息；

基于所述聚合模型参数信息更新所述预置语言模型，得到对应的文本模型。

第二方面，本申请提供一种基于联邦学习的文本模型的识别方法，所述基于联邦学习的文本模型的识别方法包括以下步骤：