[发明专利]基于联邦学习的分布式语言关系识别方法、系统和装置有效
申请号: | 202011285430.4 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112101578B | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 赵军;陈玉博;刘康;隋典伯 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06N20/20 | 分类号: | G06N20/20;G06F30/27;G06K9/62 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 联邦 学习 分布式 语言 关系 识别 方法 系统 装置 | ||
本发明属于数据识别领域,具体涉及了一种基于联邦学习的分布式语言关系识别方法、系统和装置,旨在解决多个参与方在不共享数据的基础上难以联合建模的问题。本发明包括:各个本地平台获取待识别数据和带标签的本地训练数据,在根据本地训练数据训练本地分类器模型,用训练好的分类器模型集成为全局分类器模型,再通过全局分类器模型初始化本地分类器模型,用初始化后的本地分类模型识别待识别的数据获得语言关系预测结果。本发明实现了在不共享数据的基础上将本地平台结合其它平台进行数据使用和机器学习建模,提高了自然语言识别模型训练的协作性,解决了数据孤岛的问题,降低各个平台训练模型所需的训练数据总量和要求。
技术领域
本发明属于数据识别领域,具体涉及了一种基于联邦学习的分布式语言关系识别方法、系统和装置。
背景技术
现实生活中,绝大多数企业都存在数据量少,数据质量差的问题,不足以支撑人工智能技术的实现;同时国内外环境也在逐步加强数据保护,因此数据在安全合规的前提下自由流动,成了大势所趋;在用户和企业角度下,商业公司所拥有的数据往往都有巨大的潜在价值。两个公司甚至公司间的部门都要考虑利益的交换,往往这些机构不会向其他公司提供其私有数据,即使在同一个公司内,数据也往往以孤岛形式出现。为了解决数据孤岛,以及隐私保护问题,联邦学习应运而生。联邦机器学习(Federated Machine Learning/Federated Learning),又名联邦学习,联合学习,联盟学习,是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现人工智能的协作。
发明内容
为了解决现有技术中的上述问题,如何实现多个参与方在不共享数据的基础上联合建模,打破数据孤岛实现人工智能协作的问题,本发明提供了一种基于联邦学习的分布式语言关系识别方法,所述方法包括:
步骤S100,各个本地平台获取待识别数据和带标签的本地训练数据;
步骤S200,各个本地平台通过带标签的本地训练数据训练第一本地分类器模型,获得第二本地分类器模型;
步骤S300,基于各个本地平台的所述第二本地分类器模型,通过加权平均的方法生成全局分类器模型;
步骤S400,基于所述全局分类器模型初始化各个本地平台的所述第二本地分类器模型,生成第三本地分类器模型;
步骤S500,通过所述第三本地分类器模型进行所述待识别数据的语言关系识别,获取待识别数据的语言关系预测结果。
进一步地,步骤S200包括:
步骤S210,令t=1,通过BERT模型进行所述带标签的本地训练数据的编码操作,将所述带标签的本地训练数据的每个句子生成1个句子特征化表示和多个实体特征化表示;
步骤S220,选取所述带标签的本地数据的第t句子,选取2个实体特征化表示,并将选取的2个实体特征化表示和所述句子特征化表示拼接生成蕴含实体信息的句子表示:
其中,为句子特征化表示,为第1个选取的实体特征化表示,为第2个选取的实体特征化表示,表示实数空间,d表示每个特征化表示的维度;
步骤S230,基于所述蕴含实体信息的句子表示,通过第一本地分类器模型获取带标签的本地训练数据的预测语言关系p:
其中,表示蕴含实体信息的句子表示的预测关系分布,预测关系分布中数值最大的为最终预测关系p,表示关系标签,表示句子的集合,表示模型参数,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011285430.4/2.html,转载请声明来源钻瓜专利网。