[发明专利]基于机器学习的迁移数据确定方法、装置、设备及介质有效
申请号: | 201910637116.9 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110377587B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 魏颖;黄俊洲 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/9032;G06F18/22;G06N20/00 |
代理公司: | 北京三高永信知识产权代理有限责任公司 11138 | 代理人: | 邢少真 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 迁移 数据 确定 方法 装置 设备 介质 | ||
1.一种基于机器学习的迁移数据确定方法,其特征在于,包括:
获取服务器分别向多个终端进行数据迁移的迁移过程数据,所述迁移过程数据包括被迁移的个性化数据以及每个终端的终端侧数据;
对所述每个终端对应的个性化数据和所述每个终端的终端侧数据进行非线性变换;
通过非线性变换后的所述个性化数据和所述终端侧数据中已经被标记后的标签数据,确定非线性变换后的所述个性化数据和所述终端侧数据之间共有特征对应的数据;针对于没有标签数据的所述个性化数据和所述终端侧数据,通过聚类算法对非线性变换后的所述个性化数据和所述终端侧数据进行聚类,确定出所述非线性变换后的所述个性化数据和所述终端侧数据之间共有特征对应的数据;
根据所述共有特征对应的数据,确定所述非线性变换后的所述个性化数据和所述终端侧数据之间的相似度;
基于所述相似度和在非线性变换之前的所述个性化数据和所述终端侧数据的相似程度与在非线性变换之后的所述个性化数据和所述终端侧数据的相似程度是否发生变化,确定多个终端的数据迁移性能指标;
基于所述每个终端的数据迁移性能指标对待训练模型进行训练,获得迁移模型,所述迁移模型用于从所述服务器的通用数据中确定出待迁移的个性化数据;
响应于终端的迁移请求,基于所述迁移模型确定向所述终端迁移的数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述共有特征对应的数据,确定所述非线性变换后的所述个性化数据和所述终端侧数据之间的相似度包括:
分别计算所述共有特征对应的数据的核距离、核距离的方差以及协方差;
将所述共有特征对应的数据之间的核距离、核距离的方差以及协方差的加权值确定为所述相似度。
3.根据权利要求2所述的方法,其特征在于,所述分别计算所述共有特征对应的数据的核距离、核距离的方差以及协方差包括:
对所述共有特征对应的个性化数据与终端侧数据之间进行内积平方运算,获得所述共有特征对应的数据的核距离;
构建任意两个共有特征对应的个性化数据与终端侧数据之间核距离的方差矩阵;
将所述共有特征对应的数据的距离与所述核距离之间的差异值作为所述共有特征对应的数据的协方差。
4.根据权利要求3所述的方法,其特征在于,所述构建任意两个共有特征对应的个性化数据与终端侧数据之间核距离的方差矩阵之后,还包括:
基于所述核距离的方差矩阵,将所述共有特征对应的数据中方差值大于预设阈值的个性化数据和终端侧数据进行补偿。
5.根据权利要求1所述的方法,其特征在于,所述基于所述每个终端的数据迁移性能指标对待训练模型进行训练,获得迁移模型,所述迁移模型用于从所述服务器的通用数据中确定出待迁移的个性化数据,包括:
将所述每个终端的数据迁移性能指标与所述待训练模型中对应的待训练迁移参数进行差异比对,确定所述多个终端的数据迁移性能指标与所述待训练迁移参数之间的差异程度;
获取使每个差异程度最小化的迁移配置参数;
基于所述迁移配置参数配置所述待训练模型,获得所述迁移模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910637116.9/1.html,转载请声明来源钻瓜专利网。