[发明专利]使用机器学习模型来抑制偏差数据在审
申请号: | 201980057266.0 | 申请日: | 2019-08-26 |
公开(公告)号: | CN112639842A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 克里斯托弗·法勒;史蒂文·罗斯 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 李佳;周亚荣 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 机器 学习 模型 抑制 偏差 数据 | ||
一种用于使用机器学习模型(300)抑制偏差数据的方法(500)包括:接收包括已知的无偏差数据群体的聚类训练数据集(130),以及训练聚类模型(211)以基于已知的无偏差数据群体的数据特性对接收到的聚类训练数据集分段成聚类(212)。聚类训练数据集的每个聚类包括聚类权重(214)。该方法还包括:接收用于机器学习模型的训练数据集(302);以及基于聚类模型生成与用于机器学习模型的训练数据集相对应的训练数据集权重(218)。该方法还包括调整训练数据集权重中的每个训练数据集权重以与相应聚类权重匹配,和将调整的训练数据集作为无偏差训练数据集提供给机器学习模型(206)。
技术领域
本公开涉及使用机器学习模型抑制(reject)偏差数据。
背景技术
一般地说,偏差是统计数据高估或低估参数的趋势。在这方面,收集数据和分析数据通常包括一些固有偏差。这些偏差可能由收集和分析的方法或执行收集和分析的实体产生。例如,由人类设计并执行的数据研究可以迎合特定假设、人类设计约束(例如,人类能力)、采样约束等。通过迎合这些要素,研究的数据结果很可能包括各种采样误差、测量误差、或更广泛地基于不表示研究目标群体(target population)的样本的误差。由于计算机处理使得技术能够以与人类活动不可比拟的速率收集数据和分析数据,所以数据处理技术必须同样地克服偏差的问题。否则,数据处理尤其对于大块数据,可能放大偏差问题并产生也与由人类活动产生的偏差不可比拟的结果。
发明内容
本公开的一个方面提供一种用于使用机器学习模型来抑制偏差数据的方法。该方法包括,在数据处理硬件处接收聚类训练数据集,聚类训练数据集包括已知的无偏差数据群体。该方法还包括,由数据处理硬件训练聚类模型以基于已知的无偏差数据群体的数据特性将接收到的聚类训练数据集分段成聚类。聚类训练数据集的每个聚类包括聚类权重。方法进一步包括,在数据处理硬件处接收用于机器学习模型的训练数据集;和由数据处理硬件基于聚类模型生成与用于机器学习模型的训练数据集相对应的训练数据集权重。该方法还包括,由数据处理硬件调整训练数据集权重中的每个训练数据集权重以与相应聚类权重匹配并且形成调整的训练数据集;以及由数据处理硬件将经调整的训练数据集作为无偏差的训练数据集提供给机器学习模型。
本公开的实现方式可以包括以下任选特征中的一个或多个。在一些实现方式中,该方法包括将调整的训练数据集作为无偏差训练数据集提供给机器学习模型还包括用无偏差训练数据集来训练机器学习模型。该方法可以包括由数据处理硬件用无偏差训练数据集来训练机器学习模型或者可以包括在数据处理硬件处接收包括至少一个相应的数据特性的样本数据集。在这里,该方法还可以包括由数据处理硬件使用所训练的机器学习模型基于所接收的样本数据集来生成无偏差预测值。
在一些示例中,调整每个训练数据集权重以与相应的聚类权重匹配包括:对于每个训练数据集权重,基于公共数据特性来使该训练数据集权重与相应的聚类权重匹配;以及从训练数据集中移除数据,直到该训练数据集权重与相应的聚类权重匹配为止。在其他示例中,调整每个训练数据集权重以与相应的聚类权重匹配包括:对于每个训练数据集权重,基于公共数据特性来使该训练数据集权重与聚类权重匹配;以及从训练数据集中复制数据,直到每个训练数据集权重与相应的聚类权重匹配为止。
在一些配置中,对于每个训练数据集权重,调整每个训练数据集权重以与相应的聚类权重匹配包括基于公共数据特性来使该训练数据集权重与聚类权重匹配。当训练数据集权重小于相应的聚类权重时,该方法可以包括关联指示针对与训练数据集权重相对应的训练数据增加机器学习模型的训练的重要性权重。附加地或替换地,对于每个训练数据集权重,调整每个训练数据集权重以与相应的聚类权重匹配可以包括基于公共数据特性来使该训练数据集权重与聚类权重匹配。在这里,当训练数据集权重大于相应的聚类权重时,该方法可以包括关联指示针对与训练数据集权重相对应的训练数据减少机器学习模型的训练的重要性权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980057266.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控制系统、控制方法以及控制程序
- 下一篇:光调制器及使用了该光调制器的光模块