如何克服AI中的模型偏差？

发表于 2020年1 月22日星期三上午 8:06:10

拇指1
缓解AI（人工智能）领域的模型偏差是一个具有挑战性的话题。有时可能意味着将子组的校准曲线拉近。没有解决模型偏差的标准解决方案。工程师实质上是在问如何使一个或多个子组的模型表现更好。有一些标准技术可用于改善针对亚组的模型性能，并观察它们如何影响亚组的失校准。
在评估机器学习模型的算法偏差时，团队要研究的主要内容之一是校准曲线。校准曲线用于测量模型评分是否准确反映了样本属于优势类别的概率。当在不同子组之间比较校准曲线时（例如，分别绘制男性和女性的校准曲线），我们本质上是在询问该模型是否系统性地高估或低估了某些子组发生结局的机会。下图显示了样品校准曲线。 x轴显示模型得分，而y轴显示标记为优势的平均样本数。理想曲线应位于y = x线上。例如，在模型分配给所有分数的0.6个样本中，应将60％的样本标记为优势。当曲线在y = x线上方时，样本预测不足；也就是说，模型得分小于样本被标记为优势类别的概率。当曲线在y = x线以下时，该模型过度预测了概率。

计算和绘制校准曲线相对容易。有内部和外部库都可以执行此类操作。如果各个子组之间的校准曲线不同，那么问题就变成如何对齐曲线。当模型通常未经校准时，标准处理方法是应用普拉特缩放或等渗回归来重新缩放模型输出以反映概率。简单地对每个子组分别应用这些相同技术的原因将是确保校准曲线在子组之间相同的直接方法。虽然可以将校准应用于总体模型得分，但通常不建议对子组应用单独的校准，因为它可以处理症状而不是潜在问题。单独的校准还会按子组引入程序上的不一致，这意味着我们在进行预测时会使用子组标签。从策略的角度来看，这可能是不可接受的，具体取决于上下文。例如，按语言应用不同的分数校正可能很有意义，但是如果子组说的是意识形态，则对于保守与自由的内容这样做可能不是无可辩驳的。使用校准曲线作为代理来衡量模型的绩效各个子组之间的差异表明，减少校准曲线上的差异可归结为总体上提高模型性能，这可能是由于偏重于未正确校准的子组的缘故。有一个隐含的假设，即模型是在不同的度量标准（例如召回精度，FPR / FNR成本比）下进行训练和评估的，并且校准提供了另一种查看模型工作方式的方法。仅仅为了获得相等的校准值而使一组预测的预测变得更糟永远是不正确的，以下是一些可行的方法：

添加更多数据
- 如上所述，由于一个亚组相对于另一个亚组缺少训练样本，经常会发生亚组校准错误。因此，一种解决方案是为代表性不足的人群收集更多的训练样本。当然，仅收集更多训练样本并不能保证该模型将能够产生更准确的预测。
尝试更复杂的ML架构
- 在某些情况下，模型的表现力不足以捕获要素之间的一些细微的相互作用，因此值得探索替代模型架构。一种解决方案可能是训练梯度提升的决策树，该决策树能够考虑到要素之间更复杂的相互作用，并证明子组校准方面的改进。
特征工程
- 理想情况下，特征工程将是减少子组错误校准的首选方法。在雇用算法的情况下，经常使用的典型示例可能会发现长时间不工作是工作绩效的负面指标。但是，这可能会对妇女产生不成比例的影响，妇女在儿童/家庭护理方面的就业机会更大。无论是出于公平还是为了表现模范，一个更好的特征是将非自愿失业与育儿假或家庭假区别开来。了解功能含义在各个子组之间如何变化可以帮助弥合这些组之间的性能差距。
训练每个子组的单独模型*
- 训练一个单独的模型与添加更多数据有松散的关系。如果我们能够为每个子组收集“足够的”训练数据，那么简单地建立不同的模型可能是有意义的。也许不同的功能与亚组有关。分离模型使意图更加明确，即重点在于改善每个子组的模型性能。另一方面，训练单独的模型并不容易扩展，因为我们包括了更多类型的要考虑的子组。例如，除了帖子的语言外，我们可能还会关注帖子作者的性别和年龄。然后训练单独的模型将意味着我们将需要为亚组身份的每种可能组合训练不同的模型（例如，年龄在18-22岁之间的男性说英语，年龄在18-22岁之间的女性说英语等）
将子组标识添加为功能*
- 虽然将亚组身份作为特征添加可能具有一定的实用敏感性，但学术文献表明，通常更希望为模型提供更多信息（请参见《公平的度量与错误度量：公平机器学习的回顾》）。当代表性成为问题时，子组身份通常对于模型最有用。但是，请考虑上面概述的雇用算法情况。给定一个长时间不工作的特征，将性别作为一项新特征添加进去可能会使该模型变得更具校准性，因为它了解到长时间不工作在男女之间具有不同的含义。然而，这仍然会低估休家庭假的男性的表现，而高估了非自愿休假的男性的表现（并给女性带来相反的错误）。

训练单独的模型并将子组标识添加为功能类似于对每个子组分别应用校准，因为它会在子组之间引入程序上的不一致。通常，应将后两种方法视为万不得已的解决方案，因为它们不能直接解决子组相对不佳的问题。尽管如此，使用能够捕获要素之间更复杂的相互作用的更复杂的模型，从代表性不足的组中采样其他数据，以及进行更好的要素工程，都是缓解偏差的有效方法。

资讯来源：由0x资讯编译自DATADRIVENINVESTOR，版权归作者Ayse Kok所有，未经许可，不得转载