第五章模型无关方法

如题所述

第1个回答 2022-07-07

想要解释一个模型，通常有以下三个办法：

可解释机器模型的图景

又称PD图（Partial Dependence Plot），显示了一个或两个特征对机器学习模型的预测结果的边际效应。部分依赖图可以 显示目标和特征之间的关系 是线性的、单调的或更复杂的。
用于回归的部分依赖函数定义为：

两个特征的特征依赖图（三维）：

（1）部分依赖图的计算很直观：如果我们强制所有数据点都假定该特征，则特定特征值处的部分依赖函数表示平均预测
（2）在满足计算PDP的特征和其他特征都不相关的前提下，PDP可以完美表示该特征如何平均影响预测。
（3）部分依赖图 很容易实现
（4）部分依赖图有 因果关系

（1）PDP实际 最大特征数目 为2。
（2）一些PD图未显示 特征分布 ，这可能会产生误导，你可能会过渡解释几乎么有数据的区域。通过显示RUG（x轴上的数据点指示器）或直方图可以轻松解决这个问题。
（3） 独立性的假设 ：PDP的最大问题。它假设了选定特征和其余特征不相关。实际情况下，这很难实现。例如：身高特征和体重特征一定有关联性
（4） 异质效应可能被隐藏 ：因为 PD曲线仅显示平均边际效应 。
举个例子：假设对于一个特征，你的数据点中的一半与预测具有正相关关系，另一半负相关。PD曲线可能是一条水平线，因为数据集的两半效果可能互相抵消。然后我们可能得出结论，该特征对预测没有影响。 通过绘制个体条件期望曲线而不是聚合线 ，我们可以发现异构效应。

又称ICE（Individual Conditional Expectation），因为每个实例显示一条线， 该线显示了特征更改时实例的预测如何改变

与PDP的区别和关系 ：
PDP是一种全局方法，他不关注特定实例，而是关注整体平均。
ICE图将实例对每个特征的预测依赖关系可视化， 每个实例分别产生一条线 ，而PDP只有一条线。**PDP是ICE图的线的平均值。

计算线的值：
保持其他所有特征相同，通过用网络中的值替换特征的值创建该实例的变体并使用黑盒模型对这些新创建的实例进行预测。结果是一组具有来自网格的特征值和相应预测的点

Why ICE instead of PDP？
PDP会掩盖由交互作用创建的异构关系。

例子：
宫颈癌dataset。之前用PDP分析的时候随机森林用于预测给定风险因素的情况下女性患病的概率。通过观测PDP我们看到换宫颈癌的概率在50岁左右增加（下图左），但这是否适用于数据集的每一个女性呢？

我们可以通过观测ICE图

再让我们看看自行车租赁的ICE图（使用随机森林）：

通过观察，我们可以看到，基本所有数据集呈现相同的趋势，没有特别的相互作用，所以他们提供的信息可以用PDP很好的概括了。

优点
ICE更直观，也可以揭示异质关系
缺点
（1）ICE曲线只能 有意义地显示一个特征 ，两个特征需要绘制多个重叠平面，这是看不懂的。
（2）和PDP一样，如果感兴趣的特征和其他特征相关联，则根据 特征联合分布 ，线上的某些点可能是无效的数据点
（3）图像会过于拥挤

累积局部效应（ALE Accumulated Local Effects Plot）描述了 特征平均如何影响机器学习模型的预测 。ALE图是PDP更快、更无偏的替代方法。

计算与其他特征强相关的特征的部分依赖图涉及对在实际中不太可能出现的人工数据实例的平均预测，这会极大地影响估计的特征效应。

举个例子：原模型使用 面积大小 ， 房间数量 两个特征预测 房子价值 ，现在用面积大小作为PDP的选择特征，在第一个网格值（假设30平方米处），将所有实例的面积大小改为30平方米，然后进行预测。这样，对于拥有十几个房间的大房子，我们仍用30平方米进行预测。这样生成的数据点是异常、没有实际意义的。但在PDP中我们没有对这种现象采取任何措施。

引入ALE方法

先总结PDP，M，ALE如何在某个网格值下计算的特征效应
（1）PDP：展示了对于特征对每个数据实例具有值时模型平均预测的结果。忽略了值是否对所有数据实例都有意义
（2）M图：展示了模型对于特征的值接近的数据实例平均预测什么。该效应可能是因为该特征，也可能是因为相关的特征。
（3）ALE图：展示了该窗口中数据实例的模型预测如何在围绕的特征的一个小的窗口中变化

ALE方法的核心是计算预测中的差异，因此我们用网格值替换感兴趣的特征。 预测中的差异是特征在特定间隔内单个实例的效应

xxxx

对于一个奇怪的模型：

在右下角我们可以看到这个Model prediction奇怪的地方。
该区域远离数据分布，并不会影响到模型的性能，所以也不应该影响的模型的解释。
这种outcome是现实的，训练模型时，学习算法为了将现有数据实例的损失降到最低，奇怪的现象可能会发生在训练数据的分布之外。

问题来了
对于PDP来说，在这种情况下是不可用的。因为他受到这个异常区域的影响。如下图：

ALE图的优点
（1）ALE图是无偏的：特征相关时，他们仍然有效。PDP会失效，因为他们会将那些现实中不可能出现或不太可能出现的特征组合考虑在内
（2）ALE图计算速度比PDP更快
（3）ALE图的解释很清楚：在给定值的情况下，可以从ALE图中读出更改特征对预测的相对影响
（4）ALE图以0为中心
（5）2D ALE图仅显示交互作用：两个特征输入的PDP，会全部显示特征A，特征B，特征A和特征B的交互对预测的影响，而ALE图只显示特征A和特征B的交互对预测的影响。

缺点
（1）间隔设置不良好的话，ALE图可能会不太稳定
（2）ALE图不附带ICE曲线，ICE曲线可以揭示特征效应的异质性（对于数据子集而言，特征的效应应该有所不同）。但在ALE图中，只能检查每个间隔实例之间的效应是否不同，但是每个间隔具有不同的实例。
（3）ALE图实现更复杂且不直观
（4）二阶ALE估计在整个特征空间中具有不同的稳定性，而且这是不以任何方法可视化的
（5）ALE解决了相关特征下的问题，但是如果两个特征强相关，解释仍然困难。
（6）但是总结而言，ALE还是比PDP在大多数情况下好。

如果存在特征交互，预测可以分解为4个项：常量项，第一个特征项，第二个特征项，两个特征的交互项

估计交互强度的一种方法是衡量预测的变化在多大程度上取决于特征的交互作用。这项衡量被称为H统计量。

处理2种情况：

实际应用中：
（1）先看单一特征与其他所有特征的交互强度
（2）接着可以选择其中一个特征，更深入得研究其与其他特征之间的双向交互

优点

通过置换特征后计算模型预测误差的增加来衡量特征的重要性。

分类的例子：

回归的例子：

优点

缺点

全局代理模型是一种可解释的模型，经过训练可近似黑盒模型的预测

我们希望在可解释的约束下，代理模型预测函数尽可能接近地逼近我们的黑盒预测函数。函数可以来自任何可解释的模型