IV(Information Value) 是一种衡量单个特征(通常已分箱处理)对目标变量(如违约=1,未违约=0)区分度的指标,在金融风控和评分卡建模中被广泛应用。通过 IV 值可以迅速判断某个特征对好坏样本的区分能力是强还是弱,从而辅助特征筛选与模型构建。
1. IV 的计算公式
若某特征按一定方式被分成 kkk 个“箱”(或类别),则定义:
IV=∑i=1k((Goodi/GoodAll)−(Badi/BadAll))×ln(Goodi/GoodAllBadi/BadAll)
\text{IV} = \sum_{i=1}^{k} \Bigl( (\text{Good}_i / \text{Good}_\text{All}) - (\text{Bad}_i / \text{Bad}_\text{All}) \Bigr) \times \ln\Bigl( \frac{\text{Good}_i / \text{Good}_\text{All}}{\text{Bad}_i / \text{Bad}_\text{All}} \Bigr)
IV=i=1∑k((Goodi/GoodAll)−(Badi/BadAll))×ln(Badi/BadAllGoodi/GoodAll)
其中:
Goodi\text{Good}_iGoodi / Badi\text{Bad}_iBadi 表示在第 iii 个分箱内的好样本数 / 坏样本数GoodAll\text{Good}_\text{All}GoodAll / BadAll\text{Bad}_\text{All}BadAll 分别是全样本中好样本 / 坏样本的总数ln(⋅)\ln(\cdot)ln(⋅) 中的表达式即该箱的 WOE(Weight of Evidence) 值
从公式可见,IV 是由各箱的 WOE 值加权(权重为 (Goodi/GoodAll)−(Badi/BadAll)(\text{Good}_i / \text{Good}_\text{All}) - (\text{Bad}_i / \text{Bad}_\text{All})(Goodi/GoodAll)−(Badi/BadAll))累加而成。
2. IV 的含义
IV 值本质:它刻画了“该特征的分箱”在区分好/坏样本时提供的信息量。区分度越强:好、坏样本在各分箱的分布差异越大,WOE 越是正负分明,进而 IV 值越大。若某分箱中 好/坏比例与整体比例相差无几,则对区分度贡献小,IV 增加也很有限。
3. 经验阈值
在信用评分领域,人们常用以下经验参考(不同来源可能略有差异):
0 特征可能是强相关或包含明显泄露,需谨慎检验 注意:这些阈值只是业界通用的经验,不是硬性标准;还需结合业务知识和整体模型效果综合判断。 4. IV 与 WOE 的关系 WOE(Weight of Evidence):衡量某分箱(或类别)“好坏比率”相对整体的偏离程度,常用于将分箱变量映射为对数比率。IV(Information Value):把每个分箱的 WOE 按对应好坏分布的差值加权累加,得到一个特征整体的区分能力指标。 换言之,IV = ∑\sum∑ (Difference in proportion of Good & Bad) ×\times× WOE。 5. IV 在评分卡模型中的应用 特征筛选 在模型建模前,对各个特征做分箱,并计算其 IV;若某特征 IV 很低(< 0.02),说明它对区分好坏用户帮助不大,可考虑剔除或降权处理。 监控特征稳定 在模型上线后,可以定期检查特征的分箱分布与 IV 是否出现大幅波动。若 IV 有显著下降,可能意味着该特征对当前业务环境下区分度降低,需要重新建模或做模型校准。 合并分箱或拆分 若某分箱的 WOE 波动大或贡献太小,会影响整体 IV。可以合并相邻分箱或重新分箱,以期提升整体的区分度并保持单调性(在评分卡中常见)。 6. 总结 IV(Information Value) 是量化特征对目标区分度的重要指标,基于分箱后的好坏样本分布而计算。数值越大,特征在区分好坏方面越有“信息量”;反之则越弱。在信用评分/风控领域,IV 配合 WOE 广泛用于特征选择、模型解释和稳定性监控。通过维持分箱质量和监控 IV 值,可保证评分卡模型的区分能力和可解释性。
最新发布