アンバランスなクラス(Unbalanced classes)

ターゲット変数の分布がかなり偏っている場合(たとえば、1が異常に少なく、0が多い場合)
モデルのパフォーマンスを検証するために使用される一般的なメトリックが破棄されます。

たとえば、1クラスの発生率が1%しかない場合、全部0だと呼ぶことが出来て
かつ99%の確率で正しいと言えるでしょう。

ただこれは、精度は高いですが、まったく役に立たないモデルです。

 

アンバランスなクラスを対処する方法の1つとして
発生率の低いクラスのオーバーサンプリング(重複の作成など)と
発生率の高いクラスのアンダーサンプリングを行って、発生率をバランスに近づけることです。

*オーバーサンプリング/アンダーサンプリング…
データ分析の中で、データセットのクラス分布を調整する為のテクニックの事