研究で機械学習(主にSVM)を使っていて,重要だと思った項目をまとめておく.
不均衡データ問題(imbalanced data)
識別器の訓練データに大きなクラスの偏りがある場合,大きいクラスに流されてしまう問題が生じる.
例えば,10,000件の訓練データが(a)9,000件のクラスと(b)1,000件のクラスに分かれている時,10,000件とも a のクラスに流れてしまう.
本当は,少ない1,000件こそ見分けたい対象であるのに,このようなことが起こってしまっては識別器としての機能をなさない.
(ここで,適合率自体は90%出ているということに注意.この数値にだまされてはいけない.)
この問題を不均衡データ問題と呼ぶ.
対策としては,大きい方のクラスサイズを小さい方に合わせる,またはその逆が一般的.
アンサンブル学習(ensemble learning)
アンサンブル学習とは,複数の識別器を組み合わせて,精度を向上させる手法.
例えば,1つの識別器で1と判定されたから1,というのではなく,3つの識別器で1,0,1と識別されたからmaxをとって1,といった感じのことをする.
以下,SlideShareの参考スライド.
不均衡データのクラス分類
アンサンブル学習