回帰分析とは⑥【多重共線性、過剰適合、複雑性、正則化】

こんにちは！EMです^^

昨日IT会社でマネージャーをしていたという人と話をする機会がありまして

色んなIT組織のリアルな事情を伺う事が出来ました。

中でもその人がいた会社は、IT分野に関するバックグラウンドがあっても

ほとんどの人が実務に関する業務内容に関しては未経験だったようです。

その人自身も、入社当初はミスをしたり他の人に聞いて回ったりしていたようで

やはり大切なのは、「スポンジのように全部吸収しよう！」という姿勢だそうです。

そういう話をきくと、未経験や文系出身の私も少し勇気が湧いてきます。

という事で本題にうつっていきましょう^^

今回も回帰分析や機械学習をする上で

おさえておきたいワードを学んでいきたいと思います！

多重共線性、過剰適合、複雑性、正則化

という言葉をきいた事がありますか？？

もし1つでもよく分からない単語がある、、

という方はぜひ今回の内容を理解していきましょう！

多重共線性（Mulitcollinearity）

OLS（最小二乗）線形回帰のよくある問題として

複数の特徴が相互に相関しているという事象があります。

これを多重共線性と呼びます。

2以上のつの相関したデータを入力すると、係数が不安定になる事があり

明らかに目で見て分かる様な、おかしい係数を確認できる可能性があります。

（たとえば、飛びぬけて大きい正の係数と負の係数が出てくる場合があります）

一般的に、相関したデータが複数ある際は1つに絞って

再度分析していくそうです。

過剰適合/複雑性（Overfitting/Complexity）

モデルに特徴が追加されると、定義上、「適応度」であるR2が増加します。

理由はターゲット変数の分散をまねく変数が増えるためです。

ただし特徴の数が増えると、モデルの複雑さも増し

トレーニングデータセットの分散を招く可能性がありますが

大抵の場合、複雑なモデルは目に見えないデータとして

うまく一般化（適応）されません。

これは、トレーニングデータセットへの過剰適合（Overfitting）と呼ばれます。

正則化（Regularization）

正則化とは、大きな係数にペナルティを追加することで

多重共線性と複雑さ（complexity）の両方を成り立たせる事が出来ます。

多重共線性の場合、係数には上限があり相関変数に

それほど大きな変動は見られません。

過剰適合の場合、モデルに含まれるべきではない特徴は

係数を0近くまで押しつぶすことで「排除」する事ができます。

これを正則化といいます。

以上、よく出てくる単語についてまとめてみました。

この記事は、基礎の部分を触れた程度なので

もっと詳しく知りたい！という方は、ぜひgoogleで検索して

他のサイトと見比べながら勉強してみてくださいね^^

ちなみに皆様に朗報です！

私今まで知らなかったんですが、CodeCampさんが無料で5回分無料レッスンを

されているらしいです、、、！

私が他のオンラインスクールで機械学習のコースを受講した際は

グループレッスンで約２倍のお値段を払ったので

完全マンツーマンでこのお値段は超良心的だなと思います。。。

ぜひ気になる方は無料体験もされてるみたいなので、一度WEBサイトを見てみてくださいね。

データ分析は時代が変化しても、必ず重宝される分野だと思っているので

プロから基礎を学ぶのは、本当に超効率的な自己投資だと思います。

それではまた次回お楽しみに～！