machinelearningforbeginner’s blog

データの前処理で便利な機能

初心者向け機械学習機械学習を一から学ぼうシリーズ

こんにちは^^EMです。

今日は前回の続きで、データのお掃除について少し詳しく見ていきます。

前回お伝えした通り、実際のデータは適切なフォーマットになっていない事が

多々あります。

まずエクセルの中のデータを’CSV’という形式に変換して保存した後

全データを使えるデータなのかをチェックする必要があります。

ちなみに私がCSVでやらかした経験として

CSVでデータごとにシートを分けていたのですが、保存する際に

基本CSVはシート1枚ずつしか保存出来ないという事を知らず

翌日もう一度あけてみると、作っていた別シートがあっさりと消えていました…。

結構時間かけてたので、そのショックの大きさたるは言うまでもありません。

「選択したファイルの種類は複数のシートを含むブックをサポートしていません。」

というエラーは出るんですが、つい流れ作業で「はいはい」と…

まだまだ色々と学習途中だけに、ついエラー内容を確認せずに

ボタンを押すとえらい目にあいますね。

という事で、CSV作成後にjupyternotebookやgoogle colab内で

ファイルをインポートしてからそこで使えるのがこちら↓↓

Feature	Action
df.index	インデックスラベルのリスト。ラベル値の設定にも使用できます。
df.columns	コラムの名前を定義します。
pd.to_numeric(df[column])	コラムを数字に変換ます。
pd.to_datetime(df[column])	コラムを変更します。
df.dropna()	null値を削除します。
df.fillna()	nullを数値や文字を使って埋めます。
df.duplicated()	重複している列をリストアップします。
df.drop_duplicates()	重複を削除します。
df.groupby()	同じ値を持つデータをまとめる。

めちゃくちゃ簡単な説明ですが、これが基本的なデータ処理に使われる機能です。

続きはまた次回に説明しますね～！

今回は短い説明でとどめていますが

特にこれを取り上げてほしい！という項目があれば

深堀もしようと思うのでリクエストください！！

ではでは^^