データの前処理で便利な機能

こんにちは^^EMです。

 

今日は前回の続きで、データのお掃除について少し詳しく見ていきます。

 

前回お伝えした通り、実際のデータは適切なフォーマットになっていない事が

多々あります。

まずエクセルの中のデータを’CSV’という形式に変換して保存した後

全データを使えるデータなのかをチェックする必要があります。

 

ちなみに私がCSVでやらかした経験として

CSVでデータごとにシートを分けていたのですが、保存する際に

基本CSVはシート1枚ずつしか保存出来ないという事を知らず

翌日もう一度あけてみると、作っていた別シートがあっさりと消えていました…。

結構時間かけてたので、そのショックの大きさたるは言うまでもありません。

 

「選択したファイルの種類は複数のシートを含むブックをサポートしていません。」

というエラーは出るんですが、つい流れ作業で「はいはい」と…

まだまだ色々と学習途中だけに、ついエラー内容を確認せずに

ボタンを押すとえらい目にあいますね。

 

という事で、CSV作成後にjupyternotebookやgoogle colab内で

ファイルをインポートしてからそこで使えるのがこちら↓↓

 

Feature Action
df.index インデックスラベルのリスト。ラベル値の設定にも使用できます。
df.columns コラムの名前を定義します。
pd.to_numeric(df[column]) コラムを数字に変換ます。
pd.to_datetime(df[column]) コラムを変更します。
df.dropna() null値を削除します。
df.fillna() nullを数値や文字を使って埋めます。
df.duplicated() 重複している列をリストアップします。
df.drop_duplicates() 重複を削除します。
df.groupby() 同じ値を持つデータをまとめる。

 

めちゃくちゃ簡単な説明ですが、これが基本的なデータ処理に使われる機能です。

 

続きはまた次回に説明しますね~!

今回は短い説明でとどめていますが

特にこれを取り上げてほしい!という項目があれば

深堀もしようと思うのでリクエストください!!

 

 

ではでは^^