UdemyでPythonを勉強した結果を残すブログ。

40歳でプログラミング始めて転職までいけるのかを実録してみます。

python - google colabs などでのデータ分析の大まかな流れ

  1. pandasをインポート
  2. .read_csvなどでデータをインポート (インポートしたデータをdfとする)
  3. .head(), tail(), .shape, .columsなどを使ってcsvから見出しや大まかな概要を把握する
  4. 数値じゃない値を .findna() で探し、 .dropna()で削除してデータをきれいにする
  5. df['カラム名'], df'カラム名 1', 'カラム名 2'などで全ての行・列のデータを抽出できる
  6. 1つだけのデータを特定したいときは df['カラム名'][行の数値]、またはdf['カラム名'].loc[行の数値]で抽出できる
  7. 調べたい列の最大・最小値やそのタイトルを知りたいときは、 .max(), .min(), .idxmax(), .idxmin()で探す
  8. 昇順・降順などソートしたい場合は .sort_values(['カラム名', (降順にしたい場合はascending='False')]) でできる。
    新しい列を入れたい時は .insert('入れたい列の順番' ,  '見出しの名前', '入れるデータ') で入れられる。先に入れるデータを変数で格納しておく。
  9. 列内のグループごとの数値を取得したい場合は、 .groupby() でできる。
    df.groupby("データ列にあるグループ名").mean()など