UdemyでPythonを勉強した結果を残すブログ。

40歳でプログラミング始めて転職までいけるのかを実録してみます。

python - google colab のより複雑なデータの扱い方まとめ

前回、前々回に引き続きgoogle colabでデータを扱う時の流れ。

  • htmlタグが+テキストのボタンを使うと使用可能。
  • .groupby(”見出し名”)に.count()でそのデータの見出し名が同じものを集計することができる。 例:df.groupby("color").count()
  • df.見出し名.value_counts()だと見出し名にある重複データを集計できる。
  • df[:10]などコロン+数字で10個目まで表示などスライスができる。
  • rename(columns = {"変更前見出し", "変更後見出し"}, inplace = True)で読み込んだcsvの見出しが変更できる。indexも可能。
  • groupby("インデックスにしたい見出し名")に.agg(計算したい方法)を追加することで簡単に集計ができる。.agg("特定の見出し", 計算したい方法)で特定の列のみ計算して表示することができる。
    df.groupby("year").agg({"item" : pd.Series.nunique})
  • チャートで例えば左側に0-10000km、右側に0-100個など2種類の単位を1つのチャートでに入れて表示することもできる。

    ax1 = plt.gca() 
    ax2 = ax1.twinx() この2行で左右に単位が表示されるようになる

    ax1.set_xlabel("下の単位の見出し")
    ax1.set_ylabel("左部分の単位見出し", color="green") 色も変えられる
    ax2.set_ylabel("右部分の単位見出し", color="blue")

    ax1.plot(左単位のindex, 左単位のデータ, color="g") 線の色も変えられる
    ax2.plot(右単位のindex, 右単位のデータ)

  • .merge("結合したいテーブル1", "結合したいテーブル2", on="紐づける見出し")
    で2つの表をマージすることができる。