前回、前々回に引き続きgoogle colabでデータを扱う時の流れ。
- htmlタグが+テキストのボタンを使うと使用可能。
- .groupby(”見出し名”)に.count()でそのデータの見出し名が同じものを集計することができる。 例:df.groupby("color").count()
- df.見出し名.value_counts()だと見出し名にある重複データを集計できる。
- df[:10]などコロン+数字で10個目まで表示などスライスができる。
- rename(columns = {"変更前見出し", "変更後見出し"}, inplace = True)で読み込んだcsvの見出しが変更できる。indexも可能。
- groupby("インデックスにしたい見出し名")に.agg(計算したい方法)を追加することで簡単に集計ができる。.agg("特定の見出し", 計算したい方法)で特定の列のみ計算して表示することができる。
df.groupby("year").agg({"item" : pd.Series.nunique}) - チャートで例えば左側に0-10000km、右側に0-100個など2種類の単位を1つのチャートでに入れて表示することもできる。
ax1 = plt.gca()
ax2 = ax1.twinx() この2行で左右に単位が表示されるようになるax1.set_xlabel("下の単位の見出し")
ax1.set_ylabel("左部分の単位見出し", color="green") 色も変えられる
ax2.set_ylabel("右部分の単位見出し", color="blue")
ax1.plot(左単位のindex, 左単位のデータ, color="g") 線の色も変えられる
ax2.plot(右単位のindex, 右単位のデータ) - .merge("結合したいテーブル1", "結合したいテーブル2", on="紐づける見出し")
で2つの表をマージすることができる。