23.5.6. グラフの描き方 (5): 散布図
この節では、散布図を扱います。
散布図とは、1 つの項目に 2 つの間隔尺度が紐づいたようなデータを表す手段です。2 つの系列をそれぞれ軸に取り、値をプロットすることで、2 系列の関連、特に散らばり方などを調べることができます。
このページは現在執筆中です。
適合するデータの尺度 #
散布図では「点と点の間を、2 つの軸それぞれに沿って測った距離」が問題になります。ですから 2 つの数値データが共に間隔尺度でないといけません。
グラフのオプションの選択 #
散布図には、いくつかのオプションがあります。
軸の縦横 #
散布図の場合、原理的には縦と横の軸をひっくり返すことができます。ただし 2 つのデータの相関を調べる場合は、説明変数 (独立変数) を横軸、被説明変数 (従属変数) を縦軸に取ります。これは回帰直線が説明変数 x と被説明変数 y を用いて、y = ax + b の形で表されるからです。
その他のオプション #
散布図には、いくつかのオプションがあります。必要に応じて利用しましょう。
層別散布図: プロットされる点データがいくつかのカテゴリに分類されるとき、その散布図を特に層別散布図といいます。
回帰曲線: 回帰直線は、散布図中にプロットされた点の散らばり方を最もよく表す直線のことです。x 軸方向と y 軸方向のデータに相関があることが予想される場合、回帰直線を引きます。
バブルチャート: 「点の大きさ」の情報を用いることによって、通常の散布図よりも 1 つ次元の高いデータを表現することができます。この手法をバブルチャートといいます。
グラフの体裁 #
どのような散布図を描くかを決めたら、体裁を調整しましょう。
軸と値の表示 #
散布図を描くような場合、普通はグラフ上に多数の点が現れます。そのため点グラフや折れ線グラフと違い、点の近くに値を書くことができません。軸を活用する必要があります。
軸と目盛り: 軸と目盛りを必ずつけましょう。特に散布図の場合、軸の交点の座標が (0, 0) になる必要がありません。軸の交点における数値を目立つように書いてください。それ以外の基準は点グラフや折れ線グラフのときと同じです。目盛りの数値は等間隔に、かつ細かすぎでも粗すぎでもないようにします。値の範囲が広い場合は補助目盛を使うと効果的です。
目盛り線: 目盛り線は細めに描きましょう。太くすると、目盛り線のどこが目盛りの数値に対応するのか不明瞭になってしまいます。目盛り線を軸に対してどっち向きに張り出させるかについては、特にルールは無いようです。
軸ラベル: どちらの軸にも、軸ラベルを書きましょう。
値を示す線: 平均値や閾値などの「データにとって特別な値」を示したい場合やグラフをいくつかの領域に分けたい場合は、その値を指し示す線を描き入れます。
特別な項目の値: 特別な意味を持つデータの値を示すときは、原則として 2 つの軸のそれぞれに垂線を下ろして、軸のところ座標の値を書き込むようにしましょう。外れ値を示す場合など、近くに他の点が存在しない場合は、点のすぐそばに値を書き込んでも良いでしょう。
プロット点と回帰直線の見た目 #
散布図を描くときは、層別散布図を使う場合であっても、登場するデータの系列はあまり多くありません。ですから「データ系列の差別化」という観点からは見た目に気を使う必要性がそんなにありません。
一方、散布図が描かれるときは回帰直線が問題になることがしばしばあります。回帰直線を描く場合、グラフから受ける「当てはまり感」の印象が重要です。予め決定係数を計算するなどして、回帰直線の当てはまり方の良し悪しを判断してから、スタイルを決定しましょう。
プロット点の色と模様: 特別な理由がない限り、プロット点には単純な模様を使いましょう。たくさんの点が並ぶ場合に、プロット点の模様が複雑だと見辛いからです。また 2 系列のデータを同時にプロットする場合は、色と見た目の両方を使って系列間の差をつけてください。ただしその場合でも、なるべく質素な見た目を追及するようにしましょう。
プロット点の大きさ: バブルチャートを使う場合にのみ、点の面積がバブルの表す数値と比例するように大きさを変えましょう。そうでない場合は、同じ面積の点を使います。
回帰曲線の見た目: 回帰直線については色、線種と太さをコントロールできます。プロット点と比較したときの目立ち方が「当てはまり感」に影響することに注意して、見た目を決めましょう。
その他 #
余分な装飾の除去: 他のグラフの描き方と共通した話になりますが、余分な装飾は一切取り去りましょう。