23.5.1. 数値データの尺度
数値データにはどのようなものがあるか、その分類を理解しましょう。数値データの分類やそれらの性質を知らないと、適切なグラフを選択できないからです。
「グラフを描くこと」とはデータに含まれる何らかの数値を、長さ、面積や角度といった図形的な量に変換し、視覚的に理解できるように表すことに他なりません。そしてグラフを描く理由は、人間がデータを理解しやすくするためです。長さ、面積や角度といった量は、人間が直感的に理解できます。ですから単なる数字の羅列を眺めるより、グラフにして眺める方が、データの特徴が分かりやすくなります。このことは、皆さんもきっと経験したことがあるでしょう。
ですがグラフが「直感に訴える力」を持つことは、裏返せば「間違った使い方をすると強烈な誤解を引き起こす」ということです。ですから悪意を持ってグラフを描けば、見た人をだますこともできてしまいます。また人間の直感は、時と場合によって正確でないこともあります。そのため、グラフの描き方が不適切だと曲解されることもあります。
そこでまず、グラフを描く前に「データの性質」を考えます。どういうデータがどういう性質を持つかを理解していれば、自ずとデータを表すのに適切 / 不適切なグラフが見えてくるからです。
数値データの尺度 #
世の中には、非常に色々な種類のデータがあります。たとえば
- 学生のクラス番号
- 期末試験の得点の分布
- 毎日の日経平均株価の高値 / 低値
- 東京都目黒区における、各月毎の平均気温
- 美術館のアンケートにおける、回答者の満足度評価
など、これらはいずれも数値データと呼ばれるものです。このような「測定された数値データ」は、どういう特徴を持っているでしょうか?
この問題に対して定評のある 1 つの答えが、Stevens の尺度水準 (scale of measure) というものです。この分類では数値データは「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の 4 種類に分かれます。これらの尺度水準の意味と「それぞれの尺度に対し、どのようなデータ変換が許されるか」を理解すると、グラフの適切な使い方が明快に分かるようになります。そこでまず、尺度水準のことを学びましょう。以下 Stevens の原論文 S. S. Stevens,
On The Theory of Scales of Measuraments, Science 103 (1946), pp. 677-680 に沿って解説をします。
名義尺度 #
与えられた数値が個体の識別のために使われ、「他のものと同じかどうか」を区別する意味しか持たないとき、その値を名義尺度 (nomial scale) といいます。たとえば「スポーツチームに所属する選手の背番号」や「学生が所属しているクラスの番号」といった数が名義尺度です。明らかに「他のものと区別する」という役割がありますね。
これらの数値は、普通は「区別」のためにしか用いられていません。ですから名義尺度として用いられている数、入れ替えてもその役割を果たすことができます。上で言えば 2 人の選手の背番号や 2 つのクラスの番号を入れ替えても、「数で識別する」という本来の目的は果たされます(「番号に対する愛着」などの要素は失われてしまいますが)。
順序尺度 #
数字で与えられたデータの大小が「測定する性質の順序」を表すとき、そのデータは順序尺度 (ordinal scale) であるといいます。
典型的な例は、名前の通り「順位」です。たとえば「マラソンの順位」は、数字が小さいことが、より早くゴールしたことを意味します。また、とある製品の使い心地を尋ねるアンケートで「1. とても満足, 2. 満足, 3. 不満, 4. とても不満 」と書かれていたら、数値が小さいほど評価が高いことが分かります。
順序尺度に対しては「順序を保つような数字の変換」が許されます。たとえば上で、製品の評価アンケートにおいて「とても満足、満足、不満、とても不満」という項目にそれぞれ 1, 2, 3, 4 という番号を振る例を紹介しました。これの数の並びを逆順 4, 3, 2, 1 と変換しても、意味自体は変わりません。また、テニスでは 1 ゲーム中のスコアを 0, 15, 30, 40 と数えます。ポイント数 0, 1, 2, 3 が順序を保つように 0, 15, 30, 40 に変換されているので、このスコアを見て「どちらが勝っているか」を正しく判断できます。
間隔尺度 #
数字で与えられたデータが順序尺度の条件を満たしており、かつ「測定数値の差」が意味を持つとき、そのデータは間隔尺度 (interval scale) であるといいます。
典型的な例は温度です。普段僕たちが使っているセ氏での測り方では「温度の差」だけが意味を持ちます。たとえば「20 度の水を 2 倍して 40 度にしたら、元より 2 倍熱くなる」なんてことはないですね。「20 度のお湯は人間の体温 36 度より低いから冷たく、40 度のお湯は人間の体温 36 度より高いから熱い」というように、温度の議論は「差」を用いて行われます。また、西暦や年号を用いた「年」を表す数も間隔尺度です。どちらも「基準時点 からの経過時間」という意味では何倍かできますが、しかし「西暦 2016 年の 2 倍」と「平成 28 年の 2 倍」という操作は同じ意味を持ちません。
間隔尺度に対しては「基準点のずらし」と「縮尺の変換」をすることができます。典型例の 1 つは西暦と元号の変換です。「西暦 2016 年 = 平成 28 年」というとき、経過時間を測る「年」の縮尺は同じですが、基準点がずれています。また温度のセ氏と華氏の間には、華氏温度 = 32 + セ氏温度 * (180/100) という関係式が成り立ちます。この場合、セ氏と華氏では水の凝固点がそれぞれ 0 度と 32 度、水の凝固点から沸点までの温度がそれぞれ 100 度と 180 度です。したがって基準点も縮尺もずれています。
比例尺度 #
最後に残るのが「比例尺度」という区分です。数字で与えられたデータが順序尺度の条件を満たしており、かつ「何倍」という操作が意味を持つとき、そのデータは比例尺度 (ratio scale) であるといいます。自然科学の実験で測定されるには、比例尺度のものが多いです。たとえば「長さ」や「重さ」といった量に対しては、2 倍とか 3 倍といった意味を持ちます。
また、間隔尺度に対しては基準点と縮尺の取り換えができましたが、比例尺度に対して許されるのは縮尺の変更のみ です。たとえばメートルで測った長さは、100 倍によってセンチメートル単位に変換することができます。でも基準点を 0.5 メートルずらした「新メートル」という単位を作って、1 メートルや 2 メートルをそれぞれ「1.5 新メートル」や「2.5 新メートル」などと呼ぶことはできません。
まとめと尺度間の関係 #
ここまでの情報を一旦まとめておきましょう。
用いられ方 | 許される変換 | |
---|---|---|
名義尺度 | 等しいかどうかの判定 | 並び替え |
順序尺度 | 大小の比較 | 順序を保つ対応 |
間隔尺度 | 値の差の比較 | 縮尺と基準点の取り換え |
比例尺度 | 値の比の比較 | 縮尺の取り換え |
さて、これらの尺度には 名義尺度 < 順序尺度 < 間隔尺度 < 比例尺度 という順位があります。そして上位の尺度は下位の尺度として扱えるが、その逆は正しくないという性質があります。少し例を見てみましょう。
- 名義尺度に「順序」や「差」を考えても意味はありません。たとえば「背番号 18 は背番号 34 より小さい」や「3 組と 2 組の差は 1 組になる」といった文章は、全く意味をなしません。
- 順序尺度に対して「値の差」や「値の何倍」を考えても意味はありません。たとえばテニスで言えば、スコア 40 – 30 とスコア 30 – 15 では値の差はそれぞれ 10, 15 ですが、ゲームとしての差のつき方はどちらも同じです。同様にスコア 40 とスコア 30 の比 40/30 を考えることにも意味はありません。
- 間隔尺度について「値の何倍」を考えることはできません。これは先ほど「セ氏 20 度を 2 倍したらセ氏 40 度になるわけではない」という例を紹介しました。
このようなデータの特性は、理解するのが難しくない割に重要な役割を持ちます。
Stevens の原論文にある表では、それぞれの尺度について「許される変換」の他に「どのような統計処理が適用可能か」もまとめられています。本格的なデータ処理をする人は、原論文を一読しておくと良いでしょう。
グラフに現れる量の尺度 #
以上を踏まえて、グラフの扱いについて予備的な考察をし、この節を終えましょう。既に述べた通り、グラフとは「数値データを図形的な量に変換して可視化する操作」でした。そしてグラフに登場する図形的な量の尺度は、次のようになっています。
- 棒グラフの長さ (面積) は比例尺度
- 円グラフにおける角度 (面積) は比例尺度
- 折れ線グラフにおける点の指す値は間隔尺度
これと「ある尺度のデータは、それより上位の尺度のデータとして扱えない」という事実を合わせると、データに応じて適用可能なグラフの形式が自ずと決定されます。たとえば
- 「棒グラフの長さ」は比例尺度なので、棒グラフで間隔尺度のデータを表すことは不適切
- 比例尺度のデータは、棒グラフを使って表すと「値そのもの」が意識され、折れ線グラフを使って表すと「値の差」が意識される
などと分かります。したがってグラフを作るときは、「自分が扱うデータの尺度」を捉えることが最優先課題です。
さらにグラフを描く際、分かりやすい図示のために軸の目盛りや基準点の位置などを取り換えることがあります。これらの操作はグラフにおける「棒の長さ」や「点の間隔」といった量を変化させるわけですから、「尺度の変換」に他なりません。したがってグラフの形式に応じて、許される調整の仕方が自ずと決まることになります。たとえば
- 比例尺度に対して許される変換は「縮尺の取り換え」だけだから、棒グラフを書くときに縦軸の縮尺は変更できるが、基準線は 0 で固定しなければいけない
- 間隔尺度に対して許される変換は「基準点と縮尺の取り換え」だから、折れ線グラフを描く際は、目盛りの高さや基準線の位置を変更してよい
- 順序尺度に対して許される変換は「順序を保つ並び替え」だから、元の順序を乱すようなデータの並び方をしてはいけない
といった具合です。このルールを破ってグラフ加工を行うと、データの実態を歪め、グラフを見る人をだます結果になってしまいます。
次節以降、実際のグラフの作り方を考えていきましょう。