統計を読む

平均値を鵜呑みにしていませんか?

「貯蓄現在高(平均値)は1805万円と3年ぶりの増加」
総務省が2020年5月15日に公表した「家計調査報告(貯蓄・負債編)2019年(令和元年)平均結果速報(二人以上の世帯)」によると、二人以上の世帯における1世帯当たり貯蓄現在高(平均値)は1,755万円で、前年(1,752万円)に比べ3万円、0.2%の増加となり,3年ぶりの増加となりました。(2002年以降での過去最高は、2016年の1,820万円)
「貯蓄現在高(平均値)は1,755万円」を見てどう思われましたか?
「わが家の貯蓄は平均以下だ。皆、結構貯めているんだ」と思われた方も多いのではないでしょうか。
それは、「平均」と聞くと、平均値付近に一番多くのデータが分布しているとイメージしているせいではないでしょうか。
「平均」という言葉を使った見出しに惑わされているのかもしれません。

「平均値」には落とし穴がある?

貯蓄の金額の「平均値」が実感とかけ離れてしまうのには理由があります。
例えば、毎月決まった額を貰っている子どもの一か月のお小遣いの調査で、対象の子どもの人数が10人として、2,000円:1人、3,000円:3人、5,000円:5人、10万円:1人の場合はどうでしょう。
(2,000円×1+3,000円×3+5,000円×5+10万円×1)÷10人ですから、そのお小遣いの「平均値」は「13,600円」になりますが、「外れ値」の10万円を除く、9人の「平均値」は4,000円です。

このように「10万円」という「外れ値」によって、「平均値」は大きく左右されます。
また、お小遣いを貰っていない場合を含むとその「平均値」は変わってきます。
平均で求められる結果は、データに含まれる「外れ値」のせいで実態を正しくとらえていないこともあります。
統計で集団の中心的傾向を示す値である「代表値」を算出する方法には「平均値(算術平均)」「中央値」「最頻値」があります。
「平均値(AVERAGE)」とはデータの合計をデータの個数で割って得られる値のこと、「中央値(MEDIAN)」とはデータを大きさの順に並べ替えたときにちょうど順番が真ん中になる値のこと、「最頻値(MODE)」とはデータの中で最も頻度が高い値のことです。
一般的に「平均値」が使われますが、分布の形によっては「最頻値」や「中央値」を代表値にする場合もあります。
平均値は他の値と比べて極端に高い(もしくは低い)値があることによって、影響を受けてしまいます。
「中央値」の場合は、真ん中の値ですから、そのような影響は受けません。
分布に偏りがある場合、「平均値」と「中央値」では、実感に近いのは「中央値」といえるでしょう。