推定統計学から始まる、統計学の意義

統計学の図鑑 (まなびのずかん)

統計学の図鑑 (まなびのずかん)

 

 

統計で面白いのは、「大きな標本の、統計的な推定の考え方」の理屈を学ぶことです。一を聞いて十を知る、とはまさに統計的な推定です。ここでひとつ問題の事例です。全国から無作為に選んだ小学生2500人(※標本)、その一ヶ月のお小遣いの平均値は3000円、偏差(=各値と平均値との差)は5000円でした。これらをもとに、95%の確かさで、全国小学生(※母集団)の平均お小遣いを推定してみましょう。

 

 

これを期待値と呼びます。まず、期待値(μ)の分散は偏差の二乗平均、すなわち10000。この平方根である標準偏差は100円。言い換えると「μ」を中心に上下100円の幅の中に入る小学生は68%となります。ちなみに、標本平均・偏差・分散・標準偏差について、下記のサイトで分かりやすく理解できます。

  1. 平均値±標準偏差: 68.3%
  2. 平均値±(標準偏差×2): 95.4%
  3. 平均値±3×(標準偏差×3): 99.7%

  

サルでも分かる!標準偏差の求め方と意味 - RepoLog│レポログ

https://cdn-ak.f.st-hatena.com/images/fotolife/s/sekkachipapa/20170923/20170923155758.png

 

では、本件の例で計算してみましょう。与えられた信頼度は95%(=「95%の確かさ」)なので、その公式にあてはめます。2500人の平均値から、標準偏差に1.96掛けたものを差し引いて下限とし、逆に加えたものを上限とします。つまり95%の信頼度にすると、期待値(μ)は、その下限2804円、その上限3196円の間だと計算できます。

 

f:id:cancheer:20180301231109j:plain


ここで示したのは推測統計学と言われます。2500人の小学生のデータ(標本の大きさ)が大きくなると、標本平均3000円の分散(上記の例では10000)はどんどん小さくなっていきます。つまり、確率密度が、母平均(期待値μ)に限りなく近づいていきます。 これは大数の法則と呼ばれます。仮に、95%の信頼値で「2804円~3196円」の精度範囲だったものを、99%の信頼値に変更してみましょう。公式によると、標準偏差に1.96掛けた部分が、「標準偏差に2.58掛けた」と変更されます。したがって上下限は「2742円~3258円」と広がってしまいます。同じサンプル数を前提とした場合、信頼度を上げれるほど、誤差は広げざるを得ないというわけです。