統計学の基礎となる「確率」も復習しておきましょう

統計学の図鑑 (まなびのずかん)

統計学の図鑑 (まなびのずかん)

 

 

クイズです。日本たばこ産業JT)が19,064人を対象にした喫煙(標本)調査にて、成人の4,137人が喫煙しているそうです。全国日本人(=母集団)の喫煙率Rを範囲で推定してみましょう。なお、信頼度は95%を用います。ゆえに、標本集団の喫煙率 rは、標準偏差に1.96を掛けて、標本平均から引いたり(下限値)、標本平均に足したり(上限値)して求められるのです。

 

 

与えられた条件からいくと、標本の喫煙者数は4,137人(非喫煙者数は15,467人)、標本の喫煙率は21.7%、非喫煙率は78.3%です。まず、分散を求めてみましょう。分散とは、偏差の二乗平均でした。今回のクイズの場合、偏差と言っても、喫煙か非喫煙しかありませんので、二項分布にあたります。すなわち、二択しかない選択肢に対して、n 回確かめた(=行った)ときに「喫煙」との回答を得る(=ある事象が起こる)場合の確率分布のことです。19,064人に尋ねてみて、4,137人から「喫煙」の回答を得られたわけですから、「n=19,064」「p=21.7%」「np=4,137」と表現します。最後の「np」とは期待値を指し、分散は「np(1-p)」で求められます。標準偏差はその分散の平方根です。詳しくは、下記のサイトでも確認してください。

 

コイン投げから分かる二項分布。正規分布やポアソン分布との関係性と近似について | アタリマエ!

https://atarimae.biz/wp-content/uploads/2016/11/ex-vx.png

 

ちょっと難しいですね。コイントスで理解してみましょう。たとえば、コインを10回投げてみて表が3回出る確率を考えてみるとどうでしょう。10個のコイン(ABC・・・HIJ)から、好きなコインを3個選ぶような作業です。通常は組み合わせの公式を使いますね。敢えて原始的にやってみると、最初は10通り、次に9通り、そして8通りになります。ただし、「ABC」「ACB」「BAC」「BCA」「CAB」「CBA」のように6種類の順列セットが重複していることになりますので、この720通り(=10*9*8)を6セットで割ります。すると120通りがありえることになります。さらに、コインは表と裏しかありませんので、表が3回出る確率は「0.5(=1/2)の3乗」、裏が7回出る確率は「0.5の7乗」で表現できます。実はその公式が、「np(1-p)」です。「n=120」「p=0.125」「(1-p)=0.0078」ですから、「120*0.125*0.0078=0.117」。

 

話を戻します。「np(1-p)」の公式はいわゆる分散です。標本数19,064人に対して、喫煙率「p=21.7%」「(1-p)=78.3%」ですから、このまま計算すると分散は「np(1-p)=3239.2」になります。ゆえに標準偏差はその平方根である「56.9」です。このクイズを信頼度95%の範囲で求めてみると、4025人(下限)から4249人(上限)となります。 また喫煙率で求め直してみると、「21.1%~21.7%(標本の喫煙率)~22.3%」です。つまり、母集団の喫煙率Rは、標本の喫煙率 rの ±0.6%と算出されます。

 

ついでに、信頼度を99%に置き換えてみると、前回もやりましたが、1.96は2.58に置き換えられます。その範囲は、3990人(下限)から4284人(上限)、喫煙率で求め直すと「20.9%~21.7%(標本の喫煙率)~22.5%」、つまり、母集団の喫煙率Rは、標本の喫煙率 rの ±0.8%へと広がります。統計学とは、確率のお勉強をした上でやらないと結構苦労させられますね。

 

 

5分で分かる!確率統計「nCr」の計算方法 | あぱーブログ

https://blog.apar.jp/wp-content/uploads/2016/01/ncr-01-b.png