統計学が巷で最強と言われ出した中で

統計学の図鑑 (まなびのずかん)

統計学の図鑑 (まなびのずかん)

 

 

もうひとつのクイズです。ペットボトルの平均内容量は500mlと表記されています。しかし、これに疑いを感じた人が、9本を無作為に抽出(標本)し、その平均は「501ml」、分散(ここでは不偏分散)は「3.24」です。この表記が正しくないと言えるか、有意水準 5%で検定してみましょう。そもそも「有意水準」とは何でしょうか。有意とは、必然的な意味があることを指します。統計では通常、「こんなことが起きたら、偶然とは言えないよね」という水準のことを有意として、5%や1%で表現したりします。

 

 

分かりやすい事例はイカサマコインです。コインを10回投げて7回も裏が出た場合、「どう考えても偶然ではないよね(イカサマだよ)」と言えるでしょうか。実際に計算してみると、前回と同じ事例なので、120通りあることが分かります。「n=120」に裏 7回「p=0.125」表 3回「(1-p)=0.0078」となるので、確率は「0.117」。これは十分ありえる水準だ(=有意水準ではない)と言えるでしょう。

 

 さて話を戻しますが、今回のクイズには注釈がつきます。「内容量は正規分布に従う」と仮定されることです。正規分布とは、下記引用サイトに優れた説明が紹介されています。蛇口から水を流す時、その下に、左右細かく区切られた水槽を置いたとします。当然、流れ落ちる水は真下のセパレーションにたまっていくはずですが、勢いよく弾け出る水は左右に散らばっていきます。つまり、左右のセパレーションにも水はたまっていきます。水が落ちる真下の位置(中心)から離れるほど、量は少なくなっていきますが、その散らばりは左右対照の、裾広がりのような「山状」となります。これが、正規分布です。これはもっとも一般的な分布とされ、ある性質が知られています。それが、中心(=平均)から離れる度合い(=標準偏差)が一個分のところで、山状の面積は全体の約68.3%になること。二個分で約95.5%、三個分で約99.7%です。この標準偏差こそが、散らばりを示す指標となり、個々のデータと同じ単位で表現することができるものです。

 

正規分布とは | データ分析基礎知識

https://www.albert2005.co.jp/knowledge/images/tech_data_img10.jpg

 

正規分布とは何なのか?その基本的な性質と理解するコツ | アタリマエ!

https://atarimae.biz/wp-content/uploads/2016/02/sigma-three.png

 

したがって、本件のペットボトルの統計が一般的な正規分布に従うと仮定されれば、統計の各種公式が使えるようになります。もうひとつ、「不偏分散」の値が与えられていますが、簡単に言えば、標本である 9本のペットボトルは、母集団と同じような感じ(中心を同じくする正規分布の山状)で散らばっていると仮定していることになります。個々の値の平均との差(=偏差)を二乗して、その平均をとれば、分散は計算できます。その平方根標準偏差です。ここでは「1.80」と計算できますね。

 

t分布の公式にあてはめます。分子に、標本平均「501」から期待値「500」を差し引いた数を置きます。分母には、標準偏差「1.80」を標本数「9」の平方根で割った数を置きます。これで算出された数は「T値」と呼ばれ、本件では「1.67」です。これで数値が出そろったので、後はエクセルに入力して信頼区間の範囲を求めます。正規分布の両側を信頼度95%で検定(すなわち棄却域は 5%)し、標本数から 1を引いたものが自由度 8となります。これをエクセルに入力すると、得られる範囲は「±2.306」です。T値「+1.67」はこの範囲に入っているので、本件の表記は受理されます(棄却されることはありません)。

 

f:id:cancheer:20180303094808j:plain

https://dekiru.net/contents/325/img/3252001.png

 

最後にバタバタと公式やらエクセルやらが登場し、消化不良の感がしてしまうのは否めませんね。しかもやたら仮定事項が多いですから、本当にこんな計算で、サンプル9本の信頼度を母集団にあてはめることができるのか不安になります。そうは言っても、調査や検証に膨大な時間をかけて、得られる精度はほんのわずかな改善程度というのではやりようもないでしょう。ビッグデータが騒がれる今後の時代にこそ、単なる数値の集まりから、データの性質・傾向・意味を読み取ることは重要です。たとえ仮定がたくさんあったとしても、それで数値の傾向を読み取り、ビッグデータでそれを検証するなど、様々な用途で統計学の知見を活用できるはずです。社会を相手にするというのは、何かの知見が簡単に得られるというわけではありません。ビッグデータ礼賛というだけでは、即ビジネスに役立つとはならない、そう肝に命じ、最低限の統計学のルールを頭に入れておきたいものです。