「統計学は、科学の文法である」

統計学図鑑

統計学図鑑

 

 

統計学って本当に「わけのわけらない」学問です。なぜなら、当たり前のことを、わざわざこねくり回して表現しているように思えるからです。かつて『統計学が最強の学問である』という書が、ヒットしました。もちろんそれは、注目されているビッグデータなるキーワードと不可分です。しかしそれは、本書でも指摘されている通り、データをビッグなまま取り扱うことではありません。多種多様か学問や産業で役に立つからです。もしそれがビジネスであるなら、経営指標の改善につながるデータは何か、そのデータは動かせるのか、そして動かすために必要なコストはいくらか。この三つの問いを頭に置きながらビジネスを考えることが、統計を活かすことになります。

 

 

Google Prediction APIを使う前に知っておきたい統計のはなし

f:id:cancheer:20180331202114j:plain

 

統計学と言えば、19世紀末に登場したカール・ピアソンの名前が挙げられます。数理統計学の扉を開き、標準偏差相関係数ヒストグラムなど、正規分布に代表される確率分布の世界の基礎を築き上げました。彼が、数学の知識を使って関わった現実世界は、生物進化の統計学的解明です。たとえば、カニの甲羅サイズの分布は、きれいな正規分布を描くことに気付きました。同じような事例は自然界に多数存在し、その確率分布曲線を決めるパラメーターが重要な役割を果たします。これがパラメトリック統計学です。彼の偉大な業績は、「統計学は科学の文法である」との同氏の名言にも示されています。

 

www.yodosha.co.jp

 

統計学にはのちに、標本の特性を解析する「記述統計学」に続いて、その標本から母集団の特性を推測する「推測統計学」が始まりました。これは、手持ちのデータを用いて、社会問題を解決しようとする目標があったからです。1920年代のことでした。その立役者はロナルド・フィッシャーです。仮説検定やp値、自由度などはすべて彼がまとめました。しかし、統計学が長らく独立した学問として体系化されていなかったのには理由があります。それは数学と真逆の性格をもつからです。数学とは、「公理があり定理があり確固たる解を求める」学問です。しかし統計学とは、公理や定理が見出だせないところに、帰納的に解を求める学問です。しかもそれは推論を推論のままで扱うため、うさんくさい用いられ方もします。ゆえに、他の学問を助けるツールではあっても、独立した学問にはなりにくかったのです。

 

統計学とは | データ分析基礎知識

https://www.albert2005.co.jp/knowledge/images/tech_data_img00-1.jpg

 

 

今日ではすっかり当たり前になった「エビデンスの重要性」。これも統計学によってもたらされたものです。それ以前では、論理的思考の方が優先されていました。何となく正しいと感じるロジックを、大物学者や弁の達人が主張すれば、誰も反論できませんでした。たとえば、心筋梗塞の手術をした後、不整脈が起こって突然死に至るという症例がありました。そこで現場の判断は、不整脈の薬を飲ませる、でした。しかし、実際に集計してみると、不整脈の予防薬を飲ませたグループの死亡数は倍増していました。集計サンプルは700人ずつを二つのグループに分けたものてす。それなのに集計結果は、意外かつ極端な差(56:22)がつきました。そこには何らかの原因があると考えた方がいいでしょう。これは、ランダム化比較実験と呼ばれます。「両面均等な10枚のコインを投げて表が9枚以上出る確率は1%ほどしかない」という統計の基礎を知っていれば、両グループにこれだけの差が出ることは確率的にほぼない(0.06%)と言えます。

 

なぜ、統計学が最強の学問なのか? | 統計学が最強の学問である | ダイヤモンド・オンライン

http://dol.ismcdn.jp/mwimgs/d/5/670m/img_d58aef4fc1c34f77a2b54a517377f04567739.jpg

 

ビジネスに活かす統計学:エビデンスに基づく価値創造

https://www.jstage.jst.go.jp/article/johokanri/59/12/59_799/_html/-char/ja/Graphics/5912_s1_f01.jpg

 

 

ある仮説が正しいか否か、それをこのように検証するのは、統計では「検定」、この仮説は「帰無仮説」と呼ばれます。どの程度の正確さであれば帰無仮説を棄却するか、あらかじめ決めておいた確率を「有意水準」と呼び、通常は分布の両側合わせて「5%」に設定します(棄却域=5%)。上記の例では、不整脈の予防薬を投与した場合としなかった場合(代わりに偽薬を提供)とで倍の差が生じました。死に至った比率で見れば両者の差はわずか「3%」ほどの差(予防薬投与グループが「4.5%」、偽薬のグループが「1.3%」)です。しかし、この差が生じてしまう確率が「0.068%」なのですから、何らかの理由(不整脈の予防薬に問題)があると考えたほうがいいでしょう。

 

最後に、統計数学の基本的な計算式を復習しておきましょう。コイントスの事例が分かりやすいです。表裏で判断するコイントスですが、10回トスした時のパターンは1024通りになります。これは「2の10乗」で示せます。たとえば、表が5回出る確率(x=1)を計算してみましょう。パスカルの三角形(末尾・図)を用いると、下端中央の数字「252」がその答えですが、その計算過程を見てみましょう。

 

第127回 コインを10回投げたとき(前編)|数学ガールの秘密ノート|結城浩|cakes(ケイクス)

https://d2oe4hwshyef6j.cloudfront.net/production/uploads/image/post_body_picture/image/172117/picture_pc_5f9e281a193ff61ae129ea297ee380e6fab577d6

 

「10回コイントスした時の表が5回出た回数」とは、「異なる10個の中から5個を選ぶ組合せ」と同じことです。式では「10C5」(※数字は下付き)と表します。この分子は「10!」、つまり10から1までの整数を並べて掛けていくという意味です。分母は「5!*(10-5)!」、つまり5からの整数を並べて掛けるのですが、結果的にそれが2セット並んでいる状態です。分母と分子ですから、共通部分は相殺することができます。したがって残ったのは、分子が10から6までを、分母が5から1までを並べて掛けたものです。これを計算すると、最後に得られるのは252通りとなります。

 

順列と組み合わせの数の公式。どちらを使うのが正しいか迷ったときの便利なテクニック | アタリマエ!

https://atarimae.biz/wp-content/uploads/2016/11/combination.png

https://atarimae.biz/wp-content/uploads/2016/11/onaji-kumiawase.png

 

統計学はもっと事例研究の中で学んでいきたいですね。