「ベイズの定理」後日談

 「ベイズの定理」について説明をThinkITに書いた。
ベイズの定理はスパムフィルターで使われているという話から結構有名になって、いろんな人がその名前を知るようになりみな知っている気になっている理論だと思う。しかし、明確な定義やスパムフィルターがどういうアルゴリズムで実現されているかを知らない人は多いのではないだろうか?主観的にいえば、品質管理などを実践しており検定などをやっている人や高校レベルまでの統計学をしっかりわかっている人、厳密な科学的・論理的・定量的解釈を好む人ほどベイズ理論は納得しがたい物もしくは誤解して解釈しているものだと思う。
 たとえば以下の命題を納得できるだろうか?

ある両親から連続して男の子が3人生まれた。次の子が女の子である確率は「平均4/5程度」「平均1/5程度」であると考える。

 普通の感覚でいえば、子供の性別は個々の子供において独立事象であると考えられるので、次が女の子である確率は「1/2」である。しかし、これは頻度主義・ネイマン−ピアソン理論を採用した場合だからこそ導くことが可能な結論であり、ベイズ統計学の立場では確率「1/2」と結論づける必要はなく、上記引用部の事実から言えば「4/5」が自然であると導かれる*1ベイズ統計学は過去のデータのみからそのデータに何らかの傾向があれば必ず何らかの原因があるとして、その原因に基づいて結果の確率は分布するという考え方である。データの持つ意味を考えないところがミソだ。
たとえば、引用と同じ構造を持つ命題でいえば、男の子が3人連続生まれても、人志松本のすべらない話が3回連続すべらなくとも、日曜日の次の日が3回連続月曜日であろうとも、何でも結論は一緒である。すべて「次同じことが起こるの確率は4/5」という結論である。これが諸刃の剣であることは理解しつつも使える場合に使おうという姿勢が必要なのである。とはいっても自分が最後にあげた例は相当苦しいが。。。*2少なくともこの例は例が変と思える人と、ベイズの理論自身が間違いと思う人では全く違っていて、前者はいいとしても後者はベイズ論理学を誤解している。そのような人はベイズ統計学に近づかない方が無難であろう。

入門ベイズ統計―意思決定の理論と発展

入門ベイズ統計―意思決定の理論と発展

ベイズ統計を理解したかったら即購入。↑ しかし、人志松本のすべらない話が毎回すべらないのは偶然ではないとおもわれ。

*1:「1/2」ではないといっているわけではないことに注意

*2:ハテナブクマを見る限り、何人かの人は設定がひどすぎるとコメントしているが、おっしゃる通りですとしか言えない