確率の意味について考えた

Dice five

梅干チャリティ、想像していたよりたくさん応募していただき、1週間残っている今日の時点で、263,000円の寄付や支援物資購入が行われました。もちろん、こんな企画があってもなくても寄付されていた方が多いと思うので、何とも言えませんが、まあでも、オープンに寄付したことを話せるだけでも大きな価値ですね。それに、20瓶の梅干しを販売して収益を寄付するよりはいい方法だったかな、と思います。皆様、ありがとうございます。あと1週間、どうぞよろしくお願いいたします。

で、先日、当選する確率の計算をしてて思ったことのメモ。

今の応募数が258口。今1口応募すると、20 / 259 = 7.72%の確率で当たります。今2口応募して少なくとも1つ当たる確率は、1- { (240/260) * (239/259) } = 14.82%です。今10口応募して少なくとも1つ当たる確率は、...54.59%です。...応募数がM口の時にN口応募して、少なくとも1つの梅干しが当たる確率は、1 - {P(M+N-20, N) / P(N+M, N)} 。当選確率の表をアップしておきました。→ http://p.tl/KoGI (MS Excel ファイルです)


なんて話なんですけども、この当選確率の表、本当によくできているので、暇な方はぜひ。。。

=ROUNDDOWN(1-(PERMUT($B10+D$9-20,D$9)/PERMUT(D$9+$B10,D$9)),3)


このExcel関数の美しさについて10分くらい解説できそうな気もしますが、まあ、それはどうでもよくて、よくシロシベのお仕事で統計を使います。なんですが、ぶっちゃけて書いてしまうと、あんまり統計学を深く理解していなくて、というか、どうも統計というものが腑に落ちないのですが、この梅干しの当選確率を考えていて、また一層、確率や統計というものとの接し方について考えこんでしまいました。

僕が使う統計というと、主に「仮説検定」というもので、いろいろ書いてありますが、要は「偶然にこんな違いが出る確率は5%未満だから、これは違う。」と結論づける手法です。これ自体は別にいいんですけど、例えば、一番肝心な判定基準になっている有意水準の5%や1%、これが主観でしかないっていうのとか、なんていうのか、いろいろと腑に落ちない部分があります。

で、岡山大学工学部情報系学科の金谷健一先生の「確率統計を学ぶにあたって (PDFへのリンク)」でだいぶすっきりしました。

結論を先に言うと,確率統計が分からない最大の理由は,現実世界には「確率現象は存在しない」ということを十分に理解していないためである.確率統計は「存在しないことを学び,研究する学問」である.要するに「虚構」であり,極端に言えば「嘘」である.

それでは嘘だとわかっていることをなぜ研究するのであろうか.それはこの現実世界を簡単な手段で近似するためである.まず仮想世界ではどうなるかを計算し,次にそれを現実世界に対応させる.完全に対応させることはできないが,それが有益かどうかはその問題とその目的とによる.

確率法則が成り立つ仮想世界を考えるのは,それによって現実世界を近似するためであるが,それでは確率世界と現実世界とをどう対応づけるのであろうか.実はこれはあいまいなのである.例えばサイコロを振ったとき「1 の目が出る確率が1/6 である」ということは現実世界では何を意味するのであろうか.サイコロを振ると6 回に1 回は1 の目が出るということではない.これは「1 の目が出る可能性が1/6 である」という意味であり,実際に出る目とは無関係である.これを現実世界と対応させるのは「確率が適切に定義されていれば,確率の高いことが実際に起こるであろう,確率の低いことは実際には起こらないであろう」という期待である.

「ベイズ主義者」と呼ばれる人達はそれを一歩進めて,確率は人間の頭の中に存在する一種の心理状態,あるいは判断基準であると考える。

確率統計は人為的な創作科学であり,現実世界とは直接には結びついていないことを理解しなければならない。


で、ググってると面白いことに次々出会って困りますね。。。


それで梅干しですけど、これは乱数で無作為に選ぶので、一見したところ「確率事象」に近いわけですが、人が作ったアルゴリズムで発生させる乱数なので偶然の入る隙間はなく、そのアルゴリズムを知らないからランダムに選ばれると仮定している、という話です。当選確率が50%であることは、2回に1回当選するということではなく、当選する可能性が50%である、という意味であり、実際の当選という事象とは無関係である、ということですね。しかも、主催者がインチキするとか(しないけど)、匿名太郎さんが遠慮するとか、もっともっとややこしいですね。

で、「●●mSvの緩慢な放射線被曝で、ガンの発生率が●●%上乗せされるだけだから、●●しなくていい。」ですけど、これも確率事象に近似させた話でしかなくて、可能性の判断(大丈夫とか怖いとか)は個人が主観的に行うもので、そもそも、その根拠になっている「観測された頻度分布」でさえ、広島、長崎やチェルノブイリでまともな観測が行われていたとも思えず、その「可能性」自体がだいぶあやしい。ガンの発生率が○○%、と、私がガンになるかどうか、は無関係。その上、それぞれの人の人生におけるガンの意味は無数。人生が1回きりの個人にとっては、判断のしようがないですね。

まあ、何でもそうですけども。。。


Popular posts from this blog

エクセル1行をテキスト1ファイルに

教師を授けられた

サンプリングと本歌取り