まとまり日記

私はこういうときでも自分がいじけなかったこと、力むことなくそういう風に育ったのが母への感謝なのである。これは大きかった。恥ずかしさの容量が大きいのは強いのだ。見栄を張らないで生きること、これは何よりも大きな糧である。(森信雄)

ベイズ主義のAベイズC (2)

ソーバー先生の本

Evidence and Evolution: The Logic Behind the Science

Evidence and Evolution: The Logic Behind the Science

ベイズ主義の紹介の続き。

などとのんびりやっていたら、わたしが紹介しようとしているまさにその部分の翻訳が出ることになりました。

科学と証拠―統計の哲学 入門―

科学と証拠―統計の哲学 入門―

以下の部分は邦訳の情報が出る前に書かれたものなのでここであわてて出します。ただ、訳者の松王先生はわたしの兄弟子に当たるかたで、英語にしても内容の理解にしても信頼できる方です。なので、わたしがこれに付け加えることが何かあるのか(何でわたしのエントリを読むのか――訳書を読んだらエエだけやん)、これからこのシリーズをどうしたらよいか、ちょっと考え中です...。

仮説の(ベイズ流)確証

ベイズ主義では仮説の証拠による確証は、仮説の事後確率が事前確率を上回ることだと理解される。すなわち

仮説Hが確証されるとは、次のときになり、またそのときに限られる:Pr(H|O)>Pr(H)

このような確証に対する見方では、ある証拠が仮説を確証するということは、その仮説の事後確率が高いことを全然意味しない。例えば上の結核の例ではテストの結果は仮説「Sさんは結核に感染している」を上の意味で確証している(事前確率<事後確率)だが、事後確率の値自体は0.95パーセントで、まだ低いままだと言える。こういう事態を指してPeter Achinsteinは

The Routledge Companion to Philosophy of Science (Routledge Philosophy Companions)

The Routledge Companion to Philosophy of Science (Routledge Philosophy Companions)

に含まれたエッセイで「ベイズ主義では確証は安く手に入る」と表現している。ある証拠が「確証」と認められるためのハードルが高くないということだ。

「信頼性」の意味

次にソーバー先生は「信頼性」(reliability)というコトバの使われ方について少し注意をしている。ソーバー先生はある結核の検査について「信頼できる」(reliable)といわれたとき、二つの事柄が連想されると述べる。

一つの解釈では、検査が信頼できるというのは、陽性(陰性)の結果が出たときにそれが正しい、つまり実際に結核にかかっている(いない)確率が高いときである。すなわち

Pr(結核感染 | +) と Pr(非感染 | -)が高い

ことである。

もう一つの解釈では、検査が信頼できるというのは、実際に結核に感染している(いない)人が検査を受けると陽性(陰性)の反応が出る確率が高い検査である。すなわち

Pr(+ | 結核感染) と Pr(-| 非感染)が高い

ことである。

日常語の語感からいうとどちらの解釈も悪いわけではないのだが、ソーバー先生は統計学の哲学では「信頼性」というコトバは後者の意味で使われると述べている。つまり、信頼性は事後確率ではなくて尤度に関わる、というわけである。

事前確率をどう割り振るか

上の結核の例ではベイズ主義は非常にうまくいったように見える。しかしソーバーは上の例では満たされていたいくつかの条件は、科学的探求の現場においていつもいつも満たされている訳ではないことに注意を向ける。たとえば上の例は次のような特徴を持っていた。

  • 二つの仮説(結核に感染/非感染)は互いに排他的で網羅的な区別である。つまり被験者Sさんについてはこの二つの可能性しかなく、二つの可能性が同時に正しい――Sさんが結核に感染していて同時に感染していない――ことはありえない。
  • 仮説の事前確率の値を決めるときに、頻度のデータを用いることができる。たとえば二十歳台の日本人男性が結核に感染する頻度がわかっていれば、それをSさんが結核に感染している事前確率として用いることができる。
  • また尤度の値についても、頻度のデータから与えることができる。結核感染者が検査を受けたときにどのくらいの頻度でポジティブという結果が出るかというデータだ。

ところが実際の科学的探求の文脈では、こうした条件がいつも満たされるわけではない。主な論点の一つは、仮説の事前確率の問題である。上の例では、仮説の事前確率の値を決めるときに、頻度のデータを用いることができた。しかし、科学で検討される多くの仮説には、頻度のデータが欠けていることが多い。ソーバーは、特に非常に多くの多様な現象を扱う仮説――相対性理論ダーウィン主義進化理論――を取り上げる。こうした仮説にきちんと根拠のある事前確率\Pr(H)を与えることは難しいのである。

(ただし、ここではソーバー先生の記述に従っているので、ベイズ主義者に対応策がないような書き方になっているが、彼らも手をこまねいているわけではない。『科学哲学入門―科学の方法・科学の目的 (Sekaishiso seminar)』や『疑似科学と科学の哲学』、『Scientific Reasoning: The Bayesian Approach』といった著作には対応策が書かれているので参照してほしい。)

「ゴミ箱仮説」の問題

もうひとつのベイズ主義の大きな問題はいわゆるcatch-all仮説の問題である。ベイズの定理の右辺の分子は証拠の確率だったことを思い出そう。この証拠の確率をどう計算したらよいだろうか。上の結核の例では結核検査の記録から陽性の結果がでる頻度はわかっていた。しかし一般の科学実験ではそうした頻度がいつも得られるとは限らない。たとえば、ダーウィンは、「ガラパゴス諸島南アメリカの大陸で、環境および生態学的要請が異なるにもかかわらず、生物の形態が互いに似ていること」を生物進化説の特殊創造説に対する優位として主張したが、そうした証拠がでてくる確率を何かの頻度から導き出すことは簡単ではない。

しかし、頻度から引いてくることが難しいとしても、まだ証拠の確率をまったくあきらめてしまうには及ばない。というのは、以下の全確率の規則(law of total probability)でもって証拠の確率を計算する手だてが残されているからだ。

\Pr(e)=\Pr(e|H)\Pr(H)+\Pr(e|not-H)\Pr(not-H)

これが成り立つことを理解するには、右辺が、すべての事象を仮説Hが成り立っている場合(右辺の第一項)とそうでない場合(右辺の第二項)に分けて、それぞれにおいて証拠eが成り立っている場合を数え上げて、それを足したものと考えるのがわかりやすい。

この規則自体は確率の定理であるので、これには問題がない。しかしこの定理を使って証拠の確率の値を出すためには、上の各項に確率値を与えることができなくてはいけない。しかし右辺第二項の\Pr(e|not-H)\Pr(not-H)にどうやって値を割り振ることができるだろうか。これがcatch-all仮説の問題である。

ここでnot-Hというのは、Hではないさまざまな仮説を「AまたはB、またはC...」という形つなぎ合わせたものだ。よく分類についての議論では、分類のための基準に当てはまらないものを「その他」という形でいわば「ゴミ箱」に入れて雑多なカテゴリーとして処理されることが指摘されるが、このcatch-all仮説もそれと同じように、明示的に検討できない仮説群を「その他」としてゴミ箱に入れて処理しようとしているとも言える。

ではどうしたら\Pr(not-H)の値を与えることできるだろうか。これが簡単ではないことはすぐにわかる。というのはこの「ゴミ箱仮説」はまさにゴミ箱で、昔提案されたいまでは顧みられない仮説から未来に提起されるであろうまだ見ぬ仮説まで含まれているからだ。たとえば、Hをダーウィン進化論だとすると、not-Hにはいるのは、さまざまなヴァージョンの特殊創造説から定向進化説突然変異説、今西進化論、ウイルス進化論から構造主義生物学、さらには未来に提起されるありとあらゆる「ダーウィン進化論ではない説」になる。もちろん、こうした仮説のいくつかには確率値を割り振ることは可能だろう。天動説やアリストテレスのヒトの生殖についての仮説(男性は形相を提供し、卵子は質料を提供するというアレ)といった、いまでは顧みられない仮説については確率を\approx 0にしてよいだろうが、22世紀や30世紀や150世紀に提案される(かもしれない)仮説の確率などどう割り振ってよいかわからない。しかしこの確率の値がわからなくては、上の式から証拠の確率値を導き出すことはできない。これがcatch-all仮説の問題である。

(なおここもソーバー先生の記述に従ってベイズ主義の問題を指摘するだけにとどめているが、彼らも手をこまねいているわけではないので、上記の著作を参照してほしい)