The Book of Why: The New Science of Cause and Effect
鄭**宇
Must read for people who use or read statistics
One of the best books ever read. If you are any professionals who work with data, or just wanna to be educated about data and statistics in general, then this is a must read.To extend the applicability, for example as controversial as the effectiveness of Covid vax and masking, if you don’t know causality you are probably interpreting the results wrong. The book itself is too important and striking so that any other traditional statistics courses won’t cover the contents.Even if you only read the first 3 chapters it’s still incredibly enlightening, unless you are some of a traditional statistician who rejects subjectivity in stats and science at all.
し**ま
因果推論の概念をどうしてこう定義したかが分かる本
Pearlさんの因果推論の教科書には "Causality" 『統計的因果推論』共立出版や "Causal Inference in Statistics: A Primer"『入門 統計的因果推論』朝倉書店 などがある.特に後者は,例題も同じものが多い.私は,これらの教科書を見て,とりあえず「十分性の確率」とか計算はできるのだが,それが「必要性の確率」とその意味するところの違いは全く分からなかった.この本を読んで,事例を元に因果推論の概念定義がどうしてこうなっているのか,またその意味するところがやっと分かってきた.こうした確率論に基づいた内容を詳しく説明するとともに,因果推論の歴史的な逸話を紹介する読み物としての側面もある.ピアソンやフィッシャーなどの著名な研究者や,壊血病やコレラといった話題が詳しく紹介されている.1章:Ladder of Causation 因果の階梯 は二つの量の変化に繋がりがある「連関」,一方を変えるともう一方に影響する「介入」,現実には起こらなかったもしもを扱う「反事実」の3段階を紹介.この階梯の2段や3段に上るミニチューリングテストやdo演算子などの基本概念も紹介.2章:ゴルトンやフィッシャーによる相関関係の誕生の歴史がまず紹介される.そのあと,因果の依存関係を示す図を始めてライトが示すが,RCT以外では因果は分からないとするフィッシャーと対立して注目されなかったころの話題.3章:同時分布を複数の条件付き分布で表すベイジアンネットと,交絡や媒介といった概念の紹介.その他,ベイズは,国教会の信者でなかったため大学への入学を認められず不遇だったが,死後に友人が手記を出版してくれて歴史に名を残す逸話などがある.4章:原因と結果の両方に影響するため,偽の因果関係に見えてしまう交絡因子の紹介.また,do演算子を使って,具体的にどう問題を解決するのかの例や,パスをブロックするという有向分離の概念が示される.5章:タバコが肺癌の原因かという論争を通じて,介入できない状況で因果関係を明らかにできるかという問題についての議論を紹介する.パイプタバコが大好きなフィッシャーは,肺癌と喫煙習慣の間に喫煙遺伝子という交絡の可能性を主張して因果関係を否定したらしい.6章:パラドクスの殿堂として,モンティホール問題やシンプソンのパラドクスを紹介する.これらが誤りであるかだけでなく,なぜ誤った解釈をしてしまうかの理由も紹介しないと,納得は得られないというのは示唆に富む.7章:バックドア規準とフロントドア規準という構造因果モデルでも複雑な内容の紹介.ここを読んでやっとバックドア規準をなぜバックドアというのかやっと分かった.加えて,スノウのコレラと井戸の逸話には続きがあり,この逸話を元に操作変数法が紹介される.8章:因果の階梯の3段目の反事実が登場する.前半はRubinの因果モデルに必要な無視可能性条件は成立しない例が示される.後半は,法学におけるbut-for原因とproxmate原因の例を元に,因果推論の十分な原因と必要な原因について紹介.私は今までこれらを全く分からなかったが,この例でやっと分かってきた.9章:UCバークレイの著名な入試問題の例を挙げて,媒介変数の扱いの難しさを紹介したあと,介入の効果を,直接的なものと,間接的なものに分ける話題.簡単そうだが,反事実まで導入しないといけない,実は込み入った話というのが分かる.10章:前半は他のデータを使うtranspotability や選択バイアスの問題を構造因果モデルで解決する話題.後半は強いAIや自由意志についての議論.自由意志の有無ではなく,それをたとえ幻想としても認識することによる工学的利点から議論するのは面白かった.
C**E
観察研究の復権
著者は「なぜ」を説明することに正面から取り組んでいく。因果関係は3段構造になっている。1段目は連関で、これは観察したものについての予想をする。例えば、「歯磨き粉を買った人はデンタルフロスを買うだろうか?」という疑問はこの段階。機械学習はこの段階にいるに過ぎない。2段目は介入で、これは環境を変化させた場合の予想をする。例えば「歯磨き粉の価格を2倍にしたときのフロスの売れ行きはどうなるか?」という疑問はこの段階。観察するだけでなく実際に世界を変化させないといけないから段階が異なるのだ。他の要素が絡んでいるかもしれないから観察結果だけ(1段目)ではこの疑問には答えられない。実験で答えるような疑問がこれ。3段目は反実仮想で、これは「なぜ」について答える。時を巻き戻してそれが取られなかった場合について考えることになる。例えば「歯磨き粉を買った人は価格を2倍にしたときどれくらい買う確率があるか」を問う。世界が変化した理屈を考えるのは因果関係の仕事であり確率の仕事ではない。いかに知性や身体の特徴が遺伝するかを探る過程でゴールトンはしくじり、平均への回帰を説明しようとして因果関係を結局は放り出すこととなった。統計から因果を放逐しようという教義はその後根深く残り、ピアソンもフィッシャーも相関にだけ気を配り続けた。しかしシューアル・ライトはパス図を開発した。これはどの要因がどう効くかを係数と矢印でもって示したもので、因果を説明する大きな飛躍となった。問題設定者が仮説を持って書き下さなければならず、データに語らせるということはできないのだ。「起こりそうにないことが実際に起きたと納得するにはどれくらい証拠が必要だろう?」ベイズ牧師の頭を悩ませていたのはこういう疑問だった。ビリヤード台のある位置までに止まる確率は計算しやすいが、球の止まった位置からビリヤード台の長さを推測するのは非常に難しい。結果から原因を推測するにはかなりの情報が必要となる。AIの発達にあっては世界ではなく専門家の行動をモデル化しがちであり、失敗が続いていた。そこでベイジアンネットワークはいくつかの変数をまとめ、人間の脳が情報を伝達させる方法に似せることにした。階層構造にして信念を伝達させるという方式でベイズの法則に従うというものだ。カバンを見つけたり犠牲者のDNAを調べたり電話に使われたりと広く応用されている。RCTはしばしば黄金基準と言われるがこれは交絡変数のバイアスを避け研究者の不確実性を量で表せるからだ。そもそも交絡変数というのは統計学の概念ではなく、計りたいもの(因果関係)と統計的方法で測れるものの間に存在する。ここで著者は因果関係ダイアグラムではっきりどの変数がどう影響しているか書くよう提唱する。A→B→Cという繋がりならBをコントロールするとAからCへの情報は遮断され、A←B→Cという繋がりならやはりBをコントロールするとAからCへの情報は遮断され、A→B←Cという繋がりならBをコントロールすると逆にAからCへ情報が流れるようになる。変数から変数へ情報が流れるようにコントロールする変数を選んでいけば良い(裏口基準, back door criteria)のだ。この考え方はシンプルかつ力強い。タバコが肺がんを引き起こすことも、モンティ・ホール問題がなぜ混乱して見えるかも、シンプソンのパラドクスがなぜ混乱して見えるかも解決してくれる。情報がどのようにして得られるかは情報自体と同じく重要なのだ。著者はまた玄関基準(front door criteria)というものも導入し、変数から変数への介入効果を示していく。do作用素を利用することで階層の1段階目のデータ(seeing)を使って2段階目の介入(doing)の影響を測ることができるのだ。観察研究の復権と言える。シトラスは壊血病を防いだが、酸味が壊血病を防ぐと誤解されたからか次第にビタミンを含まないようなもので防ぐことができると勘違いがなされるようになってしまった。直接どれだけ効いているのか測るのは非常に重要な問題と言え、何人もの統計学者を悩ませてきたこの媒介分析も3段階目の反実仮想を利用し鮮やかに解いていく。大学の入学審査が差別をしているのかも、教育がどれだけ雇用に効くのかも、教育政策がどれくらい成績を伸ばしたかも、同じ枠組みで解ける。反実仮想の素晴らしさは、政策の結果が誤っていたときにどう正せばいいかわかることだ。ビッグデータの時代にあってデータが全てを語るという安易な立場に著者は懐疑的だ。強いAIは反実仮想を扱って自ら学ばなければいけないだろう。因果推論について非常にわかりやすく説明されている。挿絵も非常に可愛らしく、おすすめ。
ず**ー
残念。
表紙には(小さいけれども)凹み傷があり、読むのに差し支えはないのですが、本の上部にはインク染みのようなものもありました。
H**C
Audio book is not good
It is better to read the paper book instead of audio book. There are some equations, I can follow while listening audio book.
Trustpilot
3 weeks ago
5 days ago