2014年2月24日月曜日

「シグナル&ノイズ」予測の精度を上げる虎の巻です!

【このテーマの目的・ねらい】
目的:
 予測の精度を上げる方法があることを知っていただく。
  「専門家」の意見を鵜呑みにしないようにしていただく。
 いかに一般の予測がいい加減であるかを知ろうとしていただく。

ねらい:
 「シグナル&ノイズ」を読んでいただく。

ーーーーーーーーーーーーーーーーーーーーーーーーー

「シグナル&ノイズ」は、ネイト・シルバーさんという
アメリカの30代の統計専門家が書いた本の書名です。














この大学教授でもない人の著作が
日本でなぜ出版されたかというと、
著者の実績です。

 2008年の米大統領選挙の際に
 50州のうち49州の結果を当てた。
 2012年の大統領選では50州全部を当てた。
 野球の賭けで、詳細な分析を行って大儲けをしている。

それにしても
「シグナル&ノイズ」って何の本だろうと思います。

著者は前書きでこう書いています。
ーーーーーーーーーーーーーーーーーーーーーーーー
(画期的に情報の伝播速度を早めた)印刷機の誕生から
長い時間が過ぎた。
情報はもはやめずらしいものではなく、
その量は私たちの手に負える範囲を超えている。

しかし有用なものは少ない。
私たちは情報を選別して、主観的に受けとめ、
そこから生じる歪みには気づかない。
私たちは知識を必要としているときに、
情報が必要だと思っている。

シグナルは真実であり、
ノイズは真実から目をそらさせるものである。
これはシグナルとノイズに関する本である。
ーーーーーーーーーーーーーーーーーーーーーーーー
つまりこういうことです。

 現在は情報過多なので、
 有効な情報(シグナル)と無効の情報(ノイズ)を
 区別する必要がある。

そこで、以下のいくつかの領域で、
なぜ予測が当らないのかを分析しています。

読んでビックリです。
私も大学時代にほんの少しは統計の勉強をしましたが、
凄い人がいるものだと感心しました。

ソ連の崩壊
選挙の早い段階での予測
リーマンショックを引き起こした住宅バブル
地震の予測
経済予測
インフルエンザの流行予測
ギャンブル
地球温暖化
テロ
天気予報(当たる方の例外)

政治・経済・自然現象と多岐に亘っていますが、
どれも興味深いテーマです。

インフルエンザの予測は、
単に過去の流行状態を延長して推定している、
状況が変化することを加味していない、のが原因。

地球温暖化は、
長いレンジでの大きな変化と、
小さなレンジでの動きを区別してみる必要がある。

選挙の早めの予測では、自分のひいきが影響する。

というようなことです。

では「こうすればよい」に関しては、
以下のたいへん興味深い解説をしています。

予測スタイルには、ハリネズミ型とキツネ型とがある。
(テトロックという心理学者の説の紹介)

「キツネはたくさんの小さなことを知っている、
ハリネズミは大きなことを一つ知っている」(由来は省略。上野)

「ハリネズミというのは、大きな考えを信じている人たちだ。
あたかも自然界の法則であるかのように機能し
社会のすべての相互交流を実質的に支える基本原則がある
と信じている」

「キツネはこれといった原則を持たない生き物で、
たくさんの小さな考えを信じており、
問題に向けて様々なアプローチを試みる。
彼らは微妙な差異や不確実性、複雑性、異なる意見に寛容である」

「ハリネズミが大物を狙う狩猟者なら
キツネは最終者である」

著者はキツネ型を勧めています。

アメリカの人気報道番組での「専門家」の予測成果を調べたところ、
かなり成績が悪かった。
「彼らが絶対に怒らないと言った事象の15%が起き
絶対確実と言った事象の25%が起きなかった」

その中でも、
ハリネズミ型はたびたびテレビに登場するのであるが、
その人たちに成績が悪かった。

はっきりしたことを言う人の方が一般受けするので
登場回数が多くなるのであろうが、結果はよくない、

と評価されていました。

私もかねてから
「専門家」と言われる人のコメントはいい加減だ
と思っていました。
そのとおりなのです。

ハリネズミ型とキツネ型の比較表を転載いたします。


キツネとハリネズミの姿勢


キツネの考え方

ハリネズミの考え方

総合的 もともとの政治的立場にとらわれることなく、さまざまな分野に取り組む。

専門的 1つか2つの大きな問題を専門とすることが多い。分野外からの意見は疑う。

柔軟 最初のアプローチが機能するかどうかわからなければ、新しい方法を見つけたり、同時に複数の方法を試したりする。

硬直的 全部をひっくるめたアプローチにこだわる。新しいデータはもとのモデルを補強するために使う。

自己批判的 (うれしくはないが)すすんで自分の予測の間違いを認め、非難を受け入れる。

頑固 間違いは運が悪かったと考えるか、特別な環境のせいにする。優れたモデルにも、ついていない日はある。

複雑さを受け入れる 世界を複雑なものとして見ており、多くの基本的な問題は解決不能、あるいは本質的に予測不能だと思っている。

秩序を求める ノイズのなかからシグナルを発見できれば、世界を支配するきわめて単純な原則を見つけることができると思っている。

用心深い 確率的な言葉で予測を表現し、断定を避ける。

自信がある あいまいな予測をすることはなく、意見を変えることをよしとしない。

経験的 理論より経験を重視する。

イデオロギー的 より壮大な理論や闘争により、日々多くの問題が解決されると思っている。

キツネは予測が上手

ハリネズミは予測が下手

著者はその上で、
いかにキツネ型を実践し的中率を上げるか
のノウハウをかなり詳細に開示しています。

そのノウハウの一つが「ベイズの法則」です。
この法則は以下の算式で説明されます。

この定理を面白い事例で説明しています。
妻が見知らぬ女物の下着を見つけたときの
夫が浮気をしている確率の計算です。



ベイズの定理――「謎の下着」と浮気の確率


事前確率



相手が浮気をしている確率の初期見積もり

x

4

新たな事象がおこる――謎の下着発見



相手が浮気をしているという 条件下で下着が存在する確率

y

50

相手が浮気をしていないという条件下で下着が存在する確率

z

5

事後確率



下着を見つけた場合に相手が浮気をしている確率の修正見積もり


xy


29


xy+z(1-x)


 

絶対に浮気だ、と決めつけるのではなく、
浮気の可能性を次のように計算します。

浮気をしている確率は、
浮気をしている時にその下着がある確率と
浮気をしていない時にその下着がある確率の合計で
浮気をしている時にその下着がある確率を割った数値になる
ということです。

この式で「事前確率」というのは、
この計算をする以前に知られている確率で、
何も「前科」がなければ、社会一般の浮気率を使います。

前科があれば、この下着が見つかる前の段階で、
夫が浮気をしているのではないかということについて、
どの程度の可能性を見込んでいたかということが
事前確率です。

この部分の説明はたいへん面白いです。
興味のある方は是非ご一覧ください。

このベイズの定理の説明事例に、
乳がん検査のマンモグラフィのことが載っています。

 マンモグラムはガンでない女性を検査しても
 10%の確率で間違ってガンと診断する。
 一方、もしその女性がガンであれば
 75%の確率でガンを発見する。
 (逆に言うと25%は見逃す)
  
 この結果をベイズの定理に当てはめてみれば
 マンモグラムで陽性であるという条件下で
 40代女性が乳がんである確率は10%しかないのだ。

 そもそも若い人で乳がんになる人は非常に少ないので、
 擬陽性のサンプルが全体に与える影響が大きくなる。

以上ほんのさわりしかご紹介できていません。
590ページの大作ですが、
予測に関わる方はぜひご一読ください。
学者的研究書ではなく、
実際に野球くじなどで大儲けしている人の意見なのですから。

0 件のコメント:

コメントを投稿