2020年3月25日水曜日

「統計学が最強の学問である」

【このテーマの目的・ねらい】
目的:
 統計学の有用性を再確認していただきます。
 統計学の基礎知識を再確認していただきます。
ねらい:
 あらためて、統計学を勉強してみますか?
ーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ーーーーーーーーーーーーーーーーーーーーーーー
「統計学が最強の学問である」はベストセラーにもなった
西内啓さんの統計学の解説書ですが、
この書名は誇大だと思います。
「統計学が社会科学における最強の学問である」なら分かります。

人文科学は、古今東西の事実の発掘が目的ですし、
自然科学の目的は発明・発見です。
どちらもAIによって補助することはできても
統計によるとは限りません。


こう解説して気が付きました。
癌などの病気の発生原因が統計的に分析されていますが、
これは社会科学の領域なのだと思います。
その先で、「なぜそうなるのか」の原因究明を行うのが医学なのです。
(当然ながら、医学者が統計的分析をしていけないわけではありません)



それはともかく、この書籍の内容は素晴らしいものです。
ストーリ展開がよくできていますし、
事例を織り交ぜた説明の仕方も上手です。
索引が付いているのも、一般書としては稀有です。
気になることは、若干「上から目線」であることでしょうか。


西内さんは、東大医学部を出て、
東大の医学系研究科の助教もしておられたのですが、
退職して2014年から
「データサイエンスをみんなの手に」を標榜する
㈱データビークルの創立に参画し、
現在はその代表取締役をしておられるという異色の人材です。


(「なぜそんな転職を?」と気になるところです。
私はその想定をしてみました)


私も大学で多少統計学を勉強したはずなのですが、
再度勉強をさせていただき、以下のような整理をしました。


こんな大上段な書名をつけられるのですから、
あらためで「では統計学というのは何ですか?」
という疑問が湧きます。
本書では直接その定義はされていません。


ですが、
「なぜ統計学が最強の武器になるのか」の説明として
「どんな分野の議論においても、データを集めて分析することで
迅速で最善の答えを出すことができるからだ」
とあるところからすると、
統計学=データを集めて分析する方法の研究をする学問
ということのようです。


国の活動状況を測定する経済統計、
代表的なのはGDPですが、成長率が何%だとか言って大騒ぎします。
どうやってこの数値を算定するか(集めるか)、
は統計学の応用でしょう。
サンプリングの方法などは統計学です。

もう一つの領域は、複数のデータ間の関連を分析することです。
統計解析と言われます。
残念なことに、「統計解析」についても本書での定義はありません。
ビッグデータ分析とかが例で挙げられているだけです。


そういうことからすると、
統計学は私なりに整理すると、こうなります。
1.測定したい対象の数値を集める方法の研究
2.数値間の関連を解析する方法の研究
をする学問である。


前者は地味な領域で、多くの人の関心を集めません。
昨年問題になった中央官庁の統計不正事件は、
統計への無関心・無知が引き起こしたものです。



統計解析については、ビジネス界でも活用分野が広いので
一般の人の関心も高いようです。
統計解析の一般的な手法は、
データ間の相関関係を分析する回帰分析です。


回帰分析につきましては、本書で次のような解説があります。
「データ間の関係性を記述する、あるいは
一方のデータから他方のデータを予測する数式を推定する
のが回帰分析という考え方である」


広義の回帰分析を、
一般の統計学者は「一般化線形モデル」というようですが、
筆者はこの手法を以下の表にまとめています(自称「力作」)。


こういう解説があります。
本書では統計学の目的を、
「フェアな比較に基づき違いを生む要因を見つけることである」
としているが、
どのような分析軸で(これを説明変数という)、
どのような値を比較したいか(こちらは結果変数と呼ぶ)
ということさえ決まれば、
用いるべき手法は簡単にこの表で選ぶことができる。


そこで、本書により、その手法を整理(用語解説)してみました。
主として自分のためです。
一部は本書以外の解説も利用しています。


広義の回帰分析の関連用語


名称

内容


t検定

2グループ間(男女など)での平均値の比較を行いそれが偶然の結果かどうかを判定する.p値や信頼区間を使う。

顧客の一人当り売上は男女で異なるか。

信頼区間

サンプリング調査の結果で、真の値がどのくらいの確率でその範囲に入っているかを示す(95%信頼区間が多く用いられている)。

ある条件の世帯の1カ月平均所得のサンプリング調査の結果が30万円だったときに、95%信頼区間(真の値)は28万円~32万円の間である。

分散分析

分析対象データ(結果変数)が、どの要因(説明変数)によるものであるかを分析する。要因の数により、一元配置、二元配置、多元配置と言われる。

勤労者のある年代の所得の多寡は、学歴、職業、〇〇によるかを分析する(この場合、3要因なので多元配置)。

説明変数

相関関係を分析する際の要因(原因)側の変数

上例だと、学歴、職業、〇〇

結果変数

相関関係を分析する際の結果側の変数

上例だと、所得

回帰分析

連続値のデータ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定する方法

年代と所得の関係がどうなっているかを分析する。

回帰直線

関係式が1次式の場合の直線は回帰直線と言われる。

年代と所得は比例関係にあり、その関係は線形の直線で表示できる。

重回帰分析

説明変数(予測したい結果に影響する要因)が複数ある場合の回帰分析

所得が、学歴、職業、〇〇それぞれによって、独立的にどういう関係になっているか、を分析する。

回帰係数

回帰分析における数式の係数

勤労者の所得=15万円+年齢×5千円だとした場合の15万円(切片)と5千円(傾き)が回帰係数である。

χカイ二乗検定

条件の異なる2者のありなしデータを比較し、その結果数値がある要因に基づくものか、偶然の結果なのかを判定する方法

ある商品を買った人と買わなかった人が、該当商品のテレビCMを見たかどうかの分析をした際に、見た人の購入率が高いのは偶然かどうかを検証する。

p値

実際には何の差もないのに誤差や偶然によってたまたまそのような結果が生じる確率のこと。この数値が5%以下であれば、偶然性は低いと判断される。

このp値はサンプル数に依存し、サンプル数が大きければp値は下がる。

上例で、p値が5%をかなり上回っていれば、購入率が大きいのはテレビCMの効果だと判定できない(誤差が偶然の結果である)。

ロジスティック回帰

ありなしなどの2値(の結果変数)の分析に連続値の分析手法である重回帰分析手法を適用する手法

購買の有無、来店の有無が年代によって異なるかどうかを分析する。

回帰モデル

重回帰分析やロジスティック回帰分析など回帰分析の手法を指す。

 

ランダム化比較実験

どちらの方法あるいはどの方法が優れているか、あるいはその相関関係は有意なのか、を検証するために、比較する対象の発生状況をランダムにした実験をして結果を確認する方法

農作物の収穫量は水はけ、日当たりなどの影響を受ける。肥料Aと肥料Bで収穫量に差があることを確認するためには、農地を細かい単位に分割してランダムに肥料をまき分け、その結果で収穫量の差を分析する必要がある。

相関係数

一方の値が大きいときに他方の値も大きい、あるいは一方の値が大きいときに他方の値が小さいという関連性の強さを測定する係数。


相関係数の値

相関関係の強弱

(一般的判断)

0.7~

強い正の相関あり

0.4~0.7

正の相関あり

0.2~0.4

弱い正の相関あり

-0.2~0.2

ほぼ関係ない

-0.4~-0.2

弱い負の関係あり

-0.7~-0.4

負の関係あり

-1~-0.7

強い負の関係あり



 本書には、統計学ではないのですが
興味深い情報が紹介されていました。
それは、参考文献の探し方です。
日本語での文献検索は,J-STAGEで行えるのですが、
その際、そのテーマについて誰かが専門的に研究しているか
どうかを知るための方法がガイドされていました。


西内さんは、スゴイ博学ぶりなのですが、
この方法で少し研究すると、
世界では現在どのレベルまでの研究がされているかが
分かってしまうのです。

その方法は、知りたいテーマ名と合わせて
「系統的レビュー」「システマティックレビュー」
「システマチックレビュー」「メタアナリシス」「メタ解析」
というキーワードを付加するのです。


これらのキーワードは、
そのテーマについて他の文献を分析しているということを示すもので
1次研究だけでなく、
他人の文献の研究をして自説を高めているということを示します。
その領域の研究が深まっていることが判定できるのです。
(上野注:レビューをレビュに換えた言葉も必要かもしれません)


試しに、私の提唱している「価値目標」で引いてみました。
210件ありました。
その中に私の論文が1件ありました。
他は詳しくは見ていませんが、
明確に「価値目標」という言葉を使っているのはごく一部でした。


上記のお勧めのキーワードを足すと1件も該当がありませんでした。
ついでに「日本人の思考法」で検索しましたら119件ありましたが、
上記キーワードを付加するとこれも0件でした。
日本人の思考法はかなり研究されているはずですが、
論文という形になっているのは、ないか少ないということのようです。


以上、久しぶりに勉強をさせていただきました。


2020.3.26追記 
「統計学が最強の学問である(ビジネス編)」を読んで。
「統計学が最強の学問である」はベストセラーになりましたので、
続編が「数学編」「実践編」「ビジネス編」と出ています。


そこで、「ビジネス編ではどういうことを言われるのだろう」と思って、
まずその第2章「人事のための統計学」を読んでみました。


人事全般ではなく採用面のことであり、その骨子はこういうことでした。
1)採用は「優秀な人間を採用する」のが目的ではないはず。
2)その会社の事業発展に貢献する人材を採用すべき。(そのとおり)
3)その人材の条件は、事業により担当業務により異なる。(そのとおり)
4)事業発展に貢献する成果(結果変数)を何で測るかを決める。
5)その成果は何の要因(説明変数)が左右するのかを想定する。
6)説明変数・結果変数の関係を分析する。
7)分析結果により、有効かつ現実的な説明変数を決定する。
8)その決定結果を利用して採用活動を行う。


4)については、
現実的に何をどうやってデータを取るかが解説されています。
それなりの検討が必要ですが、何とかなるでしょう。
5)も仮説力が必要で簡単ではありませんが、
何とかなるかもしれません。


ところが、6)が困難なのです。
それは統計学の素養がないからではなく、
そういうデータ(特に説明変数)が得られないからです。
たとえば、入社時のテスト結果、面接での対応、
営業職であれば、各種行動実績、などです。


性格特性であれば、
あらためて診断テストを実施すればよいのですが、
簡単にできないかもしれません。


結局のところ、いくら統計学が頑張っても、
データがなければどうにもならない、ということなのです。
それはそうですね。


この点に関連して、以下を付言します。
システム企画研修株式会社が提供している
CAT(コンピテンシ測定ツール)は、
対象職種が必要とするすぐれた能力
(資質・適性からヒューマンスキル、コンセプチュアルスキルまで)
を演繹的に設定して、
個人がその能力をどの程度満たしているかを
自己判断に基づき測定します。


目下、多くのかたにテストしていただいて、
測定結果と本人の適性自覚とは一致していると、
評価いただいております。


今後、
個人ごとの能力特性(説明変数)と
対象職種での活躍度(結果変数)を測定して、統計解析すれば、
能力特性の中でも特に何が効くのかが分かってくること
が期待できます。


 

0 件のコメント: