https://www.toukei-kentei.jp/hubfs/files/grade_range/grade1semi_hani_190628_2.pdf
動機は、統計・データサイエンスに関する明確なアピール。そして、不適切な統計を見抜くため。
回帰診断法#
線形回帰モデルが正しいのかなーって調べるのが回帰診断。
「誤差項はランダムかな」。この「ランダムかな」は細かく4つに分かれる
- 正規性
- 等分散性
- 外れ値
- 独立性
残差プロットで「綺麗にランダムかなー」を視覚的に感覚でなんとなくのセンスで全体感を見る。 でも、視覚(感覚)に頼るのではなく、より厳密に数字で診断したい場合は、、、
正規Q-Qプロット 「正規性ある?ない?」 平方根プロット 「等分散性ある?ない?」 leverage、Cookの距離 「外れ値ある?ない?」 DW比 「自己相関ある?ない?」
ベイズ法#
ベイズ法は、「こうだと思ってた(事前分布)けど、今こういうことがあった(尤度)から、本当の分布(事後分布)はこのくらいだろうなー」と考える。 最尤法は、「今こういうことがあったから、それが真の答えだ!」と考える。
最尤法は、ベイズ法の特殊ケースとも言える。つまり「事前分布わからん」状態なので、データ(尤度)からしか事後分布を導けない。
MCMC
重回帰分析#
重回帰しすぎると過適合、しなさすぎると過小適合になる そこで、正則化によって、過適合/過小適合を抑える
正則化の種類は3つに大分類される L1はイケイケ型(切る)、L2はユルユル型(均す)
L1正則化(Lasso回帰) 「無駄じゃん」と感じたパラメータをバッサバッサ切っていく。 ある二つのパラメータに着目した時、どちらかしか生き残れないイメージ。 さらに、亜種としてFused Lassoがあり、これは時系列データとかで使う。
L2正則化(リッジ回帰) 「無駄だと思うものも少しはね」と残してあげる。
Elastic-Net 「L1とL2、良いとこどりすれば?」
スパース性 「世界ってシンプルだよね」という哲学的な発想で、少ない要素で物事を表現する。