メインコンテンツへスキップ
  1. Personals/

統計検定準一級

·

https://www.toukei-kentei.jp/hubfs/files/grade_range/grade1semi_hani_190628_2.pdf

動機は、統計・データサイエンスに関する明確なアピール。そして、不適切な統計を見抜くため。

回帰診断法
#

線形回帰モデルが正しいのかなーって調べるのが回帰診断。

「誤差項はランダムかな」。この「ランダムかな」は細かく4つに分かれる

  • 正規性
  • 等分散性
  • 外れ値
  • 独立性

残差プロットで「綺麗にランダムかなー」を視覚的に感覚でなんとなくのセンスで全体感を見る。 でも、視覚(感覚)に頼るのではなく、より厳密に数字で診断したい場合は、、、

正規Q-Qプロット 「正規性ある?ない?」 平方根プロット 「等分散性ある?ない?」 leverage、Cookの距離 「外れ値ある?ない?」 DW比 「自己相関ある?ない?」

ベイズ法
#

ベイズ法は、「こうだと思ってた(事前分布)けど、今こういうことがあった(尤度)から、本当の分布(事後分布)はこのくらいだろうなー」と考える。 最尤法は、「今こういうことがあったから、それが真の答えだ!」と考える。

最尤法は、ベイズ法の特殊ケースとも言える。つまり「事前分布わからん」状態なので、データ(尤度)からしか事後分布を導けない。

MCMC

重回帰分析
#

重回帰しすぎると過適合、しなさすぎると過小適合になる そこで、正則化によって、過適合/過小適合を抑える

正則化の種類は3つに大分類される L1はイケイケ型(切る)、L2はユルユル型(均す)

L1正則化(Lasso回帰) 「無駄じゃん」と感じたパラメータをバッサバッサ切っていく。 ある二つのパラメータに着目した時、どちらかしか生き残れないイメージ。 さらに、亜種としてFused Lassoがあり、これは時系列データとかで使う。

L2正則化(リッジ回帰) 「無駄だと思うものも少しはね」と残してあげる。

Elastic-Net 「L1とL2、良いとこどりすれば?」

スパース性 「世界ってシンプルだよね」という哲学的な発想で、少ない要素で物事を表現する。