☆ Rいろは(R初心者合宿)


ズブの統計初心者な方~古典統計の再確認~GLMなどの現代統計を導入するところまでをカバーするよう構成してみました。有意差至上主義(データを正規分布へと強制変換し個別の要因を全か無かで検定 or とにかくノンパラ)を脱し、データに即した分布型を選択し全体を説明する要因はどういう構成など統計モデルで考える時代へ、架け橋の一つになればと考えています。

(注:作成者(熊谷)は統計の専門家ではありません。内容には十分な注意を払っているつもりですが、限界があることをご理解の上で参照してください。感想・苦情・間違いのご指摘、歓迎します)


*第一部:R導入~Rコマンダー編(統計(再)導入 + Rコードが苦手な人向け)
・平均、分散、標準偏差、標準誤差から、なんで統計をするの?有意差の意味するところ
・パラメトリックな検定を、Rなのにメニューから選択可能な機能の使いこなしまで

*第二部:R操作基礎編(Rでデータ解析をする際の基本・必須操作)
・1+1の四則演算から始めるRの操作
・データの集計なども、最初のハードルさえ越えると超効率化できます。そのための指南など
・さらに、エクセルではデータシート1枚を使って計算するような種多様度指数を数行のコードで済ませるなどの例

*第三部:Rでグラフ作成編(様々なタイプのグラフ&外見の体裁作り)
・自分好みの体裁作りのコードをいったん作成しておくと、値を入れ替えるだけで、論文クオリティの図を即座に作れます。
・ここでは下地をお膳立てしたグラフの作成例をリストアップしました。簡単に二次利用できるものも多いはず。
・p.s. モノクロのグラフに弱いのがRのグラフ機能の弱点(斜線の角度、密度、グレースケールの濃度しか変えられない)。ただし、現在の標準的印刷技術ならばグレースケールの濃淡だけで表した方が、余計な視覚効果を排除することができてむしろ客観的であるという主張も見掛けます。

*第四部:Rで古典統計編(ANOVA、多重比較、回帰など)
・古典統計は入念な実験計画法とセットとなって初めて最強となります。そのような理想的なデータセットが用意できる場合には古典統計を第一の選択肢として採用するのがよいでしょう。
・一方で、複雑に多くの要因が絡み合ったようなデータセットや、"粗い"データセットの解析に適用するには向いていなように思います→あまりにも複雑になりすぎて何も言えなくなる
・古典統計は統計に使えるようにデータを取る、現代統計はデータに合わせて統計をアレンジする。実用上、そういう真逆の性質を持っているように感じます。

*第五部:Rで現代統計編(GLM、GLMMへの導入・基礎)
(プレゼンファイルpdf)
(解説・GLM、GLMM 実行コード)
・ネット上に参考情報があふれている現在、逆に、それらがあまりカバーできていなさそうな部分にフォーカスを当てて紹介できるよう試みてみました(数式や記号を極力避け、分からない人の気持ちが分かる資料作りを試みたつもりです)。プレゼン資料を眺めつつ、コードを実行していくとよいかと思います。
・構成としては、古典統計との架け橋~GLMなど現代統計に至る変化を三つに分けて紹介~。とくに尤度の利用のあたりはジックリと確率の単純な例題を用いて書いてみました。
・その他、なるべく、こういうデータはこれを使って解析すべき、というのをキーワードを多めに盛り込むことを意識しました。
・また複数の説明変数が関わってくる場合の絞り込みについては、複数の筋道をなるべく紹介するようにしたつもりです(ただし原則、検証すべき要因群は仮説として裏付けつつ用意すべきと思いますが)。
・GLMMについては、あえて最小限の用法に絞りました。私の印象として、一般的な用途ではせいぜいランダム要因は2つが限度(時間&空間など)だと思うし、そもそもRのみで完結させるにはランダム要因1個が限度であると考えているからです。どうしても2つ入れたければ、時間x空間のように最小単位まで分割するか、BUGS言語によるMCMC推定へと発展すればよいでしょう(BUGSは非常に時間を消費するので、解析対象の推定値の絶対値が大きな意味を持つなど、積極的な動機がない限り私は安易にはお勧めしません)。


*その他の記事へのリンク:
(Rのインストール、セットアップ、使用環境の整備などの参考) Mac, Win版それぞれのパッケージインストール事情やコード編集用エディッタ、文字コード、文字の置き換わり等々の諸問題についてまとめてみました。

(Rで解析するためのデータフォーマット形式と作成上の注意) 人の性(さが)か、Rでの解析用に"きれいに"集計されたデータを持ち込まれることが多いです。しかし多くの場合、そのような"きれいな"集計と解析は相容れず、未集計の状態へと1からデータフォーマットを再構築せねばならなくなります(じつにデータ解析の作業の大部分を占めることになる)。そのため、まずは解析に適したフォーマットをちゃんと紹介し多くの方々に知ってもらう必要性を感じました。

(Rで解析するためのフォーマットの変更補助プログラム) 解析用のフォーマットにも、目的によっては唯一絶対のものはなく、部分的に集計されている方がよい場合もあります。構造が単純なケースでは、ここで紹介した関数、プログラムを用いて、データフォーマットの相互変換が可能です。



*Rで統計モデリングを勉強するのにいいと思っている本:下記1~3など、なんとかこれ一冊でOKそうな網羅的テキストも出始めてきた印象です。
1. Zuur et al (2009) Mixed effects models and extensions in Ecology with R. Springer
あえて、どれか一冊というなら、これがよいと思っています。実践を強く意識した構成で役に立ちます。前半が基礎編、後半が実践編と充実しています。GLMMの説明も非常に分かりやすいです。オールインワンなので初めての方には敷居が高いかもですが、英語としてはかなり読みやすいです。分厚さは分かりやすさや情報量の代償かと。

2. 久保 (2012)データ解析のための統計モデリング入門 ― 一般化線形モデル・階層ベイズモデル・MCMC. 岩波書店
統計モデリングのWeb資料で誰もが参照してきたであろう、北大の久保先生がまとめられた本。理論や仕組みを理解して統計を使うのに役に立つでしょう。

3. 粕谷(2012)一般化線形モデル (Rで学ぶデータサイエンス10). 共立出版.
GLMで知っておくべきことが網羅的に整理されており重宝します。2と相補的な構成とも言えそうです。著者の前著の通称ピンク本には学生時代によくお世話になりました。

4. Grafen & Hails (2002) Modern Statistics for the Life Sciences. Oxford Univ. Press訳本:野間口 (2007) 一般線形モデルによる生物科学のための現代統計学. 共立出版
ANOVA & 回帰 → 重回帰や一般線形モデル(LM止まり。GLMは範囲外)への頭の切り替えをするのに役に立ちました。概念図を駆使した説明が多くて非常に分かりやすいです。脱古典統計のための第一歩によいかもです(注:Rを使った本ではありません)


*R全般の操作や学習の参考サイト:
R-Tips:情報が見やすく整理されていて利用しやすい 
R-wiki:R情報の検索用
Rによる統計処理:無数の統計解析手法と自作関数群!


*GLMMでの解析の参考になりそうな論文(実際の使用例):
Raihani (2009) J Anim Ecol 79: 44-52
Bestley (2010) Ecology 91: 2373-2384
Ferreira (2011) PLoS ONE 6:e25970
DuVal (in press) Proc R Soc B


*謝辞:一連の資料については、一通り自分の言葉で空から書いたものですが、やり方・考え方については、あらゆる先人の方々の知識と集積に影響を受けている or 基づいているものが含まれているはずです。勉強メモから起こしたので、元ネタが分からなくなっているものが多く、引用無しで載せているリスクがあり、その場合は大変申し訳ないです。
本記事は情報量というより、初学者にとっての分かりやすさを最優先したつもりです(苦労した歴史も時間も長い分、分からない人の気持ちは比較的わかるつもりです)。私と本記事のpriorityは、そこに尽きると思います。何より、関連の研究分野、教育、社会活動の健全な発展に繋がればこれ以上の幸せはありません。

0 件のコメント:

コメントを投稿