Simply Statisticsの「A non-comprehensive list of awesome things other people did in 2014」を眺めてみる

Simply Statisticsは、Jeff Leekさん、Roger Pengさん、Rafa Irizarryさんの3人の統計学者がやってるブログです。 私は、この人たちがやってるCourseraのクラスを取ってて知りました。(結局そのクラス、ドロップアウトしたけど。。)

で、今年のまとめ的な記事があったので眺めて興味あったとこをメモ。

A non-comprehensive list of awesome things other people did in 2014 | Simply Statistics

5. Hilary Mason founded fast forward labs.

元bit.lyのデータサイエンティスト・Hilary MasonさんがFast Forward Labsという会社をつくりました。

この会社、とても話題になっていてなんかすごそう!というオーラを放っているんですが、いまいち何やってるのかよく分かりません。 コンサル会社? 気になってはいます。

6. causal inference become the new hotness.

Casual Inferenceがアツい年だったらしいです。日本語で言うと、因果推論? ある出来事の影響を調べるために、それが起こらなかったと仮定した予測データと現実のデータを比較する、という感じ。で、あってます…?(自信がないので違ってたらツッコミください!)

そういえばGoogleのパッケージもありましたよね、と。そういえばこれ見かけた記憶があります。

CausalImpact

元になっている論文はこっち:

Inferring causal impact using Bayesian structural time-series models

因果推論についての説明は、この資料が分かりやすかったです。

7. Hadley was Hadley.

Hadleyさんは今年もHadleyさんでしたね、と。

アッハイ!って感じです。

9. Hilary Parker wrote this amazing introduction to writing R packages that took the twitterverse by storm.

EtsyのデータサイエンティストHilary Parkerさんが書いた、Rパッケージの作り方の基礎の基礎。たしかにこれ最小限だけ書いてあって分かりやすかったです。そんなにバズっていたとは知りませんでした。

Writing an R package from scratch | Not So Standard Deviations

一方その頃日本では…

東京R非公式おじさんが本当に気持ちいいパッケージ作成法を教えていましたよね。

この資料まじ分かりやすいので末代まで語り継がれるべき。

11. FiveThirtyEight launched.

データサイエンティストといえばこの人、Nate Silverさんがついにデータジャーナリズムなメディアをつくりました。

確かに、色々批判にさらされたりもしていましたが、「データジャーナリズム」というバズワードに甘えず着実に記事を書いていくのはすごいなーといつも思います。

FiveThirtyEightが何をやりたいのか、というのはこの記事に宣言されています。すてき。

What the Fox Knows | FiveThirtyEight

12. David Robinson's broom package

tidy data系。

dgrtwo/broom · GitHub

tidyrとかreshape2でがんばってtidyなデータをつくって分析するわけですが、結果出てくるlmとかanovaとかはまったくtidyじゃなかったりします。bloomは、それをtidyなdata.frameとして扱えるようにするパッケージです。へー。

14. the simplicity of charted.co makes me love it

Charted、いいですよね。ネット上に公開されているCSVをグラフ化するサービスです。 棒グラフと折れ線グラフしか描けないんですが、その割り切りっぷりに惚れます。

15. The hipsteR package for teaching old R dogs new tricks

Rのアーリーアダプター過ぎて、情報が2001年で止まってたひとに最近のRの事情を突き付ける記事。2つ目の項目に「Learn Hadley Wickham’s packages」という羽鳥教への誘いがしっかり入っていて度肝を抜かれます。2001年から一気に現代にワープしててすごすぎる。

hipsteR

ちなみにこの記事でその昔_を変数名に使えない時代があったことを知り、衝撃を受けて↓を書きました。些末な話ですが、興味あればどうぞ。

Rの変数名についての議論まとめ(ライト版) - Technically, technophobic.

24. Rocker, with Docker containers for R.

R用のDockerコンテナです。Dockerは、Dockerfileという形式で配布すれば、誰でも同じ環境を手元に作ることができます。Reproducible Researchという世界がまさかDockerにまで手を出してくるとは思ってませんでした。

Thinking inside the box - Introducing Rocker: Docker for R

rocker-org/rocker · GitHub

25. Regina Nuzzo brought the p-value debate to the masses.

P値の使われ方がおかしい!という記事。P-hackingなんていう単語があるというのがショッキングでした。

この部分、ちゃんと統計やってるようなひとなら理解しているんでしょうけど、初心者の私にはあーなるほどって感じでした。 P値は、色々ある条件のうち追試をする価値があるやつだけ選別するのに使われてた、と。

The irony is that when UK statistician Ronald Fisher introduced the P value in the 1920s, he did not mean it to be a definitive test. He intended it simply as an informal way to judge whether evidence was significant in the old-fashioned sense: worthy of a second look.

38. Pipes in R!

そういえば今年はmagrittrdplyrが登場した年でした。Simply Statisticsのひとも「忘れてたから追記したよ!」って書いてますが、もはやdplyrがない世界なんて想像できないほどに広まっていて今年の出来事だなんて思えません。去年の今頃はまだそんなものなかったんですね。まじか。

感想

番号の間隔でお気づきの方もいるかもしれませんが、後半は力尽きました。はい。一年って短いようで長いですね。ぜひ元記事も読んでください。

A non-comprehensive list of awesome things other people did in 2014 | Simply Statistics