Tokyo.RでApache ArrowとRの現状についてLTしてきました。
第67回R勉強会@東京でApache ArrowについてLTしてきました。 Apache Arrowを紹介したいというよりも、全貌をあんまり理解できていないのでざっくり発表して詳しい人からツッコミをもらいたい、という気持ちでスライドをつくりました。 たぶんいろいろ間違っていると思うので、遠慮なく指摘してもらえるとうれしいです。
Apache Arrowについての補足
スライドではFeatherという切り口から入りましたが、Apache Arrowって何?という人はこのあたりを読むといいと思います。
wesmckinney.com (和訳:(翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita)
Rの実装は、Jim Hesterが試しにパッケージをつくってみた、というところのようです。 Apache Arrowの流れに乗っていくつもりはHadleyにもあるみたいですが、外に見えるところでは話は進んでいません。
もともとキャプテンアメリカが興味を示してたんですが、↑のissueを見ると話がこじれてしまっているようです。
I’m def interested. Need to figure out how much 🕗 I can commit. Also, some new changes in r-devel cld make this easier, too.
— hrbrmstr's LMD (@hrbrmstr) 2017年9月13日
そんな状況なので、いまArrowのR実装をつくればグローバル承認欲求が満たされること間違いなしです。興味ある方はぜひ。
fst
あと、LTでは時間がなくて紹介できなかったんですが、別のアプローチとしてfstというパッケージがあります。
Want to access fst files with dplyr verb? Give fstplyr a try! https://t.co/i28jMpiNvP
— Kirill Müller (@krlmlr) 2018年1月9日
あんまり全貌を理解できてないんですけど、Apache Arrowよりもうちょっと狭い領域のものを扱おうとしているように見えます。その分踏み込んだ実装にできるというのはアドバンテージでしょう。 インタフェースに徹するdplyrに対して独自路線でスピード重視のdata.tableも存在感を示しているように、Apache Arrowが普及したとしても、こういうRに特化したものが生き残るかもしれません。