Tokyo.RでApache ArrowとRの現状についてLTしてきました。

第67回R勉強会@東京Apache ArrowについてLTしてきました。 Apache Arrowを紹介したいというよりも、全貌をあんまり理解できていないのでざっくり発表して詳しい人からツッコミをもらいたい、という気持ちでスライドをつくりました。 たぶんいろいろ間違っていると思うので、遠慮なく指摘してもらえるとうれしいです。

speakerdeck.com

Apache Arrowについての補足

スライドではFeatherという切り口から入りましたが、Apache Arrowって何?という人はこのあたりを読むといいと思います。

wesmckinney.com (和訳:(翻訳)Apache Arrowと「pandasの10項目の課題」 - Qiita

wesmckinney.com

Rの実装は、Jim Hesterが試しにパッケージをつくってみた、というところのようです。 Apache Arrowの流れに乗っていくつもりはHadleyにもあるみたいですが、外に見えるところでは話は進んでいません。

github.com

もともとキャプテンアメリカが興味を示してたんですが、↑のissueを見ると話がこじれてしまっているようです。

そんな状況なので、いまArrowのR実装をつくればグローバル承認欲求が満たされること間違いなしです。興味ある方はぜひ。

fst

あと、LTでは時間がなくて紹介できなかったんですが、別のアプローチとしてfstというパッケージがあります。

www.fstpackage.org

あんまり全貌を理解できてないんですけど、Apache Arrowよりもうちょっと狭い領域のものを扱おうとしているように見えます。その分踏み込んだ実装にできるというのはアドバンテージでしょう。 インタフェースに徹するdplyrに対して独自路線でスピード重視のdata.tableも存在感を示しているように、Apache Arrowが普及したとしても、こういうRに特化したものが生き残るかもしれません。