「Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド」（共立出版 2017）を読んだ。

著者陣からご厚意によりオシャレ！デカイ！アツイ！と話題の「Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド」を頂きました。ありがとうございます！！！

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

作者: Simon Munzert,Christian Rubba,Peter Meissner,Dominic Nyhuis,石田基広,工藤和奏,熊谷雄介,高柳慎一,牧山幸史
出版社/メーカー: 共立出版
発売日: 2017/06/08
メディア: 単行本
この商品を含むブログ (1件) を見る

実は1カ月以上前に送っていただいたのですが、バタバタしているうちに時間が過ぎてしまいました。すみません。。まだざっとしか読めていないんですが、表紙のカッコよさに嫉妬しつつ書評を書きます。

「Rによるスクレイピング入門」という本もあります

気になる人もいると思うので、比較という切り口から紹介していきたいと思います。

notchained.hatenablog.com

「Rによるスクレイピング入門」も「Rによる自動データ収集」もウェブスクレイピングまわりの話題を扱う本です。看板に掲げているのは「スクレイピング」ですが、↑のブログに書いた紹介の言葉をこの本についても繰り返すと、

この本は、ウェブスクレイピングの本でありウェブAPIの本でもあります。「広大なインターネット上のデータをRで扱う方法」みたいなことについて書かれた本

です。「Rによる自動データ収集」にも、いわゆる「スクレイピング」のみならず、ウェブAPIについての話題が扱われています。

「Rによる自動データ収集」は基礎知識の説明が丁寧

では何が違うのかといえば、まず目につくのはページ数です。

同じような内容について触れた本でありながら「Rによる自動データ収集」は圧倒的に分厚いです。592ページという、実に「Rによるスクレイピング入門」の2倍以上の分量になっています。そのページ数の大半は、基礎知識の網羅的な説明に費やされています。基礎知識は例えば、HTML、XML、XPath、HTMLなどです。これは、いわゆる「スクレイピング」に関わるトピックです。

説明は丁寧も丁寧で、これを頭から読み切るのはやや単調かもしれません。前半はざっと目を通す程度にして、困ったときに引く辞書的なものとして使うといいかもしれません*1。

「スクレイピング」がしたいなら買い

とはいえこんな分厚い本いる？と思うかもしれませんが、もしあなたがやりたいことが「スクレイピング」なのであれば手元に置いておいて損はないでしょう。

「スクレイピング」を始めることは難しくありません。目の前にあるウェブページからデータを抜き出すのに、コピペする代わりにRでスクレイピングする、という程度なら誰にも怒られないでしょう。

しかし、より高度なことをしようと思えば、あなたが知らなくてはいけないことは加速度的に多くなります。間違ったデータを拾ってこないようにするには、通信エラーをハンドルするには、法律に触れない範囲でやるには、取ってきた膨大なデータを格納するには、などなど。こうしたことを頭を悩ませながら毎度ググる手間を思えば、6500円は安いものです。

ウェブAPIいいよウェブAPI

「スクレイピング」がこんなに大変なのはなぜかといえば、何の線も引かれていない荒野を開拓する行為だからです。一方、敷かれたレールの上を滑るのがウェブAPIです。

もしあなたがやりたいことが漠然と「インターネットからデータを取ってきたい」ということなら、まずはウェブAPIから始めてみるのがいいでしょう。「Rによるスクレイピング入門」でもいいし*2、「R API」で検索するとやってみた系の記事がたくさん出てくるのでそれを写経してみるのでもいいと思います。世の中にはいろんなウェブAPIがあるので、興味の持てそうなデータもどこかから手に入るはずです。

そうこうするうちに敷かれたレールの上だけで満足できなくなれば、おめでとうございます、この本を手に取るときです。