「Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド」(共立出版 2017)を読んだ。

著者陣からご厚意によりオシャレ!デカイ!アツイ!と話題の「Rによる自動データ収集: Webスクレイピングテキストマイニングの実践ガイド」を頂きました。ありがとうございます!!!

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

実は1カ月以上前に送っていただいたのですが、バタバタしているうちに時間が過ぎてしまいました。すみません。。まだざっとしか読めていないんですが、表紙のカッコよさに嫉妬しつつ書評を書きます。

「Rによるスクレイピング入門」という本もあります

気になる人もいると思うので、比較という切り口から紹介していきたいと思います。

notchained.hatenablog.com

「Rによるスクレイピング入門」も「Rによる自動データ収集」もウェブスクレイピングまわりの話題を扱う本です。看板に掲げているのは「スクレイピング」ですが、↑のブログに書いた紹介の言葉をこの本についても繰り返すと、

この本は、ウェブスクレイピングの本でありウェブAPIの本でもあります。「広大なインターネット上のデータをRで扱う方法」みたいなことについて書かれた本

です。「Rによる自動データ収集」にも、いわゆる「スクレイピング」のみならず、ウェブAPIについての話題が扱われています。

「Rによる自動データ収集」は基礎知識の説明が丁寧

では何が違うのかといえば、まず目につくのはページ数です。

同じような内容について触れた本でありながら「Rによる自動データ収集」は圧倒的に分厚いです。592ページという、実に「Rによるスクレイピング入門」の2倍以上の分量になっています。そのページ数の大半は、基礎知識の網羅的な説明に費やされています。基礎知識は例えば、HTML、XMLXPath、HTMLなどです。これは、いわゆる「スクレイピング」に関わるトピックです。

説明は丁寧も丁寧で、これを頭から読み切るのはやや単調かもしれません。前半はざっと目を通す程度にして、困ったときに引く辞書的なものとして使うといいかもしれません*1

スクレイピング」がしたいなら買い

とはいえこんな分厚い本いる?と思うかもしれませんが、もしあなたがやりたいことが「スクレイピング」なのであれば手元に置いておいて損はないでしょう。

スクレイピング」を始めることは難しくありません。目の前にあるウェブページからデータを抜き出すのに、コピペする代わりにRでスクレイピングする、という程度なら誰にも怒られないでしょう。

しかし、より高度なことをしようと思えば、あなたが知らなくてはいけないことは加速度的に多くなります。間違ったデータを拾ってこないようにするには、通信エラーをハンドルするには、法律に触れない範囲でやるには、取ってきた膨大なデータを格納するには、などなど。こうしたことを頭を悩ませながら毎度ググる手間を思えば、6500円は安いものです。

ウェブAPIいいよウェブAPI

スクレイピング」がこんなに大変なのはなぜかといえば、何の線も引かれていない荒野を開拓する行為だからです。一方、敷かれたレールの上を滑るのがウェブAPIです。

もしあなたがやりたいことが漠然と「インターネットからデータを取ってきたい」ということなら、まずはウェブAPIから始めてみるのがいいでしょう。「Rによるスクレイピング入門」でもいいし*2、「R API」で検索するとやってみた系の記事がたくさん出てくるのでそれを写経してみるのでもいいと思います。世の中にはいろんなウェブAPIがあるので、興味の持てそうなデータもどこかから手に入るはずです。

そうこうするうちに敷かれたレールの上だけで満足できなくなれば、おめでとうございます、この本を手に取るときです。

コードはちょっと古いかも

注意としては、もしあなたが求めるのが%>%とかを使ったナウいRのコードとかであれば、この本はちょっと違うかもしれません。コードは以下のサポートサイトに掲載されているのでチラ見してみるといいでしょう。

あわせて読みたい

以下のブログもあわせてご参照ください。

d.hatena.ne.jp

wakuteka.hatenablog.jp

aaaazzzz036.hatenablog.com

*1:「Rによるスクレイピング入門」は、基礎知識的な部分はコンパクトにまとめて(Rの基礎の紹介も含めて100ページ弱)実例を重視するというスタイルでした。こういう辞書的な役割を期待するなら断然「Rによる自動データ収集」がオススメです。

*2:前述のように「Rによる自動データ収集」はウェブAPIも扱っている本です。ただ、大部分が「スクレイピング」なのでウェブAPIがやりたいだけであればちょっとコスパが悪いかも?というのが個人的な感想です。