rvest::html_table()的なものを自作する(お気持ち表明編)

細かい話はさておき、まずはこのページを見てください。

国土数値情報 発電施設データの詳細

これは国土数値情報ダウンロードサービスのGISデータのデータの説明が書かれたページなんですが、ここから「属性情報」「地物情報」というのを抜き出そうとしてここ数日格闘しています。 スクレイピングのガチ勢のみなさまは、このテーブルをどう料理されるでしょうか。

続きを読む

メモ:国土数値情報のウェブページから各データの説明のURLをrvestとstringrで抜き出す

国土数値情報APIはzipファイルのURLを返してくれるんですけど、それがどういうデータかは教えてくれません。

library(dplyr, warn.conflicts = FALSE)
library(kokudosuuchi)
#> このサービスは、「国土交通省 国土数値情報(カテゴリ名)」をもとに加工者が作成
#> 以下の国土数値情報ダウンロードサービスの利用約款をご確認の上ご利用ください:
#> 
#> http://nlftp.mlit.go.jp/ksj/other/yakkan.html

# prefCodeが3で、年が2000-2010の河川のデータ
d <- getKSJURL("W05", prefCode = 3, fiscalyear = 2000:2010)
glimpse(d)
#> Observations: 1
#> Variables: 9
#> $ identifier  <chr> "W05"
#> $ title       <chr> "河川"
#> $ field       <chr> "国土(水・土地)"
#> $ year        <chr> "2007"
#> $ areaType    <chr> "3"
#> $ areaCode    <chr> "3"
#> $ datum       <chr> "1"
#> $ zipFileUrl  <chr> "http://nlftp.mlit.go.jp/ksj/gml/data/W05/W05-07/W...
#> $ zipFileSize <chr> "10.42MB"
続きを読む

RのテストにCircleCIを使う

RでCIというと、ほとんどはTravis CIが使われます。なんといっても、

devtools::use_travis()

とするだけで準備が整うというお膳立てっぷりです。

でも、Travis CIの弱点はCIに使われるイメージが古いことです。最近ようやくデフォルトイメージがUbuntu 14.04になりましたが、最先端を追い求める人々にはつらいです。

その点、CircleCIが便利なのは任意のDockerイメージを使ってCIを回せることです。他のライブラリに依存することがけっこう多いRでは使いどころがありそうなので、ちょっとやり方を調べてみました。

続きを読む

メモ:Rcppでマルチバイト文字を表示するときはRf_translateChar()でデフォルトの文字コードに変換してから

メッセージを表示するにはRcpp::Rcoutを使えばいい。与えた文字列をそのままダンプするような関数はこんな感じ。

続きを読む