Rから国土数値情報ダウンロードサービスWeb APIを使うパッケージkokudosuuchiのsf対応

kokudosuuchiは1年ほど前にCRANに公開したパッケージで、国土数値情報APIをRから使えます。

ここ最近、国土数値情報ウェブサイトのHTMLテーブルなんかと死闘を繰り広げていたわけですが、そろそろ「ふん、今日はこの辺で勘弁しといてやるか...(肩で息をしながら」みたいな程度には終わったので、ブログに書きます。

続きを読む

メモ:tidyr::extract()の正規表現でマッチしたりしなかったりするグループがあるときは、文字列全体にマッチさせつつnon-greedyに

タイトルは何言ってるかわかりませんが…

こういうデータがあるときに、

name_with_note
name1
name2(note1)
name2(note2)

(...)の部分とそれ以外で分けて、こういう結果がほしい、というときの話。

name note
name1 NA
name2 (note1)
name2 (note2)

簡単に見えてちょっとてこずったのでメモ。1つ目の行には(...)の部分がないのが問題です。

続きを読む

rvest::html_table()的なものを自作する(テーブル組み立て編)

前回前々回の続きです。

対象のテーブル

分割は前回やったので、ここでは分割する必要がないテーブルの場合を考えましょう。その代わりちょっと複雑なやつです。

続きを読む

rvest::html_table()的なものを自作する(分割編)

前回の続き。

対象のテーブル

試しにこういうテーブルを考えてみましょう。(この場合colspanは必要ないんですけど、以後の説明のためつけています)

続きを読む

rvest::html_table()的なものを自作する(お気持ち表明編)

細かい話はさておき、まずはこのページを見てください。

国土数値情報 発電施設データの詳細

これは国土数値情報ダウンロードサービスのGISデータのデータの説明が書かれたページなんですが、ここから「属性情報」「地物情報」というのを抜き出そうとしてここ数日格闘しています。 スクレイピングのガチ勢のみなさまは、このテーブルをどう料理されるでしょうか。

続きを読む