あの大学生はOKCupidのデータでどんな論文を書こうとしていたのか

R界の良心、Oliver Keyesが怒りのブログを書いていました。

here's a TL;DR: linguistics grad student with no identifiable background in sociology or social computing doxes 70,000 people so he can switch from publishing pseudoscientific racism to publishing pseudoscientific homophobia in the vanity journal that he runs.

デンマークの大学生Emil Kirkegaardが、出会い系サイトOKCupidのユーザー情報約7万人分をスクレイピングで取ってきて、そのデータを匿名化せずに公開した、という件についてです。

ざっくりした話は↓のようなニュース記事を読むといいと思います。ユーザIDは名前なのか、semi-publicなデータをスクレイピングすることの是非、査読なしのオープンアクセス誌、…とか論点がありすぎて私の理解力ではうまくまとめられないので詳細には踏み込みません。

しかし、Oliverを怒らせたのは、おそらくこのデータを公開してしまったことではありません。これを使って書こうとしていた論文の内容です。

論文の内容

そもそも、このデータを使ってKirkegaardはどんな論文を書いたのでしょう。ブログではこう紹介されています。

His first research question was: what if gay men are basically just women? We have data on gender and we have data on sexuality; let's see if LGB people provide different answers from straight people for their given gender! Let's see if they're basically the opposite gender!

You'll be amazed to know he didn't end up incorporating this into the paper, presumably because the answer was "of course not, you bigot". But he did find time to evaluate whether religious people are just plain ol' idiots - the methodology for which is checking the user's response to various questions akin to IQ test entries. You know, the racist classist sexist thing.

ゲイは頭が悪い!みたいなことを言うためにこの研究を始めた、と。

これは、やばいです。

出典はうまく見つけられなかったんですが、元論文のアブストラクトだけチラ見すると、性的嗜好についての記述こそ出てこないもののきな臭さが漂っています。

the relationship of cognitive ability to religious beliefs and political interest/participation is examined.
(Emil O. W. Kirkegaard, "The OKCupid dataset: A very large public dataset of dating site users")

過去にKirkegaardが書いた論文

Oliverはさらに、過去にKirkegaardが書いたレイシズム丸出しの論文にも言及しています。身の毛がよだつ感じします。

previous credits include such pseudoscience as arguing that letting low-IQ immigrants in will damage Danish society, and they should be subjected to brain implants and genetic engineering for entry, and (I wish this was a joke) checking whether immigrants commit more crime if they have tiny penises.

Oliverが激おこなのは、たぶん今回の件だけでなくこういうもろもろの文脈があってのことなのでしょう。ともかく、オープンデータの扱いのまずさに対してではなく、Kirkegaardのレイシスト的な側面に対して感情的になっているように見えます。

個人的な感想

個人的には、Oliverのこの反応は妥当なものだし、レイシズムはもっと批判されるべきだと感じます。ただ、オープンデータの扱いのまずさにかこつけてKirkegaardを社会的に抹殺しよう、というようなやり方には危うさも感じます。

科学的なまずさと倫理的なまずさは、それぞれ別個に議論され批判されるべきものです。その手続き的正しさも大事にしなければ、いずれしっぺ返しを食らうのではないか。そんな暗い気持ちになるできごとでした。