≒ jawiki/latest 20151123/ のページ数の件>1999643

リンクじゃなくてドメインの一部を載せるだけならgoogle広告的にも問題ないだろうと推測。ソフトアダ○トサイトだからね。

「bwhsearch」っていう名前のサイトを運用しているんだけど、今回のwikiのダンプデータ適用でレコード数=「BWHサイズの紐付けできた有名人のデータ」が8000人を超えた。

昨年末に公開した当初は7000レコード切ってた事を考えるとやっぱりwikipediaってすごい。また寄付しとこう。

wiki自体も次のダンプでは200万レコード超えると予想。って今見たら次のダンプ20151202始まってるw

色々趣味プログラミングしながら、同じPC酷使してスクレイピングbot何発も飛ばしてるんだけど、一昨日ようやくenwiki人物データ40万超のレコードが一周した。

最初のレコードが8月10日だから約4ヶ月かかったw そんで英語版「BWHサイズの紐付けできた有名人のデータ」数は、「5476」…

なんか個人情報?プロフィール?に対する考え方が日本とは根本的に違う。

スクレイピングアルゴを試行錯誤してて感じたのは、日本は(有名人について)「本人がいやがる(と意思表示した)情報は公開しない」って感じだけど、欧米は「本人が公開した、あるいは公開に明確に同意した情報以外は公開しない」って感触。訴訟問題でもあるのかな。せっかく集めたデータだけど、運用にはもうちょっと検討が必要だな。つーかこのレコード数では処理見直してもう一周しないといけないか。

さっき初めてのAndroidアプリ公開した。2ヵ月半かかった。いくら趣味とは言え、我ながらコーディング遅いよなー。次は一旦webサイトのメンテナンスか、もう一本アプリ作ってみるか。