jawiki/latest 20151202/ のページ数の件>2002803

200万レコード超えた。おめでとうございますw

 

さて、前回初Androidアプリって書いたけど、URL張り忘れた。

「Squares.」
https://play.google.com/store/apps/details?id=jp.beingtested.squares

試してたらたった一日で色々不具合爆発。公開すると一歩引いてみるから粗もよく分かる。

基本的なとこで恥ずかしいけど、アイコン設置忘れなんてやってるし、一番やばかったのが上のURL見るとパッケージ名=ドメイン名がプレイストアのidに自動的に入るみたいなんだけど、別に保有してるライトアダルトのサイトのドメイン入れちゃってた。

デベロッパーサイトとしてはこのブログのあるドメインを表示してるのに、idでア○ルトサイト乗っけてたら胡散臭すぎるでしょw

で、パッケージ名完全に変えてアップロードしてみたら受け付けてもらえず(当たり前か)。結局「人生初のAndroidアプリ」は一日で公開停止…

新規に同じ内容のアプリを公開しました。なんと(同じく当たり前か)一人のデベがまったく同じ名前のアプリを複数公開するのはNGらしい。で、↑のアプリ名をよくみるとカンマが付いてますwww

jawiki/latest 20151123/ のページ数の件>1999643

リンクじゃなくてドメインの一部を載せるだけならgoogle広告的にも問題ないだろうと推測。ソフトアダ○トサイトだからね。

「bwhsearch」っていう名前のサイトを運用しているんだけど、今回のwikiのダンプデータ適用でレコード数=「BWHサイズの紐付けできた有名人のデータ」が8000人を超えた。

昨年末に公開した当初は7000レコード切ってた事を考えるとやっぱりwikipediaってすごい。また寄付しとこう。

wiki自体も次のダンプでは200万レコード超えると予想。って今見たら次のダンプ20151202始まってるw

色々趣味プログラミングしながら、同じPC酷使してスクレイピングbot何発も飛ばしてるんだけど、一昨日ようやくenwiki人物データ40万超のレコードが一周した。

最初のレコードが8月10日だから約4ヶ月かかったw そんで英語版「BWHサイズの紐付けできた有名人のデータ」数は、「5476」…

なんか個人情報?プロフィール?に対する考え方が日本とは根本的に違う。

スクレイピングアルゴを試行錯誤してて感じたのは、日本は(有名人について)「本人がいやがる(と意思表示した)情報は公開しない」って感じだけど、欧米は「本人が公開した、あるいは公開に明確に同意した情報以外は公開しない」って感触。訴訟問題でもあるのかな。せっかく集めたデータだけど、運用にはもうちょっと検討が必要だな。つーかこのレコード数では処理見直してもう一周しないといけないか。

さっき初めてのAndroidアプリ公開した。2ヵ月半かかった。いくら趣味とは言え、我ながらコーディング遅いよなー。次は一旦webサイトのメンテナンスか、もう一本アプリ作ってみるか。