カテゴリー『 未分類 』

≒ jawiki/latest 20150703/ のページ数の件>1703701

相変わらず更新滞ってますが、一人で趣味プログラミングしてるとgitとかも結局使ってないし(何回か導入チャレンジはしてる)、他人と何かを共有する必要性が全然無いのよね。

昔から「小説は読むもので書くものではない」が俺々定義なんだけど、webも一緒なかんじ。といってもアフィサイトは公開してますが。全然売り上げないけど。

ということでこのブログにもgoogleアドセンス付けて早2ヶ月、当然売り上げゼロですが、少しは更新がんばってみようということで、今後はwikipediaデータを利用したサイト群のためにjawiki/latestが更新される都度行うデータ更新作業の結果のページ数を記録しておこうというコーナーです。

今回(20150703)の更新では、jawiki-latest-pages-articles.xml.bz2(全ページの記事本文を含むXML)が4分割版のみになって(今確認したら一括版はwaitingになってる)、mwdumper.jarで4回処理する必要がある。初めてだったので何か引数で指定しないと上書きされるんじゃ無いかと思ったけど、何もしないでも無事追記されてる模様。

で、結果ページ数。 mysql> SELECT COUNT(*) FROM text; → 1703701

前回の結果は残してないんだけど、去年の10月くらいの更新の時は1853286ページ。だいたい毎月これより微増することはあっても減ることは無かったのに。最終的に加工してサイトで使うデータも15%くらいへっちゃてるし。

というわけで、今回は更新見送りで6月のデータに戻す。waitingの一括版が出るか、次の更新がくるまでこのまま。何か「お前間違ってるよ」ってのがあったらご指摘ください。

≒ 追記)Tomcatバナーグラビングの件

だいぶ前のエントリでこんなこと書いたけど、同じくだいぶ前に考え直して対策しました。

方法はここ参考。やっぱりIBMさん大好き。大きくて古い会社なのにPC周りの細かいことへの情熱がいつまでも変わらないところがステキw

でも時間作ってこの方法をこのブログに転載しておこうと思う。IBMさんの場合、諸事情ですごくためになるエントリが消えちゃうことがあるから。

過去の例でいうとwebスクレイピングについてのエントリとか。あれは結構深くて、色々参考にしてたからダメージでかかった。

≒ さよならapplet

ようやくindexページとこのブログのヘッダー部分の死んでたappletを除去した。

canvasやwebGLの習作を流用して入れ替えたんだけど、大昔のPHPコードを解読して入れるのに四苦八苦。

改めてJavaに比べるとPHPは見通し悪いな-と思ったり、それはお前のコーディング能力だと思い直したり。

今のところJavaが使えるTomcatベースのVPSがメインの遊び場になっちゃってるけど、初めて借りたサーバ、かつ唯一のブログということでここも大事にしていこうと思う。

というわけでアドセンス導入中。二次審査待ち。フッターのあたりにご注目ください。

…我ながらしつこいし、今更だけど、canvasやwebGLはappletに比べるとすごく重い…firefoxやIEでちょっと古いPCだとこのブログ開いてるだけで落ちる…