jawiki/latest 20150703/ のページ数の件>1703701

相変わらず更新滞ってますが、一人で趣味プログラミングしてるとgitとかも結局使ってないし(何回か導入チャレンジはしてる)、他人と何かを共有する必要性が全然無いのよね。

昔から「小説は読むもので書くものではない」が俺々定義なんだけど、webも一緒なかんじ。といってもアフィサイトは公開してますが。全然売り上げないけど。

ということでこのブログにもgoogleアドセンス付けて早2ヶ月、当然売り上げゼロですが、少しは更新がんばってみようということで、今後はwikipediaデータを利用したサイト群のためにjawiki/latestが更新される都度行うデータ更新作業の結果のページ数を記録しておこうというコーナーです。

今回(20150703)の更新では、jawiki-latest-pages-articles.xml.bz2(全ページの記事本文を含むXML)が4分割版のみになって(今確認したら一括版はwaitingになってる)、mwdumper.jarで4回処理する必要がある。初めてだったので何か引数で指定しないと上書きされるんじゃ無いかと思ったけど、何もしないでも無事追記されてる模様。

で、結果ページ数。 mysql> SELECT COUNT(*) FROM text; → 1703701

前回の結果は残してないんだけど、去年の10月くらいの更新の時は1853286ページ。だいたい毎月これより微増することはあっても減ることは無かったのに。最終的に加工してサイトで使うデータも15%くらいへっちゃてるし。

というわけで、今回は更新見送りで6月のデータに戻す。waitingの一括版が出るか、次の更新がくるまでこのまま。何か「お前間違ってるよ」ってのがあったらご指摘ください。