jawiki/latest 20150805/ のページ数の件>1963994

今回非分割バージョンが復活?したのでそちらを利用、ページ数が大分回復した。

しかし、今回からenデータも同時に取得しようとしたために処理が10日近く遅くなっちゃった。

jaが2ギガちょっとに対してenは10ギガ以上あるもんなー。早い回線用意してもwiki側のネット速度のムラもあってenのダウンロードには異常に時間がかかるw

 

enデータで色々遊んでるとjaのwikiとの違いが色々あって面白い。例えば

1)身体データが一切載っていない。BWHとか身長とか。単なる有名人はもちろん、芸能人、さらにはポ○ノスターのページでも。

2)個人のtwitterリンクが一切載っていない。

当然全ページ見たわけではないから断言はできないけど、何らかの記入ポリシーがあるようだ。あとでポリシーページ見てみよう。

 

というわけでスクレイピングの必要性が高まりすぎて、現在も24時間裏で4発飛ばし続けてるわけですが、今回「1段目selenium+2段目Jsoup」という構成で、手元=windowsマシンで結果見ながらやりたいんで、サーバーで走らせる場合linuxだと定番の「xvfbとfirefox」ができず、ポコポコfirefoxが開いて非常にうっとおしい。

javascript処理をきっちり拾いたいんで1段目をseleniumにしてるんで、できればHtmlUnit Driverとかは使いたくない(つーか試したけどやっぱり上手く取れず)。

そんで「やっぱ遊んでる古いノートに専用サーバ建てるか」とか考えてたところ、みんな大好き! stackoverflowに「windows7でfirefoxをheadlessで走らせるならタスクスケジューラ使えよ」みたいなことが書いてあって、あんまりレス付いてないし期待しないで試してみたらちゃんとできた。結構記述の自由度もあって便利。cron使いたくてサーバで処理してることも多いけど、windows updateだけ気をつけとけばこれは使えるかも。

 

canvasの練習

少し時間が取れるようになって趣味のコーディング再開した。 一年半ほどの浦島状態で、Javaアプレットが使えなくなったのが残念で仕方ない。

言うててもしょうがないのでcanvas練習開始。 既製のアプレットの書き換えもしたいんだけど、教科書(HTML5 Canvas)の例題をやってるうちに脱線。 以下備忘。

相変わらずブラウザごとの挙動に苦労しながら最初のデモが出来たんだけど、レンジを最大にするとほとんどの場合固まる。

「クソ-。シングルスレッドはこれだから!アプレット復活の方法無いかなー」って思ってたんだけど、使えないUI設置してるのが問題だと思って、クリックでボールを一つずつ増やすように変更。 これだと300個くらいまで無問題。

一気に何十回もfor回したら固まるのは当たり前か。こういうのをプログラミングの工夫っていうのか(棚上げ:自分のコーディング能力)。 …でもやっぱりアプレットではこんな苦労しなかったと思ってしまうw

diffColors

次は自宅サーバ再開してtomcat走らせて遊ぼう。twitterデータのビジュアライズもやりかけで止まったままだし。やっぱりJavaを触りたい。

アプレットが初期化されていません

独習Java」。ようやく13章アプレット。で、初めてのアプレットでつまずくw

書いてあるとおりのコードで、書いてあるとおり起動してエラー(NoClassdefFoundError)、なのにアプレットは立ち上がり「アプレットが初期化されてません」との表示。

例によってディレクトリ上がったり下がったり、色々して結局、パッケージ指定外して(デフォルトパッケージで)書き直したら無事起動。

エクリプスのコンソールから立ち上げると普通に動いたので、もしかしてと思って試したら行けた。なぜかは(いつも通り)分からない。

アプレット関連ではパッケージ指定しない方が良いのかな?でもフォルダ(=パッケージ)で管理してる方が良いんだけどな。

アプレットは全部コンソールから起動して学習するか。