カテゴリー『
ただの自分向けメモ 』
リンクじゃなくてドメインの一部を載せるだけならgoogle広告的にも問題ないだろうと推測。ソフトアダ○トサイトだからね。
「bwhsearch」っていう名前のサイトを運用しているんだけど、今回のwikiのダンプデータ適用でレコード数=「BWHサイズの紐付けできた有名人のデータ」が8000人を超えた。
昨年末に公開した当初は7000レコード切ってた事を考えるとやっぱりwikipediaってすごい。また寄付しとこう。
wiki自体も次のダンプでは200万レコード超えると予想。って今見たら次のダンプ20151202始まってるw
色々趣味プログラミングしながら、同じPC酷使してスクレイピングbot何発も飛ばしてるんだけど、一昨日ようやくenwiki人物データ40万超のレコードが一周した。
最初のレコードが8月10日だから約4ヶ月かかったw そんで英語版「BWHサイズの紐付けできた有名人のデータ」数は、「5476」…
なんか個人情報?プロフィール?に対する考え方が日本とは根本的に違う。
スクレイピングアルゴを試行錯誤してて感じたのは、日本は(有名人について)「本人がいやがる(と意思表示した)情報は公開しない」って感じだけど、欧米は「本人が公開した、あるいは公開に明確に同意した情報以外は公開しない」って感触。訴訟問題でもあるのかな。せっかく集めたデータだけど、運用にはもうちょっと検討が必要だな。つーかこのレコード数では処理見直してもう一周しないといけないか。
さっき初めてのAndroidアプリ公開した。2ヵ月半かかった。いくら趣味とは言え、我ながらコーディング遅いよなー。次は一旦webサイトのメンテナンスか、もう一本アプリ作ってみるか。
15年12月4日(金)‡12時59分33秒 ‡
ただの自分向けメモ
10月は2回dump取りあったんだなー。ボランティアの皆さんには足を向けて寝られない。僕にできるのは時々の寄付だけだ。あー。
未だにAndroid入門。遅々として進まず、アプリ公開なんてまだ先の話。
ここ2~3日はMediaPlayerとAudioTrackのどっちを使うかで試行錯誤。
結局今はAudioTrackで組んでいくことになったんだけど、
- MediaPlayer
- メリット
- UIと親和性高い。
- 組むのが簡単。ネット上の情報も豊富
- メディアタイプを選ばない。mp3はもちろん、FLACもそのまま再生できる
- デメリット
- 音データを細かく引っ張り出して処理するのが難しい。定番としては、Visualizerクラスを使う(それ以外の方法見つけられず)のだけど、各種eventListenerで拾って処理していくので、自前でThreadとか作らなくて良い分簡単なんだけど、当然データ取得タイミング(=データサイズ)を自由に設定できない。
- Visualizerで取得できるデータがいまいち。周波数もずれてるような。色々やっても400Hzが344Hzとか出る。そのズレの修正アルゴが分からない。それに最大値と最小値にも制限がある。簡単なイコライザー的な処理や、ヴィジュアライズ処理にならそれほどシビアに音の周波数拾わなくって良いんだろうけど。その結果一切GCが走らないのは大きなメリットだけどw
- AudioTrack
- メリット
- byte配列でデータをやり取りするので途中で抜きやすい。というかデータ処理部分は普通にFileInputStreamとか使うので自由度高い&Java使いには分かりやすい。
- 一応各種eventListenerも揃ってる。情報見つけるの難しいけど。
- デメリット
- Waveファイルしか再生できない。それ以外のタイプは事前に変換処理必要。またメモリが圧迫される…
- AudioTrackの情報が少ない。2011年の情報とか未だに重宝するのはAndroid開発では珍しいと思う。
- GC走りまくり。(それはお前のプログラミング能力ががが)
ということで、現状の知識を整理。後で読み返して間違ってることがあったら実装内容変えよう。
しかし、今までもwebサイト構築はTomcat+DWRで基本やってきたんで、Java使ってきたと思ってたけど、Androidみたいに全部Javaで書いてると改めて発見することが多い。継承とかオブジェクト(クラス)志向とか知識としては持ってたけど、きっちり実践してたわけではない概念?をAndroidの場合ある意味強制されるからより理解が深まる感じ。以上。
15年11月6日(金)‡16時17分43秒 ‡
ただの自分向けメモ
今回も3週間近く遅れちゃった。一旦落としたファイルが壊れてて再度ダウンロードしたりして無駄に時間ががが。
もう次の20151020のダンプが始まったみたい。最近早いなー。でもダンプのたびに順調?に1万ページ位ずつページ増えて行ってる。
wikipediaって地味だけど着実に成長してるメディアなんだと感じる。
で、私のほうの成長は遅々として進まずw 相変わらずAndroid開発入門レベル。とりあえずActivityのライフサイクルの感触がようやく掴めかけた感じ。
何で画面回転のたびにいちいち色んなもの初期化しちゃうのかとも思うけど、スマートフォンという非力な端末でマルチタスク(緊急通報とか重要インフラ含む)を動かそうとするとこんな感じになっちゃうのも仕方ないのかなと。唐突に上から目線w
デスクトップPC導入して、トラックポイント無いとPC使えないのでレノボのブルートゥースのやつとか一世代前のUSBのやつとか引っ張り出してきて使ってたんだけど、えらくTypoしまくる。
前まで使ってたThinkPadW500のキーボードがArabicで、エンターキーがvertical(縦に長いやつ)なのになれてたから、普通のUSキーボードだとHorizontalなエンターキーだからその上の「\」を間違えて打っちゃう。
ebayで色々探して「IBM UltraNav USB Keyboard With Pointing Device Cable USB 94Y6206」つーのを購入。UKキーボードらしい。送料含めて1万弱。きっちり新品で特有の良い匂い。
ドライバーもレノボの最新のやつ入れたら普通に使えてる。不満はwindowsキーがないことくらい。プラセボ臭いけど、IBMってだけで質感高い感じしちゃう。
気に入ったからこれのArabic探すかな。
15年10月21日(水)‡10時58分05秒 ‡
ただの自分向けメモ