楽天研究開発シンポジウム2008に行ってきました。
※完全にメモ用なので色々酷いです。
今日は品川の某楽天で行われたシンポジウムに参加してきました。
情報系の論文の発表会に参加する機会ってあんまりないので、いい機会だと思い行ってみた次第です。
基調講演では、楽天技研の森さんや、Matzさん、あとアニリール・セルカンさんって方が講演をされていました。
●Matzさん 「bleeding edge technology(血の滴るような凄く新鮮でワクワクする技術。でもキケンな技術。)」
森さんとMatzさんの講演は結構被ってるトコが多くて、あぁこの人達考えてる事一緒なんだなぁって思ったw
そういった方が近くに居るのって羨ましいー。
キャズム(峡谷)
新しい技術には、凄い先に進む変態と、毎日ルーチンワークをこなして新しい技術に興味を持たない人とで断絶がある。
チャレンジもしたくないし、リスクもとりたくないって人が業界には多い。
こういった人が俗に言う3kとか7kになっちゃってる人。
その先端を進もうとする人と、そうじゃない人との溝を生めるための一つの提案が楽天研究所。
アカデミアじゃない人
最新技術の軽視
単純なリファクタリング、チューニングで性能向上するのは、20%〜30%くらい。
でも、アルゴリズム自体の見直しをすると、時には100%〜200%も性能向上する可能性もある。
そういった最新技術を導入することによる失敗のリスクや、技術習得のコストにはリスクがかかりすぎるからやらない ⇒ もったいない
アカデミア(学術的な人)の課題。
実用化に関してかなり軽視。
ブラッシュアップするまでのコストがかかるので実用化できない。論文だしておしまい(続けて出さないと評価されないから…)。
論文にならないとアカデミアにはならない。
⇒相互不理解。
Lispは1960年代のころからGCを利用していた。
キャズムの人々はそれを知ってても、Lispを使わずCOBOLとかでかいてた。
Javaはそれをデリバーしたのが凄い。
デリバー大事。
前へ進め!
●アニリール・セルカンさん 「インテリジェンスへの旅」
house:a-evolution(自己認識するプロジェクト)を、二日前くらいまでかんがえてたけど二日に五回くらい会議やってつかれた。
日本から帰ろうかなって思った…ので、今回は違うテーマにしちゃった><
宇宙飛行士候補だけど、うちゅうのおたくではない。デートの時お星様間違えちゃった…。
地球、ガイアに興味。
産業革命後、やっぱ人間は退化してる。
なんでも機械に任せちゃうから。
でも怪我の功名というか、冷戦のお陰で初のサテライトが作れたのはインテリジェンス。
ケータイはアポロ技術のたまもの(知らなかった)。
せっかく行ってるのに行ってないと信じたいってのはインテリジェントじゃない
⇒人間は疑いたがる生き物。
11/9 versus 9/11
人間の心の壁はドイツの11/9で崩れたと思ってたけど、9/11でやっぱり心の壁は崩れていないんだと感じてショックだった。
今のITで心の壁は崩せない。
アニリールさん的、インテリジェントなこと
→ガイアを理解すること
今はインテリジェントというよりサバイバルしてる
i.e.)家賃どうやったら払えるか
想像を創造する
これもインテリジェンス?
自分がタイムマシーンを作ったとき
オレインテリジェンスだ!
東海岸
Google can't satiesfy every search(なんか違うかも)
答えを探す
どのように使うか
自分が何を出していけるか
それが大事
趣味は?
なんできめなきゃいけないの
うまくいろんなのに興味を持つほうがいいよ!
がんばる
なんでもうまくいくってわけじゃない
リスクとっても自分が変わるってんじゃない
●Webアプリをユーザーごとにカスタマイズ可能にするAOPフレームワーク
AOP(アスペクト指向プログラミング言語)
開発字に拡張ポイントを決定する必要がない
元のソースを変えなくてよい
クラス定義ラクー?
per-session weaving
セッションを見てユーザーごとに異なるアスペクトを適用
ユーザーのアスペクトを登録するAPI
ログとかトランザションではAOPは使われる(質疑応答にて)
★感想
FBMLとかFQLとか使ってユーザーサイドでプログラミングするとかと違うのかな。
●大規模分散システムのための軽量仮想化に基づくテストベッド
分散システムの重要性は増しているが、その開発は容易ではない
テスト環境の構築も困難
ptraceを用いてアプリケーションの実行に必要な資源のみを仮想化
FSやNWで利用
CPUの使用率も低い
マッピングテーブルw作成して、事故宇宙に使用された仮想IP、ポートと実ポートの対応を記録
アプリが接続を受け入れる仮想ポートと実ポートの対応のみ事前に設定に記述
NATのエミュは行えない
仮想環境上のMutelaでテスト
ハイブリッドタイプのサーバーでテスト
★感想
仮想化おいしいー。
これ一人で作ってるとか、どんだけ凄いんだよと驚愕。
●共同翻訳のためのプロトコルの開発
バイリンガルでない異なる言語を用いる二人の人間が機械翻訳を利用して協力して文書の翻訳作業を行う方式
共同翻訳
プロトコルを設定
ネットワークのモデルを翻訳に割り当てた感じ
翻訳のプロトコルは1分弱で計測。
世代間の意思疎通、
日英と日仏の翻訳制度→やっぱ日英のがいい
4、5、割程度の翻訳制度で意味が成される?
★感想
これで日本語だけ使ってればばっちりだね!
・・・ってなる日はいつだろう。
●ABSによる市場環境を考慮した強調フィルタリング手法の評価
市場構造によりパラメータかわるー
強調フィルタリングについてABSを用いている
ABS・・・
自立的なエージェントを相互作用させて何が生じるか調べる
主体の異質性や相互作用がモデル化可能
今回はレコメンドアルゴリズム+消費者行動に適用
レコメンデーションの指針になるように研究
消費行動をエミュレーション
市場構造に強調フィルタリング手法の制度評価&最適パラメータ探索
クロスバリデーション
協調フィルタリング(ユーザーベース手法)
類似度の高い消費者を確定(類似度はコサイン距離を計算)
ネイバー数を変えながら実験
↓
各消費者についてか組み購入商品の重みを算出
↓
レコメンド商品の決定
消費者を複数のカテゴリを選考する場合うまく消費者をクラスタリングで着ない
グレイシープ問題との関連 gray sheep
クラスタ型とランダム型使用
ランダム型はうまくクラスタリング出来ない
ネイバー数が少ないほうが高い精度
→ノイズが増えると精度落ちるんだろう
人気度合いが時間軸で動的に変化する場合、環境が動的になる
人気先行で買っていくユーザーの影響もシミュレートできる
★感想
人気度合いとか、新語を辞書再生成しなくてよさげ?なのはいいなぁ。(N-gramでもないっぽいし)
●らんきんぐぷろだくとあいてむず
価格対と人気度を探すの難しい
安いカメラ
★感想
英語だったから話聴いてるのに必死だった(そしてあんま分からなかった)。
でもランキングをハッシュマップみたいな感じにして、それをグラフィカルに表現してるのがステキだった。
●ユーザープロファイル
クラスタリング
K-meanes法
作成されたクラスタから中心ユーザーを決定
IPのレピテーションについて
最近ベイジアンを使ってる人は少ない
ベイジアン事態修正することについてはどう?
●ベクトル検索モデルに基づく画像検索手法
特徴部分の抽出
閾値Tを定義
空域を比べる
ユークリッド距離で比較
クラスタリングを行う
特徴部分を抽出した場合、連結したもので表示されるようになっている
RGBが似ている部分を抽出
閾値Tを半径
RGBの行列式を使う
特徴の算出はtf idfを利用
画像間類似度算出にはコサイン尺度を利用
RGBだけでなく輝度と彩度でフィルタかけてからRGBで比較
→カメラによる色彩の違いをカバー。ホワイトバランスとかも考慮しなくても大丈夫。
今回は回転体での特徴も考慮して行う
★感想
画像類似検索ってどこまで精度あげられるんだろうなぁ。
●鏡上あぷらいあんすにおける会話的インタラクション
ミラーアプライアンスの前に立つとユーザーストレージからデータを取得して表示
服の趣味などを保存して、予定や天気などから考慮して鏡に表示
これがいやだと言ったらそれを学習してユーザーに別のを推薦するようになっている
実装情報
USBカメラがとりつけられ映像を元に使ってる
鏡部分C++
ストレージ部分MySQL
鏡特有のものを移すという性質を生かしたインターフェース
★感想
Artookit使ってるんかなあ?発想がステキでした。
●画像切抜き
前景、背景を用いてマスキングする
伝播候補に対して伝播コストを与える
Region growing
アンチエイリアスへの対策
伝播コストの蓄積を用いて行う
伝播もとのピクセルのコストをコストを用いて行う
LazySnapping
アルゴリズムはグラフカット(min-cut)
前処理でセグメント化が必要
実験
しーらぶ
わいしーしー
あんまかわんなかった
★感想
画像のリサイズ時におきる色の合成はどこまで排除できるのか気になった。