「第5回 先端的データベースとWeb技術動向講演会」聴講メモ

第5回 先端的データベースとWeb技術動向講演会に参加したので、聴講メモ。

講中の感想などは、「.o(かんそう)」形式で記入。若干の誤字訂正などあり。

規模検索エンジンとレコメンドシステムを支える仕組み

  • 10:02:05 http://twitter.com/nsiena nsiena: 「規模検索エンジンとレコメンドシステムを支える仕組み」 : 検索エンジン (転置ファイル, 接尾辞配列), 推薦エンジン, 事例紹介など #sigmodj
  • 10:32:20 http://twitter.com/nsiena nsiena: Preferred Infrastructure の 製品事例: Sedue はリニアなスケールアップと容易なスケールアウトが可能。エフルートはてブゲノム解析研究などで。カラム思考アーキテクチャ。 #sigmodj
  • 10:36:52 http://twitter.com/nsiena nsiena: 製品事例 2: 関連文書推薦エンジン Hotate。朝日新聞、ITPro など。 #sigmodj
  • 10:37:01 http://twitter.com/nsiena nsiena: 製品事例 3: 関連推薦エンジン Reflexa。煮立つの入力の関連を利用して推薦。e.g. タグ vs はてブエントリ, 行動履歴 vs ユーザ, API を提供。SEO, SEM 業者が、良く使っている。 #sigmodj

Webサービスの研究活用ノウハウ

  • 10:50:47 http://twitter.com/nsiena nsiena: 「Webサービスの研究活用ノウハウ」 : 増井先生のウェブアプリケーションサービスの運用から得た知見など。まずは、サービスの紹介。 #sigmodj
  • 10:57:20 http://twitter.com/nsiena nsiena: 実用性重視。研究に活用。競争相手が多い。でも面白いアイデアでも論文にならない。.o(ですねぇ ^^;) #sigmodj
  • 10:59:23 http://twitter.com/nsiena nsiena: ウェブの良いところ、いろいろ(略)。ユビキタスコンピューティングと (究極の?) 目標は似ている。どこでも、誰でも、いつでも。近々融合するはず。 #sigmodj
  • 11:06:33 http://twitter.com/nsiena nsiena: コミュニケーション/情報共有: 本棚.org (本棚演算 = ユーザ自身が式を組める簡易なデータマイニング), 地図帳.org (全然うけない, ユーザが少ない, スパムだらけ) #sigmodj
  • 11:09:53 http://twitter.com/nsiena nsiena: QuickML (ご存じ ML と Wiki の融合), 単語帳.org (辞書の共有, 直接編集可能な Wiki) #sigmodj
  • 11:19:14 http://twitter.com/nsiena nsiena: 認証: IQAuth (画像なぞなぞ認証) .o(Q&A 方式の認証は全然覚えられない/すぐ忘れるから大嫌いなんだよなぁ。正直な答えだと、ソーシャルエンジニアリングとかに弱そうだし。結果的に、機械的なパスワードの方が覚えていられるとかいう。) #sigmodj
  • 11:22:06 http://twitter.com/nsiena nsiena: その他の認証: なぞなぞ伏字, なぞなぞ情報公開, ウェブを便利ツールとして活用: Gyazo, 3Memo, Feed-TV #sigmodj
  • 11:33:06 http://twitter.com/nsiena nsiena: 入力・検索: Lexierra (ウェブ上のIME), LensBar (リストのズーミングI/F), SnapScroll (見出し要素が 1行目になるようにスクロールすることで大規模文書を閲覧しやすく) #sigmodj
  • 11:45:44 http://twitter.com/nsiena nsiena: AkimboFinder (時間・内容・位置的近傍を使って目的の情報に接近), PhotoBrowser (デジカメ画像で近傍検索), Gyazz (ブラウザ上でメモ, Gyazoと連携) #sigmodj
  • 11:45:59 http://twitter.com/nsiena nsiena: SPAM 対策: CAPTCHAは最低、駆逐されるべき, 書き込み方式の工夫, マウス操作の有無など人間しかやらない操作の検出で。荒らし対策: 細めに回復しているとそのうち諦める, バックアップやアンドゥ機能。 #sigmodj
  • 11:47:07 http://twitter.com/nsiena nsiena: 安定運用: 信頼できるサーバを借りる, ドメイン執行失効に注意, サーバのアップデート/バックアップ。 .o(人力で普通だなぁ。スマートじゃない。運用経験ならではという話でないのが残念。) #sigmodj

お昼休み

  • 11:56:38 http://twitter.com/nsiena nsiena: おひるやすみ。午後は 13:00 から。
  • 11:57:49 http://twitter.com/nsiena nsiena: 軽い話だから、書き過ぎた。たぶん、午後は話に集中する。 #sigmodj

SIGMOD2009 国際会議報告

概要
  • 13:06:18 http://twitter.com/nsiena nsiena: 「SIGMOD2009 国際会議報告」 : データベース系トップカンファレンスの一つ。 #sigmodj
  • 13:09:04 http://twitter.com/nsiena nsiena: キーノートは残念(謎) #sigmodj
  • 13:11:40 http://twitter.com/nsiena nsiena: XML 系は減ってきたようだけどまだ顕在。probablistic, uncertain, skylyne, privacy, top-k などが目立つキーワード。ICDE2009 と同じような傾向かな。 #sigmodj
Panel: 「40 Yearsof Relational Model Celebration」
  • 13:16:22 http://twitter.com/nsiena nsiena: 「Panel: 40 Yearsof Relational Model Celebration」のまとめ。歴史的変遷を振り返り。そして、Codd、Codd、Codd。な流れっぽい。 #sigmodj
  • 13:27:18 http://twitter.com/nsiena nsiena: Great Debate @ ACM SIGFIFET Workshop。Codd: 1) データとプログラムの分離, 2) 数学的は畏敬の必要性, 3) 単純さが重要。今日では当たり前のことを主張。しかし、理解されず。 #sigmodj
  • 13:27:26 http://twitter.com/nsiena nsiena: ばchman: 1) CODASYLと関係モデルは同じようなもの, 2) 関係モデルは効率的には実装できない。何時間も議論。1970年代後半まで両コミュニティは歩み寄りが無かった。 #sigmodj
  • 13:29:57 http://twitter.com/nsiena nsiena: CODASYL 陣営が歩み寄っていたら、Codd が説得されてしまっていたら。DBMS は全く違ったものになっていただろう。 #sigmodj
Best Paper: 「Generating Example Data for Dataflow Program」
Best Paper Runner-up (次点): 「An Architecture for Recycling Intermediates in a Column-store」
  • 14:01:57 http://twitter.com/nsiena nsiena: Best Paper Runner-up (次点): 「An Architecture for Recycling Intermediates in a Column-store」: 中間処理結果を再利用する仕組み。 #sigmodj
  • 14:02:26 http://twitter.com/nsiena nsiena: Tuple-at-a-time パイプライン実行では、中間結果を生成するオーバーヘッドを避け、実体化ビューや結果キャッシュを使うように DBA が半自動で決定。 #sigmodj
  • 14:02:32 http://twitter.com/nsiena nsiena: それに対し、Operator-at-a-time では、中間結果をオペレータごとに完全に生成し、以前の問合せ結果を保存する事で、完全自動化可能。 #sigmodj
  • 14:12:27 http://twitter.com/nsiena nsiena: Operator-at-a-time 実行パラダイムの culumn-store の標準的実装である MonetDB エンジンを拡張。命令マッチ、リサイクルプール、保存ポリシー (全保存, 経済モデルベース)、削除ポリシー (命令従属性に基づいて, LRU, 命令の貢献度ベース) の説明。 #sigmodj
両編の総評
  • 14:17:54 http://twitter.com/nsiena nsiena: どちらも画期的というわけではないけれど。Best Paper は適切な問題を見つけ、解決し、というところが文句の付けようが無い良い仕事。 #sigmodj
  • 14:18:14 http://twitter.com/nsiena nsiena: Best Paper Runner-up は、Map-Recuce などの環境で処理結果の再利用性は有用そう。 .o(確かにそうだなぁ。活用して欲しい。>> 市場) #sigmodj
PODS キーノート: 「A Web of Concepts」
  • 14:49:52 http://twitter.com/nsiena nsiena: PODS キーノート: 「A Web of Concepts」: ウェブは何か、から、どのような展開がありえるか(?) #sigmodj
  • 14:50:01 http://twitter.com/nsiena nsiena: 「ウェブ」は概念の集まりのようだ。そのインスタンスとして、個々のサイトに情報が存在する .o(うーん??)。ユーザが探すのは、概念自体か、その属性か、集約した情報か。 #sigmodj
  • 14:51:36 http://twitter.com/nsiena nsiena: 閲覧にパターンがあるか: 42%が検索エンジン経由。11.5% が住所を、9% がメニューを、1% がクーポンをクリック。検索エンジンは、概念の属性まで提供するようになってきている。 #sigmodj
  • 14:54:26 http://twitter.com/nsiena nsiena: トレンド。検索エンジンは、コンテンツとユーザの興味を理解し、関連するコンテンツを集約して便利に。 #sigmodj
  • 14:54:31 http://twitter.com/nsiena nsiena: ポータルは、コンテンツとユーザの興味を理解し、探したい情報を提供するページを自動ッで構築し、複数の情報源から concept-centric なページを提供。検索エンジンとポータルは表裏。 #sigmodj
  • 14:58:51 http://twitter.com/nsiena nsiena: ここでの定義。概念とは、エンティティ、イベント、トピック。単なる ERモデルの再定義。概念のインスタンスとは、緩い構造のレコード (lrec: loosely-structured recoed)。DBMS のレコードとは違い、データ欠損や不確実性がある。 #sigmodj
  • 14:58:57 http://twitter.com/nsiena nsiena: ネストした構造やパス。由来・出所。バージョン。不確実さ。概念の階層化とネットワーク。 .o(それでモデル化したいものは、ウェブ、なのかしら?) #sigmodj
  • 14:59:59 http://twitter.com/nsiena nsiena: ここまでが前置き。言いたい事は、情報抽出、らしい。 .o(その目的なら、ここまでの事は理解できなくもないかな。 ^^;) #sigmodj
  • 15:04:03 http://twitter.com/nsiena nsiena: 抽出対象: リスト抽出, エンティティ抽出。一般的アプローチ: サイトの構造にもとづく方法, 意味的な方法, ドメイン知識を用いた抽出。 #sigmodj
  • 15:08:19 http://twitter.com/nsiena nsiena: ドメイン知識を用いた抽出: 1) 分野の知識を獲得, 2)分野に関連するソースを発見, 3) ソースを理解して抽出, 4) 競合と重複の解消。 #sigmodj
  • 15:11:11 http://twitter.com/nsiena nsiena: レコードの識別。ドメイン知識の話はどこかへ行っちゃった .o(ぇー ^^;)。記事間のオブジェクトマッチング。更に、ページ分類や集約サイト増加への対応、新しい分野の知識獲得、などが必要。.o(結局どういうこと?) #sigmodj
「A Comparison of Approaches to Large-Scale Data Analysis」
  • 15:13:18 http://twitter.com/nsiena nsiena: あとは、いくつかの研究論文を紹介。紹介すべきと薦められた「A Comparison of Approaches to Large-Scale Data Analysis」。MapReduce と並列 RDBMS との比較。 #sigmodj
  • 15:17:14 http://twitter.com/nsiena nsiena: 機構の比較点: スキーマの有無, 索引の有無, データモデル, データ分散方法, 実行方式と中間データの特性, 処理の柔軟性, 対故障性。 #sigmodj
  • 15:22:36 http://twitter.com/nsiena nsiena: 比較実験: MapReduce v.s. 有名RDBMS v.s. column指向である Vertica。比較は、MapReduce の論文中の評価 (grep): データローディングとタスク実行。ランダム HTML での評価: 選択, 集約, 結合, ユーザ定義関数での集約。 #sigmodj
  • 15:40:19 http://twitter.com/nsiena nsiena: ロードは Hadoop が高速。全体的には、RDBMSHadoop の 3.2倍、Vertica は RDBMS の 2.3倍くらい速かった。これは技術の蓄積による。B木, Column-store, 圧縮, 並列実行, ……。 #sigmodj
  • 15:41:36 http://twitter.com/nsiena nsiena: 的野感想: 比較条件に版でが有り過ぎて、当然の結果。MapReduce はそんなにスピード重視ではないのでは。長期間かけて大規模計算をする枠組み。タスク単位の対故障性を保証する事が何よりも重要。 #sigmodj
  • 15:43:53 http://twitter.com/nsiena nsiena: VLDB2009 で続きの論文が! HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloadds。 #sigmodj
「Query Processing Techniques for Solid State Drives」
  • 15:45:00 http://twitter.com/nsiena nsiena: 次は「Query Processing Techniques for Solid State Drives」。SSD での問合せ処理手法。 #sigmodj
  • 15:46:37 http://twitter.com/nsiena nsiena: ランダムアクセスの高速性を活かせる DBMS の再設計。ストレージレイアウトと問合せ処理アルゴリズムの提案。現実的なプロトタイプ実装と実験評価。 #sigmodj
  • 15:50:17 http://twitter.com/nsiena nsiena: 訂正: レイアウトは提案ではなくて、以前の論文のものを参照したもの。NSM (N-ary Storage Model) と PAX (Partition Attribute Accross) というレイアウトに対する Scan。 #sigmodj
  • 16:09:43 http://twitter.com/nsiena nsiena: PAX の FlashScan の最適化。NSM, PAX の Hash Join (FlashJoin)。遅延実体化, メモリ消費量の幅削減, 射影のためのタプル分割コスト削減。 #sigmodj
締めくくり
  • 16:19:15 http://twitter.com/nsiena nsiena: もう一つ、「3 HOP: A High-Compression Indexing Scheme for Reachability Query」。と思ったら時間がないので概要をさっくり。最後に、喜連川先生ご受賞の写真など。 #sigmodj
  • | 16:40:58 http://twitter.com/mski mski: @nsiena sigmod-j実況してる方がいる。お疲れ様です。喜連川先生の講演も期待

喜連川優先生 SIGMOD Innovations Award 受賞記念講演会「High Performance Databases through Many Small Steps」

  • 16:41:50 http://twitter.com/nsiena nsiena: 「喜連川優先生 SIGMOD Innovations Award 受賞記念講演会」 : おめでとうございます >< #sigmodj
  • 16:46:35 http://twitter.com/nsiena nsiena: 併せて、総合科学技術会議にて、最先端研究開発支援プログラムの中心研究者にも選定。情報処理関係では喜連川先生が唯一。 #sigmodj
  • 17:37:02 http://twitter.com/nsiena nsiena: 記念講演「High Performance Databases through Many Small Steps」。30年を振り返り。ハッシュ結合アルゴリズムは、前後に類似した研究が独立に発表されていた。他の研究者との競争。 #sigmodj
  • 17:37:24 http://twitter.com/nsiena nsiena: 喜連川先生が大先生方に教えられた事: 「とにかく国際会議で戦いなさい」「質を言う前にまず数」 #sigmodj
  • 17:38:44 http://twitter.com/nsiena nsiena: .o(さすがにお話は面白い。けれど、まとめられないので聴いてる。^^;) #sigmodj
  • 17:52:55 http://twitter.com/nsiena nsiena: 「会社との共同研究は本当に面白い。どのようにプロダクトになって行くか。実際の運用の場での効果・感触を実感できる。」 #sigmodj
  • 18:04:31 http://twitter.com/nsiena nsiena: 若手へのメッセージ: 「"やりたいこと" と "できること" があるとき、その間から始めなさい」 #sigmodj
  • 18:04:35 http://twitter.com/nsiena nsiena: 「たくさん書く」「徹底的に良い論文を読む」「査読する立場で論文を書く」「査読を数多くする」「米国人も 2〜3 回落ちて当たり前」 #sigmodj
  • 18:04:48 http://twitter.com/nsiena nsiena: 「本質的な欠点を見抜けるようになれ」「識者の意見を得て真摯に向き合え」 #sigmodj
  • 18:04:53 http://twitter.com/nsiena nsiena: 「個々の論文を書く事が必ずしも目的でもない」「どの分野を狙うか」「長い目でターゲットを決めよ」「自分が好きな研究者の研究を追え」 #sigmodj
  • 18:05:01 http://twitter.com/nsiena nsiena: 「国内/国際的に仲良く」「論文発表を実現する多くの裏方が存在する事を忘れるなかれ」 #sigmodj
  • 18:05:06 http://twitter.com/nsiena nsiena: 「人生を enjoy してください」 #sigmodj
  • 18:13:05 http://twitter.com/nsiena nsiena: PiB クラスの超巨大データベース時代に向けた最高速データベースエンジンの実現に向けて。そのターゲット領域や狙いなど。「もし、民主党が許してくれれば」。 #sigmodj

終了

  • 18:14:52 http://twitter.com/nsiena nsiena: これにておしまい。この後、懇親会。 #sigmodj