「第149回データベースシステム研究発表会」二日め参加メモ

前日に引き続き「第149回データベースシステム研究発表会」に参加したので聴講メモ。誤字脱字がひどいので修正あり。

質疑応答はそのまま載せると生々しいので、あえて討論のまとめのようにしてる。あと、一部の質疑応答は省略。例えば。聞き取れなかったのとか。討論の内容を理解できなかったのとか。論点として細かいのとか。意図がすれ違っていて議論がうまく成立していないのとか。

#webdb OR #webdbf OR #dbs149 くらいで検索すれば、両イベントの主立ったつぶやきは把握できるかな。

10:06:10 nsiena: DBS#149 参加中

セッション DBS-2A: Web文書解析

「ラッピング言語を用いたWebサイト再構築手法の提案」

10:17:10 nsiena: 「ラッピング言語を用いたWebサイト再構築手法の提案」: 「HTML を XML DBMS に格納して XML→HTML の変換問合せを書くような既存手法に対し、HTML を XML DBMS に格納する規則を書くと逆写像も自動生成する手法を提案。 #dbs149 2A-1
10:18:10 ceekz: あー。 2A-1 の最初の発表は、ラッピング言語に関する発表だったのか。聞きに行けば良かった…。
10:20:10 nsiena: 「比較的少ない記述で書ける iWraplet というラッピング言語を用いる。XOOPS などの CMS は新規構築に用いられるが、提案方式は静的コンテンツを動的コンテンツに再構築するのが目的。考え方は SW工学のリバースエンジニアリングと類似。 #dbs149 2A-1
10:23:10 nsiena: 「Q/A: 既存の HTML が自動修復できないものは事前にクリーニングされていないと適用できない。汚い HTML は多いので対応が必要だろう。」 .o[腐った HTML はどうにもならないよね。後のことを考えずに書かれて再利用不可能なページは多い。 #dbs149 2A-1
10:27:10 nsiena: 「Q/A: 複数の人が作成した類似した個別のページを統合する用途は検討していない。既存コンテンツを再生成できるようにするのが現時点での目的。再構築の目的により、元のまま残したい~~場合もあるする~~という実案件も存在。 #dbs149 2A-1
10:29:10 nsiena: .o[「動的」には、部分的に埋め込んだり、生成したりするものも含まれるのかしら。訊きそびれたので後で訊こう。 #dbs149 2A-1

「Web資源を利用した学術論文閲覧支援システム」

10:32:10 nsiena: 「Web資源を利用した学術論文閲覧支援システム」: 「学術論文内の専門用語を逐次検索するのは低能率。(はてなキーワードのように?) 自動リンクを生成することで閲覧能率を改善する。 #dbs149 2A-2
10:42:10 nsiena: 「OCR にかけて tf*idf ベースで用語抽出。OCR誤りは Y! で用語を検索し、提案される別用語で訂正。ウィキペディアから解説ページを検索し、説明表現パターンと照合して抽出。関連するツールもウェブから検索。これらを合わせて論文閲覧ページを生成。 #dbs149 2A-2
10:48:10 nsiena: 「Q/A: 論文中に説明があることも多いのにウェブに情報を求めるのは、説明されていない場合に情報提供することが目的だから。 #dbs149 2A-2
10:57:10 nsiena: 「Q/A: この場合の tf*idf が意味の確認。Q/A: F値で選ぶので良いか → ユーザによるだろう。Q/A: 関連論文を提供することも考えている。 #dbs149 2A-2

10:58:10 nsiena: .o[この場合の idf は論文集合ということかしらん。分野が偏ると、専門用語が頻出してキーワード抽出できなかったりしそう。ということを訊けなかった。割り込んで質問すべきだったかな。 #dbs149 2A-2

後で教えていただいた。推測通り、idf の計算範囲は論文集合とのこと。論文集という分野の偏りが影響するかもしれない。でも、別の方から、それなりに用語抽出できるとの話も。適用する対象と求める性能にもよるかな、といった感じ。論文集以外から抽出される一般語の出現頻度を多少考慮するとかで抑制できるかも。

あと、論文閲覧ページは静的に生成しているので、文書数を増やすと再生成することになるそうな。インクリメンタルに反映して、動的に生成するようにするのは。問題としては別の、やればできる話。既存手法がそのまま使えるだろうな。

「Webページの構造と内容の分析による手法掲載部分の抽出」

11:03:11 nsiena: 「Webページの構造と内容の分析による手法掲載部分の抽出」: 「レシピや手続き、作り方などが記述されたページを検索する研究はあるが、見やすさを考慮していない。画像や要点を適度に使った熟読しなくても見やすいページを検索し、手法記述のみを抽出する。 #dbs149 2A-3
11:08:11 nsiena: 「これまで VIPS で領域分割していたが、うまくいかない。手法掲載ページの特徴を考慮した記述抽出手法を提案。段階をおった説明 (手順表現、経過表現) が多く~~であり~~、過去形表現が文末に存在しないことに注目。DOMペースで構造分析し、表現に基づいて内用内容分析する。 #dbs149 2A-3
11:12:11 ceekz: 今回、片山さん以外にも隣のセッションである「Webページの構造と内容の分析による手法掲載部分の抽出」でも僕の論文が引用されてる。以外と役になっているようで嬉しいです（コンテンツ抽出よりもブロック抽出が使われてる）。
11:19:11 nsiena: 「多かった記述パターン: 肉じゃが→手順表現, Fedra Core→経過表現, 光る泥団子→動画。実験では、(a) 掲載手法掲載ページか判定, (b) 記述部分の抽出を VIPS と比較。(a) は同程度だが, (b) は大きく改善。改善の余地はある。 #dbs149 2A-3
11:19:11 nsiena: 「Q/A: 見やすさの定義は、1. 手法の流れが把握しやすい → 概略把握~~は飽く~~, 2. 書く各手順が見やすい → 詳細把握。もっと形式化した定義が欲しい。 #dbs149 2A-3
11:27:11 nsiena: 「Q/A: 評価対象の手法ごとに記述方法などが違うだろう。 Q/A: 時系列順ではない文章の書き方のいろいろなノウハウも盧考慮してあると嬉しい。現段階では難しい。 Q/A: 見やすさの評価はしていない。 Q/A: 見やすさと分かりやすさは違う。 #dbs149 2A-3

「論点に対する極性に注目したニュース記事からの編集意図の抽出手法」

11:30:11 nsiena: 「論点に対する極性に注目したニュース記事からの編集意図の抽出手法」: 「同じトピックでも新聞によって与える印象が異なる。各新聞社の編集意図 (論点, 正負の極性, 見解の強度) を~~比較安く~~比較しやすく提示することを目標とする。 #dbs149 2A-4
11:43:11 nsiena: 「事実文でなく見解文に注目。文末に注目して見解文を抽出。辞書で出現語の極性を判定。名詞句の一部として出現する論点要素語を抽出し、相関ルールマイニングにおける頻出飽和集合として論点候補を選択。更に、論点の組合せを発見。見解文数で強度を導出。 #dbs149 2A-4
11:43:11 nsiena: .o[引用文とそれを含む文で逆の意図になっている場合はどうするのかしら。あと、「期待を裏切りうまくいった」「期待を裏切る形となった」など文脈によって意味が逆転したりする場合もありそう。 #dbs149 2A-4

訊いてみた:

11:54:11 nsiena: 「Q/A: 前者は正負両方の意図が独立に抽出される。文全体で否定的になるなど、全体の方が編集意図に近いだろう。検討できていなかった。/ 後者は辞書で対応できる範囲もある。それだけでは対応できず、文脈に依存する場合などもあるので検討してみて欲しい。#dbs149 2A-4

11:56:11 nsiena: 「Q/A: 見解文に注目しているが、見解を表す語を素性として辞書を整備しておくとよさそう(?)。 Q/A: 新聞だと無難な意見が多いかも。 #dbs149 2A-4

セッション DBS-3B: 情報推薦

「トレンド分析および推薦対象コミュニティ推定に基づく情報推薦システムの提案」

13:03:13 nsiena: 「トレンド分析および推薦対象コミュニティ推定に基づく情報推薦システムの提案」: 「ユーザプロファイルからの趣向分析では不十分。世の状況や動向なども考慮すべき。→CGM からトレンド検知: 書き手の主観や即時性の高さ。書き手とトレンドの~~関節的な~~間接的な繋がりも。 #dbs149 3B-1
13:13:13 nsiena: 「1. CGM内の語の出現頻度の変動でトレンド語を抽出。2. ユーザの関連ユーザ (コミュニティ) を表現する、特定の話題と時間依存せずに共起しやすい語を抽出。異なる共起語群間で部分重複するなら間接的に関係あるとする。3. トレンド語とユーザの関係判定。 #dbs149 3B-1
13:14:13 nsiena: .o[ユーザに対して複数のコミュニティを扱えるのかな。聞き漏らした。 #dbs149 3B-1
13:16:13 nsiena: 「Q/A: 携帯電話業界+レアメタル , ウィグル自治区+レアメタル→ 携帯電話+ウイグル自治区、という関係はトレンドによらず得られるのでは。最近ならではの話題として抽出できるのが有用。 #dbs149 3B-1
13:27:13 nsiena: 「Q/A: 他におもしろい例: まだ見つけていない。推薦内容のユーザ評価: まだ。Q/A: 就活なら、ブログなどでのトレンドより株価などを見た方が参考になるのでは。Q/A: トレンドをみて就職を決めるのはどうか。企業戦略などが大切では。良い~~的用対象~~適用対象を。 #dbs149 3B-1

訊いてみた:

13:27:13 nsiena: 「Q/A: X, Y が同時に発生せず、時間がずれて X → Y と発生するトレンドの関係は、考慮してない。 Q/A: 語が重複していれば関係あるとしているが、ノイズが生まれる可能性があるだろう。 #dbs149 3B-1

「MySpaceを用いたインディーズ推薦システムの構築」

13:29:13 nsiena: 「MySpaceを用いたインディーズ推薦システムの構築」: 「協調フィルタリング CF: Cold-start 問題, 評価値疎ら問題。SNS を用いた推薦システム: 評価されていない。メジャーに偏らず、未知のアーティストも推薦可能な手法をめざす。 #dbs149 3B-2
13:30:13 nsiena: .o[はて。ソーシャル広告は、ソーシャルグラフを使ってるのでないのかしらん。違う問題なのかな。 #dbs149 3B-2
13:33:13 nsiena: 「アーティスト間フレンドネットワークを使う。想定シナリオ: 1. アーティストを検索, 2. ソーシャルグラフを展開, 3. 関連アーティストを提示, 4. 視聴。多くのユーザは、メジャーアーティストで検索するので、インディーズを発見できない可能性を考慮した。 #dbs149 3B-2
13:37:13 nsiena: 「日本国内の MySpace 登録アーティストのトップフレンドのみで偏りを調査。{メジャー, インディーズ, アマチュア, 分類無し} → それぞれに密なクラスタと、クラスタ間の緩やかな繋がり。更に数値分析して、偏りはあまりないことが分かった。 #dbs149 3B-2
13:44:13 nsiena: 「推薦結果は、既知よりも未知のものの方が明らかに多かった。推薦したうち 50% 程度は MySpace に登録されている。推薦満足度は、提案手法 > CF (全レーベル) > CF (インディーズのみ)。 #dbs149 3B-2
13:45:13 nsiena: 推薦数が極端に{多い,少ない}ことがある。対策として、補完アルゴリズムの検討, ジャンル情報の利用, ネットワーク構造の利用などが考えられる。 #dbs149 3B-2
| 13:46:13 hijip: @nsiena そっちのセッションも面白そうやなぁ #dbs149
|| 15:47:15 nsiena: @hijip 今更ながら。おもしろいセッションでしたよー ^^=
13:48:13 nsiena: 「Q/A: アーティスト間ネットワークでなく、ユーザ目線の情報を使わないのは。メジャーに偏る可能性が高いから。 Q/A: メジャーでだめな理由は。インディーズの立場で考えたシステムだから。ユーザにとっても未知のものを知る機会を得られる。 #dbs149 3B-2
13:53:13 nsiena: 「Q/A: 多すぎる場合にランク付けできる余地がありそう~~ありよう~~。ジャンルなどでランク付けすることも検討中。 Q/A: MySpace にインディーズの登録が多いから成立するのか。例えばアマチュアを重視する推薦ならアマチュアを優先するなどが考えられる。リンクの繋がりが弱いとうまくいかないかも。 #dbs149 3B-2
13:55:13 nsiena: .o[アーティスト同士の知合い関係と音楽性は、どれくらい関係があるのかしら。全く違う音楽だったり、逆に非常ににすぎていたりすると、ユーザ満足感は低くなりそうな気がする。 #dbs149 3B-2

「MovieLens Dataに見る協調フィルタリングの失敗」

14:00:14 nsiena: .o[メモが間に合わない ^^; #dbs149 3B-3
14:01:14 nsiena: 「MovieLens Dataに見る協調フィルタリングの失敗」: 「CF の前提になっているが、必ずしもそれに即していない~~そうではない~~状況があるはず。それを解析してみる。 #dbs149 3B-3
| 14:03:14 hijip: @nsiena 「MovieLens Dataに見る協調フィルタリングの失敗」あ〜，これ面白そうやなぁ．．． #dbs149
14:07:14 nsiena: 「二つのアイテム集合間の相関。推薦値に反映され、良好な特性に寄与する (1,1),(-1,-1) は全体の 12%。推薦値に反映され、失敗に寄与する (1,-1),(-1,1) は 6.6%。これが推薦精度に悪影響~~飽く影響~~しているのではないか。 #dbs149 3B-3
14:12:14 nsiena: 「ユーザ集合と評価値の分布。{上位,中位,下位}ユーザ集合は、いずれも同様の評価値で偏りがない。推薦されるべき評価 (中位ユーザ集合) と上位・下位ユーザ集合との差異を調査。 #dbs149 3B-3
14:13:14 nsiena: 評価値 0-0.5 は上位ユーザ集合 74%, 下位ユーザ集合 47%。0.6 以上異常は、上位ユーザ集合は少ないことから、誤差が少なく安定しているといえる。評価数の多少において、平均推薦値の差には有意差は見られず。 #dbs149 3B-3
14:17:14 nsiena: 「Q/A: Cold-Start問題が問題視されている中、信頼性の高い情報を用いるべきというのは逆行しているのでは。→ 今回は Cold-Start問題については注目しないで、精度に影響する要因を解析したもの。 #dbs149 3B-3
14:25:14 nsiena: 「Q/A: 同じデータセットに対して他の推薦手法を用いた場合、相関分布はどのようになるのか。未確認。Q/A: 中位ユーザ集合を正解とした理由は。評価数 (人数? 聞き漏らし) が最も多かったから。はたしてそれが何を意味するのか。適切なのか。 #dbs149 3B-3

「Web閲覧行動の学習に基づく情報推薦システムの実現」

14:28:14 nsiena: 「Web閲覧行動の学習に基づく情報推薦システムの実現」:「長く見ているページの内容に興味が強いなど。しかし、閲覧時の習慣の個人差がある。関心を抽出する上で、影響ある閲覧行動を決定することは困難。影響ない閲覧行動を排除したプロファイリングが必要。 #dbs149 3B-4
14:33:14 nsiena: 「閲覧行動をモニタリングし、閲覧ページの特徴単語群から個人プロファイル (情報嗜好シソーラス) を構築。(閲覧行動,特徴語) の頻度行列。プロファイルに基づいた情報推薦に活かす。 #dbs149 3B-4
14:49:14 nsiena: 「閲覧行動ごとに特徴語の抽出対象範囲を定義。システムの構成。評価フィードバックと再推薦も行なう。実験は、評価フィードバックについて。同じジャンルを連続10回フィードバックした場合と、異なるジャンルを交互にフィードバックした場合。 #dbs149 3B-4
14:49:14 nsiena: 「ランクと相関のある閲覧行動をとる傾向がある。有用なページを印刷・ブックマークするなど。(ジャンルごとに異なる?, ブラウザ落ちて聞き漏らし) #dbs149 3B-4
14:49:14 nsiena: 「Q/A: フィードバックによって推薦が強く反映されてしまい、ユーザの興味をとりにくくなることがあるだろう。指摘通りで、センシティブになり過ぎる。時間軸を導入する、局所化するなどが必要かもと考えている。 #dbs149 3B-4

表彰式・閉会

14:52:14 nsiena: 全セッションおしまーい。このあと表彰式など。 #dbs149
14:56:14 ceekz: 楽天シンポで最優秀論文賞だった @chappytown が学生奨励賞！
14:58:14 nsiena: 学生奨励賞: DBS-1A-4: 旭直人(京都大学)「挟みこむ検索: 2オブジェクトからの補間オブジェクト発見」 #dbs149
14:58:14 nsiena: 学生奨励賞: DBS-1B-2: 小林加織里(兵庫県立大学)「オンライン地図の経路操作に基づくユーザの地図読解能力の測定」 #dbs149
14:59:14 nsiena: 学生奨励賞: DBS-2B-1: 藤坂達也(兵庫県立大学)「マイクロブログを用いた大衆の移動パターン分析による地域的社会現象の発見」 #dbs149
14:59:14 nsiena: 学生奨励賞: DBS-2B-3: 片山太一(筑波大学)「スプログ検出におけるHTML構造の類似性の有効性の評価」 #dbs149

15:45:15 nsiena: 検索TL しか見てなかったな。@ 見てなかった...。集中して聴いて、メモって、質問するとか化すると、それどころじゃない。能力の限界か ><; Wdbs149
| 15:48:15 ceekz: @nsiena お疲れさまでした :)
|| 16:03:16 nsiena: @ceekz おつかれさましたー ^^= 今回は聴きにいけなかったよー。
||| 16:16:16 ceekz: @nsiena まだまだ本質的な部分を上手に言語化できていない部分がありますので、もっと頑張らないとなーっと。
17:03:17 nsiena: ありゃ。きょうも #webdb だったのか。 #dbs149 付けて流してしまってた。うぬぬ。 #webdb に目を通すを開始。
| 2009/11/22 Sun 09:45:09 hijip: @nsiena いや，多分，私しか書いていませんが(^^;;