HTML 文書の表示領域によるブロック分割

流れとしては、「妥当でない HTML なんて、ばくはつー - 討論妄言録」の続き。それは、例えばこういうことをしようとすると不正な HTML 文書の存在は困る、というこぼれ話だね。

  • 11:36:11 http://twitter.com/ceekz ceekz: 現実解としては、抽出ルールの CSS を userContent.css で読み込んで、その結果をアノテーションツールに取り込むのがよいか。Firefox のパーサを外部から使うには、時間が足らなさそう。
  • 11:52:11 http://twitter.com/ceekz ceekz: あー。 CSS で割り当てたスタイル情報は JavaScript から読み込めないのか…。
  • 11:50:11 http://twitter.com/nsiena nsiena: HTML 文書のブロック分割する話とかいくつか見たことあるけれど。ブラウザのレンダリング結果で画像処理的に、再帰的縦横分割でブロック化してたよなー。書いた人の期待に沿うには、視覚的な表示結果の影響力が強いのよね。たとえ、それが偶然の表示でしかなくても。がうがう。
    • 11:53:11 http://twitter.com/nsiena nsiena: あれは、HTML文書の本文領域抽出をやってもらってた時に見たんだったかしらん。結局、論理構造と文書内容を分析するアプローチにしたけれど。
  • | 11:59:11 http://twitter.com/ceekz ceekz: @nsiena VIPS: a Vision-based Page Segmentation Algorithm かしら。
  • || 12:06:12 http://twitter.com/nsiena nsiena: @ceekz VIPS それが一番メジャーっぽかった。他にもいくつか。だいぶ前に、WI2 でもそのアプローチを誰かが試してたような記憶が。画像処理というより、DOMベース?かも。あと、画像/文字/印刷物フォームの認識屋さんとかからも、そんな話を (個人的に) 聞いたかもしれない。
  • ||| 12:18:12 http://twitter.com/ceekz ceekz: @nsiena 僕はDOMベースでやってます。チラシの領域認識的な感じで、Webページを認識するという話は何度か聞いた事あるんですが、該当する文献に出会ってない…。