HTML 文書の表示領域によるブロック分割

流れとしては、「妥当でない HTML なんて、ばくはつー - 討論妄言録」の続き。それは、例えばこういうことをしようとすると不正な HTML 文書の存在は困る、というこぼれ話だね。

11:36:11 ceekz: 現実解としては、抽出ルールの CSS を userContent.css で読み込んで、その結果をアノテーションツールに取り込むのがよいか。Firefox のパーサを外部から使うには、時間が足らなさそう。
11:52:11 ceekz: あー。 CSS で割り当てたスタイル情報は JavaScript から読み込めないのか…。
11:50:11 nsiena: HTML 文書のブロック分割する話とかいくつか見たことあるけれど。ブラウザのレンダリング結果で画像処理的に、再帰的縦横分割でブロック化してたよなー。書いた人の期待に沿うには、視覚的な表示結果の影響力が強いのよね。たとえ、それが偶然の表示でしかなくても。がうがう。
- 11:53:11 nsiena: あれは、HTML文書の本文領域抽出をやってもらってた時に見たんだったかしらん。結局、論理構造と文書内容を分析するアプローチにしたけれど。
| 11:59:11 ceekz: @nsiena VIPS: a Vision-based Page Segmentation Algorithm かしら。
|| 12:06:12 nsiena: @ceekz VIPS それが一番メジャーっぽかった。他にもいくつか。だいぶ前に、WI2 でもそのアプローチを誰かが試してたような記憶が。画像処理というより、DOMベース?かも。あと、画像/文字/印刷物フォームの認識屋さんとかからも、そんな話を (個人的に) 聞いたかもしれない。
||| 12:18:12 ceekz: @nsiena 僕はDOMベースでやってます。チラシの領域認識的な感じで、Webページを認識するという話は何度か聞いた事あるんですが、該当する文献に出会ってない…。