[研究報告の目次へ戻る]


リンク元コンテキストを用いた WEB 文書の最重要箇所の同定法


小谷 忠史*1  林 直弘*2 鍋島 英知*3  岩沼 宏治*3

*1 (株)日本コンピュータコンサルタント
*2 山梨大学 大学院 医学工学総合教育部
*3 山梨大学 大学院 医学工学総合研究部


要旨

本稿では,リンク元コンテキストに基づきリンク先 Web ページの最重要箇所を同定する手法を提案する.適切なコンテキストを抽出するため,リンク元ページにおける繰り返し構造に着目し,テキストの修飾情報に基づいて繰り返しの基礎単位を抽出するアルゴリズムを示す.本アルゴリズムは,実用時間内で高速に繰り返し構造を同定することが可能である.評価実験の結果,ニュースサイト及びテキストを主体とするリンクにおいて本手法が有用であることを示す.

[論文のPDFファイル]



[研究報告の目次へ戻る]