robert baumgartner*, nicola henze+, and marcus herzog*

15
The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web Robert Baumgartner*, Nicola Henze+, and Marcus He rzog* *DBAI, Institute of Information Systems, Vienna University of Technology +ISI - Semantic Web Group, University of Hannover 2005/10/6 松松松松 松松松

Upload: celine

Post on 19-Jan-2016

36 views

Category:

Documents


0 download

DESCRIPTION

The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web. Robert Baumgartner*, Nicola Henze+, and Marcus Herzog* *DBAI, Institute of Information Systems, Vienna University of Technology - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

The Personal Publication Reader: Illustrating Web Data Extraction, Personalization and Reasoning for the Semantic Web

Robert Baumgartner*, Nicola Henze+, and Marcus Herzog**DBAI, Institute of Information Systems, Vienna University of Technology+ISI - Semantic Web Group, University of Hannover

2005/10/6 松岡有希@総研大

Page 2: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

概要 いかにパーソナライズ化したコンテンツ収集をセマンティック

web で実現できるか 分散している non-uniform Web data を Semantic Web data へ

Personal Reader Framework Web content Readers を可能にするためのフレームワーク 複数のサービスコンポーネントから成るオープンアーキテクチャ

Personal Publication Reader Personal Reader Framework を利用 ユーザに適した Web 上の論文情報を収集・表示 Web からの情報抽出

実時間で、動的に パーソナライズ化

オントロジを利用

Page 3: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Motivation シナリオ

ピーターは大学で研究者として働いている。ジャーナルや学会で論文を出版し、同時に学会 HP に論文をアップロードしている。次から次へと、新しい論文を、所属するプロジェクトに報告しなければならない。プロジェクトではメンバーや活動内容、研究成果について書かれたメンバーページを管理している。

質問 メンバーページのメンテナンス作業を軽減したり、データの重

複は避けることはできないのか? プロジェクト上で役に立つ文脈情報を利用できないのか? Web ページから関連する情報を抽出できないのか? ユーザがほしい情報を集めることはできないのか?

Page 4: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

The Personal Reader Framework The Personal Web Content Readers を実現

ユーザが興味を持つ web コンテンツへのアクセス (the Personal part) と表示 (the Reader part)

アーキテクチャ さまざまな visualization, personalization サービスから構成 XML, RDF, JSP, XML-based-RPC ユーザに適したサービスを選ぶことができる( Plug & Play )

Page 5: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Personal Publication Reader REWERSE プロジェクトのメンバーの web サイトから

論文情報を取得・表示 処理内容

Web から論文に関する部分を抽出・統合 Lixto Visual Wrapper, Lixto Transformation Server

オントロジに基づいて推論し、情報をメタデータ化 ユーザに適した論文データの表示

visualization, personalization サービス 対象ドメイン

REWERSE – Reasoning on the Web (http://rewerse.net/) EU の支援を受けている 現メンバーは 130 人ほど

Page 6: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Web Data Extraction and Integration Lixto Visual Wrapper

可視化、インタラクティブといった特徴を持つ、ラッパー * を生成するためのツール

データを抽出している間にさらにドキュメントに対して処理が可能 ユーザー定義がページの上でもはや満たされない場合、警告される * 自動的にデータを抽出したり、データを異なるフォーマットに変換したりするプ

ログラム

Page 7: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Web Data Extraction and Integration Lixto Transformation Server

いろいろなコンテンツを取得・統合し、適切なフォーマットに変換して、他のシステムへ配信

他の Web サービスによって制御 カスタマイズできる・ ユーザが統合するコンテンツを決めることができる

Page 8: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Publication Data on the Web

Page 9: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Gathering Web Data Lixto Visual Wrapper を使ってデータを抽出 Munich さんの例

Title はイタリック文字で書かれている Author はハイパーリンクで表示されていて、 title の前にある

Linkoppoing さんの場合、ハイパーリンクで表示されているのもあれば、単にカンマで区切られているだけのものも

いろんな種類のフィルターを用意する Year は、年ごとの各ページの 1 行目にある

ラッパーは下記のような XML データを生成

Page 10: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Visual Data Aggregation Lixto Transformation server がデータを収集し、 RDF に変換

し、 1 週間に 1 回 Personal Publication Reader に配信

足りない情報を追加することができる 例) www.researchindex.com からアブストラクトのデータを貰って

くる

Page 11: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Modeling Domain Knowledge 論文データから抜粋した情報と REWERS

E-Ontology をマッピング Semantic Web Research Community Ontology (S

WRC) を拡張したもの “helper” ontology

著者のフルネームを記述 F. Bry, Franqis Bry, Prof. F. Bry

Page 12: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

REWERSE-Ontology

Page 13: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Content Syndication and Personalized Views Personalization はリクエストとルールの

結果がマッチするときに実現 ルールは TRIPLE syntax を採用 例)“ interest in personalized information systems”

ルールを扱うのは、 Personalization server

Page 14: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

Screenshot of the Personal Publication Reader

Page 15: Robert Baumgartner*, Nicola Henze+, and Marcus Herzog*

まとめ The Personal Publication Reader

Semantic Web でパーソナライズな情報システムを実現