large-scale semantic web search technology based on linked ...c0%b1%bc%ae%c2%f9.pdf · 시맨틱...

26
Large-Scale Semantic Web Search Technology based on Linked data 서울대 BikeLab · 다음커뮤니케이션 [email protected] http://bike.snu.ac.kr

Upload: others

Post on 15-Oct-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

Large-Scale Semantic Web Search Technology based on Linked data

윤 석 찬

서울대 BikeLab · 다음커뮤니케이션 [email protected]

http://bike.snu.ac.kr

Page 2: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

목차

1. 시맨틱 웹 킬러 애플리케이션의 현황

2. 시맨틱 검색 서비스 출현과 LinkedData의 성장

3. 대용량 LOD 기반 시맨틱 검색 방식

4. 클라우드 기반 시맨틱 웹 데이터 처리 사례

5. 대용량 LOD 검색 서비스의 한계

Page 3: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

Web 3.0 Buzz

Page 4: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

시맨틱 웹의 현황 • 시맨틱 웹이 죽은 이유

– 어렵다 • HTML과 XML에 비해 콘텐츠 생산이 어려움 • 이상적 표준론자와 학자들의 전유물로 인식 • 웹 개발자를 위한 쉬운 표준과 개발 도구 부재

– 킬러앱이 없다 • 매력적인 웹 서비스 및 웹 애플리케이션 부재 • 포털, 검색, 동영상, 소셜네트웍과 연계 부재

• 시맨틱 웹의 현실 – 특정 도메인에서만 이용: 콘텐츠, 의료, 문헌, 특허 정보 등 – RSS, 오픈 API, 마이크로포맷 등 구조적 데이터 저작 가능 – RDF 기반 데이터웹(LinkedData)로 재도약 준비 중 – 여전히 어렵고 킬러앱이 없다!

Page 5: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

시맨틱 검색 서비스의 출현 • 국내

– 시맨틱 전문 검색 서비스 • OntoFrame(KISTI), Qrobo(시맨틱스), Owlim(솔트룩스)

– 네이트는 시맨틱 검색을 기반으로 10%까지 점유율 상승. – 네이버 역시 시맨틱 웹 기반 영화 검색 서비스 베타 제공

Page 6: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

• 국외 – Microsoft Bing은 Powerset을 인수 및 점유율 상승. – 구글은 Squared라는 구조화 서비스 베타 서비스 시작. – Wolfram Research에서 DB 기반 검색 서비스 베타 서비스 시작. – LinkedData의 급격한 성장.

Page 7: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

Scale of Linked Data

. In October 2007, datasets consisted of over two billion RDF triples, which were interlinked by over two million RDF links. By September 2010 this had grown to 25 billion RDF triples, interlinked by around 395 million RDF links.

http://en.wikipedia.org/wiki/Linked_Data

Page 8: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

LinkedData 애플리케이션

Page 9: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

• 데이터 브라우저 – Tabulator Browser (MIT, USA) – Marbles (FU Berlin, DE) – penLink RDF Browser (OpenLink, UK) – Zitgist RDF Browser (Zitgist, USA) – Disco Hyperdata Browser (FU Berlin, DE) – Fenfire (DERI, Irland)

• 검색 엔진 – Falcons (IWS, China) – Sig.ma (DERI, Ireland) – Swoogle (UMBC, USA) – VisiNav (DERI, Ireland) – Watson (Open University, UK)

Page 10: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

검색 기술 비교 및 변화

– 검색은 정보 수집, 저장, 서비스 모든 면에서 주기적으로 대용량 처리 능력이 필요하며, 웹 기반 데이터가 기하 급수적으로 늘어나면서 클라우드 플랫폼이 절실히 요구 되고 있음.

– 2009년을 기점으로 시맨틱 웹 데이터 처리가 이슈가 되면서, 기존 검색 엔진과 마찬가지로 클라우드 컴퓨팅 기반 분산 플랫폼이 필요.

기존 웹 검색 엔진 방법 시맨틱 웹 검색 외부 웹 문서 및 사내 콘텐츠 DB 대상 링크드데이터(LinkedData) 및

사내 콘텐츠 DB

웹 크롤러를 통해 수집 수집 RDF 수집

랭킹에 따라 문서 인덱스 저장 관계에 따라 RDF Triple 변환

IR 알고리즘 결과 SPAQL 쿼리 응답

키워드 기반 랭킹 기반 검색 서비스 그래프 기반 의미 검색

Google(1조) 데이터 용량 LinkedData(250억)

Google, 네이버, 다음 대표 기업 Bing, Hakia

Page 11: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

현재 LOD 검색 개발 방식 1. 웹 기반 구조적 데이터 수집

– 반 구조적 데이터: HTML내 RDFa, Microformat 혹은 HTML5 Microdata, 구조적 데이터: XML 및 JSON, 시맨틱 데이터: RDF/RDFs • 예) LDspider (GPL license) http://code.google.com/p/ldspider

2. 데이터 저장 – Virtuoso (GPL), Sesame (BSD), Jena TDB (BSD) 혹은 RDB – c.f Berlin SPARQL Benchmark (Nov 2009)

3. 퀴리 및 데이터 분석 – SPAQL을 이용한 Query Engine

4. 랭킹 및 결과 제공 – 결과에 대한 시맨틱 네비게이션 및 링크만 제공

Page 12: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

기존 시맨틱 웹 처리 방법

1. 모델 만들기 개념과 관계 속성에 대한 정의 최대한 현실에 부합하는 모델을

만들며 확장 유연성 2.RDF 처리

대개 기존 DB에서 변환 RDF, Triple, N-Triple 형태 저장 처리 시간이 길다!

3. SPARQL 질의 원하는 답을 얻기 위한 추론 응답 시간이 길다!

Page 13: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

DB Memory File RDF Store

Page 14: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

검색에서 클라우드 플랫폼의 장점

1. 사회적 이슈가 발생했을 때, 클라우드 동적 제어 API를 이용하여 크롤링 및 인덱싱 작업을 비주기적으로 시행.

2. UCC 검색 콘텐츠 DB에 대해서 신규 작업 시 클라우드 기반으로 테스트 가능

3. Hadoop, Hbase 등 각종 분산 컴퓨팅 자원을 필요 시 이용.

4. 실시간 웹(Realtime Web) 검색을 대응하기 위한 검색 엔진 및 처리 시스템 필요

Page 15: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

클라우드 기반 LOD 검색 방식 1. 웹 기반 구조적 데이터 수집

2. 데이터 저장

– Hadoop을 이용한 분산 컴퓨팅 플랫폼 – 대용량 RDF 변환 및 처리 – NoSQL을 이용한 검색 데이터 저장소

3. 퀴리 및 데이터 분석 – 사용자 쿼리에 해당하는 질의어 분석 – 질의어를 통한 SPARQL 쿼리 생성 – 쿼리에 대한 서브 쿼리 자동 생성 및 AnswerSet 추출

4. 랭킹 및 결과 제공 – 관계 기반 질의어 확장 및 추천

Page 16: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

1. MapReduce 이용한 RDF 처리

Page 17: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

2. MapReduce를 이용한 AnswerSet

c.f. 기존 SPARQL 처리 속도

Page 18: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

• 키워드 확장용 Answer Set 저장 가능 – “Subject Property” 기반 검색어 e.g “이효리 나이” ⇒ Daum 스마트앤서

– “Subject Property sameAs Subject” 방식 확장 • “이효리 나이 같은 가수”

3. 관계 기반 질의어 확장

Page 19: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

• 의미 검색 서비스에 용이 – Update Heavy job – Real-time incremental

Update

http://research.yahoo.com/Web_Information_Management/YCSB

Page 20: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

iCube Cloud

REST APIs

Music DB

Internet

Search Service

Search Service

Front-end

Movie DB People

DB

{"Name": "Cheeso", "Rank": 7} {"Name": "Cheeso", "Rank": 7}

{"Name": "Cheeso", "Rank": 7}

NoSQL

Hbase

Cassandra

RDF Hadoop

Map/Reduce

- 클라우드 인스턴스 동적 처리 - MR Job Scheduler

Answer Set

M/R

- 사용자 쿼리 분석기 - 동적 생성

N3

M/R

-Incremental Update

Storage Clould

시스템 구성도

Page 21: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

1) iCube 기반 MapReduce jobs

Page 22: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

2) 의미 검색 서비스 12월 베타 오픈 예정

Page 23: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

• 기존 시맨틱 웹 검색 서비스와 차별점 – 사용자에게 친숙한 검색 인터페이스 제공 – 속성 중심의 질의어 확장을 통한 검색 시간 증가

• 의미 검색 서비스 특징 – 사용자가 원하는 질의어 확장을 통한 콘텐츠 의미 검색 – 기존 스마트 앤서에 대한 보강 데이터 확보 – 클라우드 플랫폼을 이용 영화/인물/음악을 기반한 RDF

Triple/Answer Set 등 5억~10억 규모 데이터 실시간 처리 처리 • 몇 십분안에서 처리 가능

• 향후 대규모 LOD 검색 서비스를 위한 프로토타입

Page 24: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

LOD 검색 서비스의 한계 • 상용 대용량 데이터 처리가 필요하다

– 전 세계 여러 연구 기관에서 최근 관심 급증 – ISWC 차원에서 Billion Triples Challenge 진행중

– 사용 데이터셋

• 2010년 3~4월에 수집된 3.2 billion triples (27GB gzipped) • http://challenge.semanticweb.org

– 제출 현황 • Creating voiD Descriptions for Web-scale Data • HadoopRDF : A Scalable RDF Data Analysis System • Scalable Online Analysis of Semantic Web Data • High Performance Semantic Factoring of Giga-Scale Semantic Graph

Databases

Page 25: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

• 구조적 데이터 규모가 작다 – 기존의 Annotation용 Vocaburary 적극 활용 필요 – 자동 솔루션 이용

• Open Calais (Thomsons Reuters) for news • Zemanta (startup) for blog posts

• LOD간 링크가 적다 (only 5% in LOD) – 수작업, 데이터 마이닝 (고전적인 방법) – Google Base API (데이터 입력으로 연결 작업) – R2R 프레임웍 (SPARQL 기반 맵핑 솔루션)

• 서비스 방법이 없다 – 시맨틱 네비게이션의 이상이 랭킹 방법이 필요 – 데이터가 너무 전문적이어서 킬러 앱이 없음 – 의료 및 콘텐츠 분야 적극 육성 필요

Page 26: Large-Scale Semantic Web Search Technology based on Linked ...C0%B1%BC%AE%C2%F9.pdf · 시맨틱 검색 서비스의 출현 • 국내 – 시맨틱 전문 검색 서비스 • OntoFrame(KISTI),

결론 • LOD 기반 검색 서비스의 한계

– 사용자에게 친숙한 검색 UI 및 킬러 앱 부재 – 대용량 RDF 처리 시간 및 SPARQL 쿼리 처리 시간 – LOD의 데이터 규모 및 링크의 문제

• 해결 방안 – 기존 검색 서비스와 연계한 서비스 창출 필요 – 클라우드 기반 시스템을 이용한 데이터 처리 적극 활용 – LOD 기반 데이터의 링크 솔루션 활용

• Announcement! – Daum에서 국내 최초로 영화 LinkedData 레포지터리 제공 예정

(2011년 1월) – 서울대 BikeLab에서는 대용량 LOD 검색 서비스 연구 중(2009~)