사용자어휘지능망 - kristal irms home - giis · 5/47 머리말(2/3) •...

47
KRISTAL 2006 KRISTAL 2006 사용자 사용자 어휘지능망 어휘지능망 User User Word Intelligent Network (U Word Intelligent Network (U - - WIN) WIN) 울산대 한국어처리연구실 옥철영 인간의 말을 이해하는 똑똑한 컴퓨터울산대학교 한국어처리연구실이 만들어 갑니다.

Upload: others

Post on 03-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

KRISTAL 2006KRISTAL 2006

사용자사용자 어휘지능망어휘지능망User User –– Word Intelligent Network (UWord Intelligent Network (U--WIN)WIN)

울산대 한국어처리연구실

옥 철 영

“인간의 말을 이해하는 똑똑한 컴퓨터”

울산대학교 한국어처리연구실이 만들어 갑니다.

KRISTAL 2006KRISTAL 2006

2/47

차차 례례

• 머리말

• 어휘망 연구 동향과 고려 사항

• 우리말 어휘지능망 (U-WIN)– U-WIN 소개 및 개발 목표

– U-WIN 구축 방법

– U-WIN 활용

• 맺음말

• 시연

KRISTAL 2006KRISTAL 2006

3/47

머머 리리 말말

KRISTAL 2006KRISTAL 2006

4/47

머머 리리 말말 (1/3)(1/3)• 언어자원

– 인간의 모든 언어 행위의 결과물을다양한 형태로 가공 저장하여 개발한 음성언어, 문자언어, 원시/분석말뭉치, 전자사전, 어휘망, 온톨로지 등의 언어 관련 자원

• 언어자원의 필요성– 인간의 언어 이해 방식과 동일한 자

연 언어의 기계적 이해를 위한 기초필수 자원

– 언어의 역사성, 창조성, 보편성, 다양성 등 자연 언어의 특성을 기계적으로 저장하여 언어 관련 분야 연구에서 다양한 기술 창출과 학문적 발전을 기대할 수 있는 자원

KRISTAL 2006KRISTAL 2006

5/47

머머 리리 말말 (2/3)(2/3)• 의미적 언어자원

– 자연 언어의 기본적인 어휘적 의미, 구문적 의미, 담화적 의미를 바탕으로 행위나 현상, 상태 등에 담긴 의미론적·개념론적 특성을 포함하는

자원

– 사전을 비롯하여 의미 주석 말뭉치, 어휘분류, 시소러스, 어휘망, 온톨로지 등이 대표적

• 특히 시소러스, 어휘망, 온톨로지관련 연구는 최근 많은 분야에서연구되고 있음

– 어휘망 관련 연구

• 언어학과 자연언어처리 분야를 중심으로 대규모 단일어 어휘망, 다국어 어휘망을 구축하기 위한 방법과 이를 바탕으로 한 실제 구축에 대한 연구 개발이 다각도로 이루어지고 있음

KRISTAL 2006KRISTAL 2006

6/47

머머 리리 말말 (3/3)(3/3)• 본 연구는 어휘망 연구와 실제 구축 사례의 하나로, 울산대

한국어처리연구실에서 한국어를 대상으로 구축하고 있는대규모 어휘 데이터베이스이자 의미망인 우리말 어휘지능망(U-WIN)에 대한 연구 개발 사례를 중심으로, 어휘망의구축 원리와 실제, 그리고 구축상의 문제점, 향후 연구 개발 방향을 제시

KRISTAL 2006KRISTAL 2006

7/47

어휘망어휘망 연구연구 동향동향 및및 고려고려 사항사항

KRISTAL 2006KRISTAL 2006

8/47

국내외국내외 연구연구 개발개발 동향동향 (1/2)(1/2)• 국내 연구 개발 동향 (일부)

의미 태그 부착 말뭉치 (21세기 세종계획)

• 형태적, 구문적 분석을 비롯한 의미적 분석이 가능

한 500만 어절 이상의 의미 태그 부착 말뭉치

• 현재 국립국어원을 중심으로 하여 지속적으로

구축 중

KorLex (부산대)• WordNet의 영한 번역 구축

결과물임과 동시에, 한국형

WordNet 구축

• EuroWordNet과의 연계성 모색

CoreNet (KAIST)

• 개념 기반 다국어 어휘의미망 (한국-중국-일본)

• 단일어 사전과 기존 워드넷을 이용한 반자동 구축

• NLP 및 의미기반 지식처리 시스템에 활용

ETRI 어휘개념망 (ETRI)

• 어휘 개념들간의 다양한

관계를 연결시켜 놓은

어휘데이터베이스

• 현재 PLO 사전까지 연결

되어 있는 국내 최대 규모

의 개념망

• 현재 백과사전기반 질의

응답 시스템에 활용

NexusBase (오롬정보)• 국제 표준에 맞추어 구축 중인 국내

최대의 시소러스 (40만 용어 이상)• 오롬시소러스시스템과의 연동

• 다국어 시소러스 형태로 구축 중

어휘분류체계 (국립국어원)• 국어사전 개발을 위한 어휘

분류 체계 구축 완료

• 전자사전 개발을 위한 의미

부류체계 개발 중

• 각종 분류체계 구축 중

KRISTAL 2006KRISTAL 2006

9/47

국내외국내외 연구연구 개발개발 동향동향 (2/2)(2/2)• 국외 연구 개발 동향 (일부)

WordNetCYC

Ontology

Roget Thesaurus

HowNet

SENSUSEuro WordNet

Mikrokosmos

EDR

KadokawaLexical FreeNet

Goi-Taikei …

Enterprise Ontology

TOVE Ontology

UMLS GALEN

체계적이면서 지속적인 연구 개발

의미적 언어 자원의 중요성 인식정부기관의 충분한 연구 개발 지원

전세계적으로 이러한 국외의 우수한 의미적 언어 자원및 분야별 전문 지식 정보를 활용하여 사용할 만큼 상당한 학문적, 기술적 언어 자원을 연구 개발하고 있다. 국내에서도 이러한 의미적 언어 자원을 많이 이용하는실정이다.

NLP Semantic Web

Next Technology

확실한 연구 개발 목표와목표 시스템을 위하여 중소규모에서부터 대규모자원에 이르기까지 다양

하게 구축

KRISTAL 2006KRISTAL 2006

10/47

어휘망어휘망 연구연구 개발에서의개발에서의 고려고려 사항사항

①어휘망은 포함되는 어휘 및 관련 정보가 방대하기 때문에, 형식적·내용적 일관성을 위한 기초 작업이 선행되어야 한다.

• 기초 어휘 선정, 기초 자원 확보, 어휘 표기 방법, 동형이의어 및 다의어처리 방법, 어휘망 구축 범위…

②어휘망은 기초적인 내부 구성 체계가 설계되어야 한다.

• 의미론적/통사론적/형태론적/언어처리적 측면을 고려한 세밀한 내부구성 설계

③어휘망은 확장성과 활용성을 고려해야 한다.

• 어휘정보 통합 관리 체계를 형성할 수 있는 구조

• 새로운 어휘 추가에 따른 어휘망 전체 구조의 재구성 발생 유무

• 기존 어휘망이나 시소러스 등과의 병합 및 통합 구조 예측

• 특정 분야에서의 활용성

– 어휘망 연구 다변화, 언어 내적 연관 관계, 어휘망 기반 서비스 및 시스템개발…

KRISTAL 2006KRISTAL 2006

11/47

사용자사용자 어휘지능망어휘지능망UU--WIN(UserWIN(User –– Word Intelligent Network)Word Intelligent Network)

KRISTAL 2006KRISTAL 2006

12/47

UU--WIN WIN 소개소개 (1/2)(1/2)

2002년부터 개발 중인 U-WIN은, 한국어의 공통적이고 개별적인 속성을 바탕으로 한국인의 보편적인 인지 체계와 개념 관계를 파악하여 이를 어휘의 의미적·개념적 연결 구조로 형성한 어휘망으로서,

언어교육용시스템, 자동어휘학습시스템, 복합명사 자동 생성 및뜻풀이 생성 기술, 전문분야별 개념 체계 자동 생성 기술, 정보검색 등 다양한 기술에 활용되고 있다

구축구축 대상은대상은 한국어한국어 어휘어휘 전체전체로서로서, , 핵심적인핵심적인 대상으로는대상으로는 명명사사//동사동사//형용사이며형용사이며, , 부수적인부수적인대상은대상은 부사부사, , 관형사관형사, , 감탄사감탄사, , 조사조사, , 수사수사, , 의존명사의존명사 등이며등이며, , 기타기타 정보적정보적 대상으로는대상으로는 북한북한어어, , 방언방언, , 옛말옛말, , 전문용어전문용어, , 고유고유

명사명사, , 어근어근, , 어미어미 등이다등이다..

한국어사전 및 한국어 언어 자원을 기반으로 한 한국형 어휘

데이터베이스(WordNet)

기본적인 의미 관계(semantic relation)를 비롯한 개념 관계(conceptual relation)로 표현된 어휘

의미망

Thesaurus, Semantic Network, Ontology 등

을 통합 관리하는Knowledge Base

Thesaurus, Ontology 자동구축을 위한 Base Lexical

Structure 및 Base Technology

• U-WIN 개요

KRISTAL 2006KRISTAL 2006

13/47

UU--WIN WIN 소개소개 (2/2)(2/2)• U-WIN 연구 개발 단계

기반 기술 연구 및 기본 구조 구축

U-WIN 세부적 구축

U-WIN 기반 응용 기술

2002~20032002~2003

2004~20052004~20052006~20072006~2007

U-WIN 이론적 실제적 기반 확립 단계

범용적 U-WIN 활용을 위한 구축 단계

U-WIN을 이용한 시스템 활용 단계

• 시소러스, 의미망, 온톨로지에 대한

이론적 기반 확립

• WordNet, Lexical FreeNet, UMLS 등과 같은 기존의 대규모 어휘 데이터베

이스 분석 및 정리

• 5만 어휘 수준의 의미 계층적 구조 형성

• 기초 자원 확보

(국어사전, 전문용어사전, 백과사전…)• 언어처리 기반 기술 연구

• 인접 학문에서의 응용 방안 연구

• U-WIN의 내부적 구조 체계 확립

• 10만 어휘 이상의 WordNet 구축

• 국외의 WordNet 수준의 구축

• U-WIN 영어 버전 1단계 작업 착수

• U-WIN과 WordNet 사상 구조

• U-WIN을 이용한 학문 분야별 개념

체계 자동 구축 기술 연구

• 웹 온톨로지 변환 기술 연구

• 관련 기관과의 연구 네트워크 구축

• 각종 시소러스, 온톨로지 등과의 상호

연계 네트워크 구축

• 각종 표준분류체계와의 연계성 모색

• U-WIN version1.0 공개

• U-WIN 기반 언어처리 기술 실용화

• U-WIN 기반 온톨로지 자동 생성 기술

• U-WIN 기반 정보검색시스템 구현

• Semantic Web Application 구현

• 국외 기관과의 상호 교류를 통한 국내외

적 연구 네트워크 구축

• 40만 어휘 이상의 WordNet 구축

• 국내 표준 어휘 개념 체계 확립

• Fact Database(Knowledge Base)와의 연계 구조 확립

• U-WIN 최신 버전 지속적 공개

• KIPONTO 연구회를 통한 상호 협력

KRISTAL 2006KRISTAL 2006

14/47

UU--WIN WIN 연구연구 개발개발 목표목표

• 언어공학적·국어학적 측면을 중심으로

• 한국어 기초 어휘 데이터베이스 확보• 기존의 어휘 네트워크와 차별화된 언어학적기반의 범용적 대규모 어휘 네트워크 확보

• 정보검색, 기계번역, 시맨틱 웹 등 응용기술에서의 의미적 언어 자원 확보

• 국제 경쟁력을 가진 대규모 어휘망 확보• 국외 어휘 네트워크와의 유기적 연결 구조를가진 국제적 수준의 어휘망 확보

• 한국어 어휘 네트워크 기반 활용 도구 및시스템의 다량 확보

• 지속적 배포를 통한 관련 연구자들의 자원확보 지원 및 제학문적 연구 교류 확대

언어공학적 측면 국어학적 측면

• 영어의 WordNet과 같은 한국어 어휘망 확보• 한국어 어휘에 대한 개념적 연결 가능성과타당성 연구

• 어휘의미론의 연구 대상인 어휘들의의미관계를 이용한 의미적 망 모델 구현

• 교육용 어휘 학습을 위한 기초 자료 확보 및외국인을 한국어 교육의 기반 자원 확보

• 국내, 국외의 인지언어학적 개념 체계 비교연구

• 언어학적 기반 번역 연구의 기초 자료 확보• 국어학적 이론에 대한 실제적 적용 여부 검증• 국내 전산언어학 및 전산의미론 분야의 발전기대

• 국어학 연구의 실용성 강화

KRISTAL 2006KRISTAL 2006

15/47

UU--WIN WIN 구축구축 방향방향 (1/2)(1/2)• U-WIN의 구축 방향

information propernoun

분석분석OntologyOntology

ThesaurusThesaurus WordNetWordNet

Standard Standard ClassificationClassification

Fact Fact DatabaseDatabase

Dictionary &Dictionary &EncyclopediaEncyclopedia

general

domain

Task

general

domain

UU--WIN ServerWIN Server

UU--WIN Management ToolsWIN Management Tools

UU--WIN ApplicationWIN Application

quality

time

IN

W

2002 2010Low

High

commondomain

KoreanWordNet

EnglishWordNet

Multilingual

Semantic Relation

conceptual relation

construction method

theory

standard

integration

interoperability

application

sta

ndard

constitu

tion

KRISTAL 2006KRISTAL 2006

16/47

UU--WIN WIN 구축구축 방향방향 (2/2)(2/2)• U-WIN 내부 구조 (일부)

– U-WIN은 Word Network, Thesaurus, Ontology, Standard Classification, Dictionary&Encyclopedia, Corpus 등이 유기적으로 연결된 구조 체계를 가지고 있으며, 지속적으로 확장될 계획

Word Intelligent Network

Word Network

Thesaurus

Ontology

Standard Classification

Dictionary &Encyclopedia

Corpus

Noun… Verb Adjective

Immunology MeSH Medicine

Product Immunology Researcher

Word Network(English version)

……

WordNet

Science…

UNSPSC IPC NICE KOSEF&KRF

OCCUPATION Lexical Class Library ……

Korean Multilingual Technical Term Encyclopedia

Sense-Tagged S-T Definition S-T Example ……

KRISTAL 2006KRISTAL 2006

17/47

UU--WIN WIN 기초기초 어휘어휘 및및 자원자원 (1/2)(1/2)• U-WIN의 기초 어휘

기초 어휘의일반적인

정의

언어생활에서 빈도수가 높고 분포가 넓으며, 합성어나 파생어와 같은이차 조어의 근간이 되는 최소한의 필수 어휘

기초 어휘

선정

• 임지룡(1991), 언어정보개발연구원(1998, 2000) 등의 기초 어휘

• 말뭉치 를 이용한 빈도 사전 참고

• 국어사전 편찬시의 기초 어휘 분류 체계 참고

• 동의어 집합의 대표 단어

• 사전 뜻풀이에서의 어휘 분도…

• 최상위어/중간계층어 설정에 도움

• 기본 구축 어휘 선정에 용이

기초 어휘

이용

KRISTAL 2006KRISTAL 2006

18/47

UU--WIN WIN 기초기초 어휘어휘 및및 자원자원 (2/2)(2/2)• U-WIN의 기초 자원

– 1차적인 기초 자원 : 사전류 (국어사전, 전문용어사전, 유의어사전, 동사사전…)– 2차적인 기초 자원 : 말뭉치, 용례, 웹 문서, 각종 전문 문서…

백과사전국어사전

전문용어사전기

• 표준국어대사전 / 우리말큰사전

• 연세한국어사전 / 금성국어사전

• 동아국어사전 / 조선말대사전

• 기타 (한영, 영한, 영영 사전…)• 두산동아대백과사전

• 계몽세계대백과사전

• 과학기술용어사전/경제용어사전

• 의학용어사전/정보통신용어사전

• 인터넷용어사전/문학용어사전

• 소설용어사전 ……

• 고유명사사전

- 인명, 상호명, 지명…• 말뭉치

• 웹문서

KRISTAL 2006KRISTAL 2006

19/47

UU--WIN WIN 어휘어휘 표기표기 방법방법

한글맞춤법/외래어표기법에 의거한 단어 표기

- 국어사전은 대체로 한글맞춤법과 외래어표기법에 의거하여 단어를 표기하고 있음

- 전문용어사전이나 백과사전 등은 표기법을 제대로 지키지 못하는 실정

- 예전의 국어사전은 표기법을 등한시한 경향이 있었음

사용자의 표기 오류 문제 해결 및 순화어 이용- 오용어를 사용하는 경우가 많음 : 오용어는 개별 관리하여 오용어 사전 구축

데이터베이스 데이타베이스, 기다랗다 길다랗다, 센터 센타……- 대체로 순화어를 사용하고, 동의어 또는 유의어로 처리

휴대전화 휴대폰/핸드폰, 가락국수 우동, 포도주 와인……

원어 정보 표기

- 한자 정보 표기 : 극장(劇場), 자동차(自動車)……

- 외래어에 대한 원어 정보 표기 : 샹숑(chanson), 오페라(opera), 스키마라톤(ski marathon)….

- 외래어의 경우 원어 국가 정보 표현 : 우동(udon[饂飩])[일본어]……

KRISTAL 2006KRISTAL 2006

20/47

UU--WIN WIN 동형이의어동형이의어//다의어다의어 처리처리

단어와 뜻풀이의 관계를 1:n이 아닌 1:1 관계로 설정

● 한 단어가 가지는 다의적 특성으로 인한 의미적 부담감 해소

● 의미적 계층 구조의 세밀성

● 동의/유의/반의관계 설정에 용이 ……

동형이의어 처리

● 국어사전의 어깨번호

● 의미태그로 활용

● 표준 의미태그 필요

사람[표준국어대사전] ① 생각을 하고 언어를 사용하며, 도구를 만들어 쓰고 사회를

이루어 사는 동물

② 어떤 지역이나 시기에 태어나거나 살고 있거나 살았던 자

③ 일정한 자격이나 품격 등을 갖춘 이

④ 사람의 됨됨이나 성질

⑤ 상대편에게 자기 자신을 엄연한 인격체로서 가리키는 말

⑥ 친근한 상대편을 가리키거나 부를 때 사용하는 말

⑦ 자기 외의 남을 막연하게 이르는 말

⑧ 뛰어난 인재나 인물

⑨ 어떤 일을 시키거나 심부름을 할 일꾼이나 인원

⑩ (수량을 나타내는 말 뒤에 쓰여) ①을 세는 단위

⑪ {법률} 권리와 의무의 주체인 인격자

생물

동물

사람①

성질

됨됨이

사람④

일꾼 사람③ 사람② 인물

인재

사람⑧

사람⑨

KRISTAL 2006KRISTAL 2006

21/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(1/15)(1/15)• U-WIN의 어휘 내적 정보

식별자(identifier; ID) : 각 어휘가 가지는 식별자 (다의어 정보 포함 식별자)어휘소(lexme) : 어휘의 형태

의미표지(sense tag) : 동형이의어 정보 (다의어 포함)일차분석 어휘소(analyzed lexme) : 일차적 형태소 분석 결과 및 띄어쓰기 정보

뜻풀이(definition) : 어휘의 뜻풀이 정보

품사(parts-of-speech) : 어휘의 품사 정보

한자(chinese character) : 어휘의 한자 정보

원어(original) : 외래어의 원어 정보

대역(translation) : 어휘의 대역 정보

전문분야(domain) : 전문용어 분야 정보

용례(example) : 어휘의 용례

출처(source) : 어휘 출처 정보

KRISTAL 2006KRISTAL 2006

22/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(2/15)(2/15)• 어휘 관계의 방향성

– 어휘들 간의 관계가 단방향(simplex)인가 양방향(duplex)인가를 설정

– 단방향 어휘관계, 양방향 어휘관계, 양방향성 어휘관계(역방향 어휘관계)

사철

사계절

사계 사서

사시

사시절사절

사부

여름

가을

겨울

동의관계동의관계

유의관계유의관계 부분

전체

관계

부분

전체

관계

계절

상의관계상의관계하의관계하의관계

상의관계상의관계

하의관계하의관계

KRISTAL 2006KRISTAL 2006

23/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(3/15)(3/15)• U-WIN의 의미 관계와 개념 관계(1/2)

– 어휘의미론의 의미관계(semantic relation) 이용• 어휘의미론에서 다루는 일반적인 의미 관계를 사용• 상하관계, 동의관계, 유의관계, 부분-전체관계……• 문장의 표면 구조(surface structure)를 중심으로 분석

– 어휘의 계열(paradigmatic)/통합(syntagmatic) 관계 이용– 필요에 따라 심층 구조(deep structure) 분석

• 시소러스에서도 의미관계를 이용하는 듯하지만, 실질 구축 데이터를살펴보면 언어학적인 의미관계와는 다소 거리가 있고, 어휘 부류 집합에 가까운 듯함

– 시소러스 개발 지침(국제) : ISO 2788, ISO 5964– 시소러스 개발 지침(한국데이터베이스진흥센터, 2000)

– 개념관계(conceptual relation) 이용• 의미관계의 세부적이자 확장적인 의미적 속성을 이용• 기본 개념관계과 확장적 개념관계로 분리하여 일반적인 개념관계와

도메인 중심적인 개념관계를 설정• has_member, has_element, producer_of……

KRISTAL 2006KRISTAL 2006

24/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(4/15)(4/15)• U-WIN의 의미 관계와 개념 관계(2/2)

기본 의미 관계 기본 개념 관계

확장적 개념 관계

• 상하관계(Subclass_Of)

• 동의관계(Csynonym_Of)

• 유의관계(Psynonym_Of)

• 부분_전체관계(Part_Of)

• 반의관계(Antonym_Of)

• 관련어(Related_To)

• 포함관계(Contains)• 재료관계(Matrial_Of)• 인솔관계(Headed_By)• 운용관계(Operated_By)• 제어관계(Controls)• 소유관계(Owner_Of)• 표현관계(Presentation)• 상징관계(Symbol_Of)• 이름관계(Name_Of)• 생산관계(Producer_Of)• 구성원관계(Has_Member)• 구성요소관계(Has_Element)

• 발명관계(Inventor_Of)• 측정관계(Measured_In)• 분류관계(Kind_Of)

연락관계(Communication), 발견물관계(Discovery), 위치관계(Location), 관리관계(Management), 성질관계(Property), 발표/출판관계(Publication), 연구관계(Research), 이론/학설관계(Theory), 활성화관계(Activation), 분포관계(Distribution), 기능관계(Function), 사례관계(Example), 증상관계(Symptom), 반응물질관계(Reactant), 현상관계(Phenomenon)……

Domain의 특성에 따라 관계 확장

KRISTAL 2006KRISTAL 2006

25/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(5/15)(5/15)• 의미 관계 – 동의/유의/반의

– 일반적인 어휘망의 기본 어휘 관계와는 다르게 한국어의 특징 학습 및 활용적 측면을 강화할 수 있는 어휘 관계를 설정

– 동의/유의/반의관계의 세밀화

동의관계

일반동의관계(양)

순화어관계(단)

오용어관계(단)

방언관계(단)

북한어관계(단)

옛말관계(단)

준말본말관계(양)

유의관계

일반유의관계(양)

거센말관계(단)

여린말관계(단)

높임말관계(단)

낮춤말관계(단)

은어관계(단)

전문유의관계(단)

전칭관계(단)

반의관계

상보반의관계(양)

정도반의관계(양)

방향반의관계(양)

KRISTAL 2006KRISTAL 2006

26/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(6/15)(6/15)• 의미 관계 – 상하관계(1/5)

– 용례 기반의 인식 구조 및 특정 관련성에 의해 수집된 부류의 집합 구조형태의 ‘의미 분류적 구조’에서 탈피하여, 엄밀한 의미에서의 상하관계를중심으로 층위를 형성한 어휘 집합체를 ‘계층적 구조’로 설정

– 기존의 어휘 분류 및 시소러스의 분류적 구조(classified structure) 체계

• 어떠한 기준 및 관련성에 의해 나누어진 부류(class)들의 집합체

• 부류의 상하 구조를 간단하게 부류의 깊이(depth)를 보여 주거나 언어학적 계층(어휘장/낱말밭의 형식)을 형성시킬 수 있는 구조로 판단

K-시소러스(지식공학) 사전 어휘 분류(국립국어원) 한국역사용어시소러스(국사편찬위원회)

KRISTAL 2006KRISTAL 2006

27/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(7/15)(7/15)• 의미 관계 – 상하관계(2/5)

– 엄밀한 의미에서의 계층 구조 (어휘의미론적 입장)• 한국어의 인지 체계에 맞는 개념화 과정에 대한 인식

• 분류적 구조와 계층적 구조의 구분, 계열관계와 통합관계의 이용

• 상하위 층위(또는 노드)가 의미적으로 밀접한 연관성을 가짐과 동시에 엄밀한 의미에서의 상하관계가 형성되고, 보편적인 개념화(추상화) 과정으로 인식되는 구조로 판단

영희 생일에 자동차를 선물했다.

현대자동차에서 새로운 자동차를 개발하였다.

기아자동차 대리점에서 자동차를 샀다.

대전에서 고속버스(자동차)를 타고 갔다.

모터쇼에는 신기한 자동차가 많다.

선 물 모 델 교통수단상 품 생산품

<분류적 구조>

장 치

기 계

자동차

승용자동차 화물자동차

KRISTAL 2006KRISTAL 2006

28/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(8/15)(8/15)• 의미 관계 – 상하관계(3/5)

• 사전을 기반으로 하는 만큼 사전에 등재되어 있는 어휘를 사용

• 의미적으로 명확하게 인지되는 어휘를 사용

• 형태적으로 사람들이 자주 사용하고 인식하는 어휘 사용

• 다른 최상위어와의 개념적 중복성이 적어야 함

• 하위어의 구성을 고려하여 선택

최상위어 설정

• 어휘의미론의 상하관계 이론만으로는 어려움• ‘전체 어휘가 상하관계로 연결될 수 있는가?’ 의문 해결

• 모든 어휘가 상하관계로 연결될 수 있을 것이라는 전제

• 상하관계 처리를 위한 준비 작업• 개념화의 원리 파악

• 용례 기반의 인식 구조 탈피

• 어휘의 계열 관계와 통합 관계 파악

• 상하관계 기본 원칙 확립

상하관계 원리

KRISTAL 2006KRISTAL 2006

29/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(9/15)(9/15)• 의미 관계 – 상하관계(4/5)

① IS_A, Kind_Of 관계만을 상하관계로 설정한다

② Top_Down/Bottom_Up 방식 모두를 이용한다.

③ 상하관계는 어휘의 본질적 의미를 통해 연결된다.

④ 상하관계 검증 방법을 적절하게 이용한다.

⑤ 하위어의 정보를 상위어가 가지도록 한다.

⑥ 하위어는 상위어의 속성을 상속 받는다.(단 제약조건이 있을 수 있다)

⑦ 먼저 어휘의 형태적 측면(한자, 형태소 분석 정보)을 통해 상위어를 검토하고, 다음으로 각종사전의 뜻풀이를 통해 상위어를 검토하고, 마지막으로 말뭉치와 각종 문서를 통해 용례를검토한다. 이들은 모두 단계적으로 분석되어야 할 대상이다.

⑧ 전문용어의 경우, 전문용어의 특수성을 고려하여 분야별 전문용어 분류 체계를 최대한반영한다. 단 여러 분류 체계가 있을 경우 일반적으로 인식하는 분류 체계를 따른다.

⑨ 동의관계와 유의관계 중 양방향 어휘 관계를 제외한 나머지 관계는 상하관계에 포함시킨다.

⑩ 계층성을 가지는 용언어휘망과 부사어휘망은 별도의 원칙을 설정한다.

상하관계의 기본 원칙

KRISTAL 2006KRISTAL 2006

30/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(10/15)(10/15)• 의미 관계 – 상하관계(5/5)

사전 뜻풀이에서 추출 가능한 정보

상하관계 설정을 위한 상위어 정보

예) 승합차 : 많은 사람을 태울 수 있는 대형 자동차

상하관계를 결정할 수 있는 의미 정보(의미 자질)

예) 사람 : 생각을 하고 언어를 사용하며, 도구를 만들어 쓰고 사회를 이루어 사는 동물.

인물 : 생김새나 됨됨이로 본 사람 / 일정한 상황에서 어떤 역할을 하는 사람 / 뛰어난

사람

전문용어사전의 경우

전문분야의 특수성, 전문성이 가미되고 있음

예) 무역업 : 상품의 매매 활동 중에서 국경을 넘어서 하는 거래, 즉 수출입을 담당하는산업의 한 분야(백과사전) // 나라와 나라 사이에 물건을 사고파는 사업(표준국어)

말뭉치 및 사전 뜻풀이에서의 정보 추출

KRISTAL 2006KRISTAL 2006

31/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(11/15)(11/15)• 의미 관계 – 부분전체관계

– 어휘의 형태적 측면을 고려한 관계 설정을 우선시하고, 특정 물건이나 기관 등의 세밀한 부분전체관계는 개념관계에서 설정

– 아래와 같은 세 종류의 경우에만 현재 부분전체관계로 설정

• 특정 어휘 개수를 표현한 어휘사육신(死六臣), 십계(十界), 십이지(十二支), 이십사절기(二十四節氣)...

• 한자합성어 중 의미 파생이 없는 어휘

춘추(春秋), 하동(夏冬), 가관(歌管), 승패(勝敗)...

• 한글합성어 중 의미 파생이 없는 어휘

봄여름, 봄가을...

KRISTAL 2006KRISTAL 2006

32/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(12/15)(12/15)• 개념 관계

– 의미 관계의 세부적이자 확장적인 의미적 속성을 이용한 관계

– 기본 개념 관계와 확장적(특정 분야) 개념관계로 분리

– 어휘망 전체의 공통적인 어휘 관계라기보다는, 어떠한 공통적인특징을 가진 특정 어휘(노드) 집합이나 특정 분야와 관련된 어휘집에서 발생되는 어휘 관계

KRISTAL 2006KRISTAL 2006

33/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(13/15)(13/15)• 형태 관계와 구문 관계

– 형태 관계

• 어근관계 : 용언의 어근(어간 제외)과의 연결

• 파생사례관계 : 접두사와 접미사가 사용된 어휘와의 연결

• 서술성명사관계 : 서술성명사가 사용된 용언과의 연결

– 구문 관계

• 술주관계 : 서술어와 주어(명사, 대명사, 수사)의 역할을 담당하는 어휘를 연결 (용례 중심)

• 술목관계 : 서술어와 목적어의 역할을 담당하는 어휘를 연결 (용례 중심)

• 술부관계 : 부사어를 요구하는 서술어와 부사어 역할(부사/체언)을 담당하는 어휘를 연결 (용례 중심)

• 본용언관계 : 보조용언을 중심으로 한 본용언과의 연결 (용례 중심)• 사동관계 : 특정 용언의 사동 어휘

• 피동관계 : 특정 용언의 피동 어휘

KRISTAL 2006KRISTAL 2006

34/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(14/15)(14/15)• 의미 정보

– 언어처리적 관점의 의미 정보

• 실마리 어휘(clue word)를 고려하여

①문장 내에서 특정 어휘의 의미를 이해하는 데 중요한 역할을 하는 어휘

②국어사전에 등재되어 있는 표제어를 이해할 수 있도록 하는 뜻풀이 내 어휘

③문서나 문장에서 특정 어휘와 공기 빈도가 높은 어휘

④의미 정보의 확장을 위한 순환 뜻풀이망…

– 언어학적 관점의 의미 정보

• 특정 어휘와 관련된 정보

• 시대적 속성

• 관련어 정보

• 의미 자질

• …

KRISTAL 2006KRISTAL 2006

35/47

UU--WIN WIN 어휘어휘 관계관계 및및 의미의미 정보정보(15/15)(15/15)• 확장 정보

– 기존 시소러스와 어휘 분류를 비롯하여 분야별 표준분류체계와 유기적 구조를 가지고 있음

– U-WIN의 추가 어휘 개념 생성 및 개념적 확장성을 확보할 수 있을뿐만 아니라 통합 개념 체계를 형성할 수 있을 것으로 기대

– 현재까지 U-WIN과 연결된 확장 정보

• 표준분류체계 : 국제상품분류체계, 국제상품서비스분류체계, 도서관분류, 직물표준분류, 특허분류, 국제무역분류….

• 어휘분류/시소러스/온톨로지 : 한일영 분류사전, 의학분야 시소러스, MeSH, 면역학시소러스/온톨로지, 상품온톨로지…

• 기타 : 백과사전 분류체계, 웹 디렉토리…• IT,전기/전자, 통신 분야 전문용어 일부

KRISTAL 2006KRISTAL 2006

36/47

[[참고참고] ] 확장정보확장정보

국제상품분류체계(UNSPSC) KRF&KOSEF 연구분야분류체계 KRF 학문분야분류체계

U-WIN

U-WIN을 통한 표준분류체계의 국가분류체계 관리의 원활한 개념 교환 및통합 분류 관리 네트워크 체계 확립

공문서분류, 과학기술분류, 국제상품서비스분류, 도서관분류, 상품분류, 직물표준분류, 특허분류, 국제무역분류, 표준산업분류, 표준직업분류, 행정구역분류, 표준질병_사인분류, 표준의료행위분류……

KRISTAL 2006KRISTAL 2006

37/47

먹다

들다 잡수다 자시다간식하다 얻어먹다 맛보다

상하관계상하관계

묵다

동의관계동의관계먹이다

먹히다

사동관계사동관계

피동관계피동관계

먹이

모이

물질

가루모이

액체

날밥

보약

음료수

술목관계술목관계

물건

먹을거리

밥높임말관계높임말관계방언관계방언관계

술목관계술목관계 확장확장 가능가능 영역영역

빌어먹다

+행위성 +대상성 +생물성

음식

식선 찬선

음식물

동의관계동의관계

반식

음식

동의관계동의관계

+구체성 +형상성UU--WINWIN의의 용언어휘망용언어휘망 UU--WINWIN의의 명사어휘망명사어휘망

가루붙이

붙이_021 붙이_022

먹거리오용어오용어

사례관계사례관계

단위

언어단위

접사

접미사접두사

쇠붙이

고기붙이

금붙이

사례관계사례관계

살붙이

피붙이

겨레붙이

사례관계사례관계

음석맛

차반

어근

방언관계방언관계옛말관계옛말관계

마시다

간식서술성명사관계서술성명사관계Constraint : Constraint : 통사관계제약통사관계제약

맹랑

맹랑하다

깜찍하다

귀엽다

깜찍

좋다

어근관계어근관계어근관계어근관계 아주

매우

정도부사

둏다

둏다

부사

품사

UU--WINWIN의의 부사어휘망부사어휘망

몹시

술부관계술부관계

방언관계방언관계

옛말관계옛말관계

KRISTAL 2006KRISTAL 2006

38/47

상하관계를상하관계를 중심으로중심으로 한한 분포분포U-WIN 분포도

10

5,000

10,000

15,000

2,0000

25,000

30,000

2 3 4 5 6 7 8 9

35

2,355

11,271

30,201

39,40438,614

29,271

18,147

9,430

Depth

노드수

35,000

10 11 12 13 14

5,622

1,240 459 186 49

40,000

KRISTAL 2006KRISTAL 2006

39/47

UU--WIN WIN 기반기반 활용활용 기술기술 사례사례 (1/6)(1/6)• 복합 명사 생성 기술

– 의미 있는 복합 명사, 명사구 등을 U-WIN을 통해 자동 생성

– 구문패턴 정보를 탑재하여 기초적인 복합 명사의 뜻풀이 자동 생성

– N1류, N2류 명사 개별 확장 기능 및 용례 검색 기능

KRISTAL 2006KRISTAL 2006

40/47

UU--WIN WIN 기반기반 활용활용 기술기술 사례사례 (2/6)(2/6)• 전문 분야별 개념 체계 자동 생성 기술

– 특정 전문 분야에 대한 개념 체계 자동 생성

– 연관 분야에 대한 복합적 개념 체계 자동 생성

KRISTAL 2006KRISTAL 2006

41/47

UU--WIN WIN 기반기반 활용활용 기술기술 사례사례 (3/6)(3/6)• 속성 자동 추출 및 선택 제약 사전 구축

– 명사 및 용언에 대한 구문적·의미적 속성 정보 자동 추출

– 선택 제약 사전 구축 기능 및 관련 용어 Grouping & Clustering 기능

KRISTAL 2006KRISTAL 2006

42/47

UU--WIN WIN 기반기반 활용활용 기술기술 사례사례 (4/6)(4/6)• 어휘 학습 및 교육에서의 활용

– 개념어 습득을 위한 질의응답시스템

– 사전 기능, 암기장, 자동 문제 생성을 결합시킨 어휘 습득/학습 프로그램

암기장

대문

학교

자동차

사랑

문제생성

(문제) 일정한 목적, 교육, 과정, 설비 및 제도및 법규에 의하여 교사가 계속적으로학생에게 교육을 실시하는 기관을 무엇이라하는가?

□학교 □ 학원 □ 교육청 □교육인적자원부

1차 질의 : 하늘을 나는 것은?

1차 응답 제시 : 비행기, 새…

개념어 선택 (예, 비행기)

확장 질의 : 화물을 옮기는 비행기는?

응답 제시 : 화물기…

확장 질의 : 비행기 중 제일 빠른 것은?

응답 제시 : 제트기…

KRISTAL 2006KRISTAL 2006

43/47

UU--WIN WIN 기반기반 활용활용 기술기술 사례사례 (5/6)(5/6)• 정보검색에서의 의미적 질의 확장

KRISTAL 2006KRISTAL 2006

44/47

UU--WIN WIN 기반기반 활용활용 기술기술 사례사례 (6/6)(6/6)• 동형이의어 분별 시스템

KRISTAL 2006KRISTAL 2006

45/47

맺맺 음음 말말

KRISTAL 2006KRISTAL 2006

46/47

1

2

3

4

5

지속적인 공개를 통한 학계의 연구 발전 및 교류 확대

이론과 실제를 통한 대규모 어휘지능망 구축

각 분야별 핵심 연구 기반 기술로 자리매김

정부기관, 학회, 기업 차원의 적극적/장기적 지원 필요

정기적인 연구회 및 학술대회, 워크숍, 세미나 개최

한국형 어휘지능망 구축을 통한 국제경쟁력 확보, 학문적 교류의 장 마련……

언어학, 언어교육, 언어정보산업, 시맨틱 웹, KMS, 상위/core 온톨로지……

KIPONTO 워크숍(4회 개최), 연 4회 정도의 공동 모임, 실질적 연구회 결성…지식정보처리와 온톨로지 연구그룹

장시간의 구축 문제 및 인력 문제를 논할 것이 아니라 세밀한 작업을 위한 체계에 치중

연구자 지원 및 교류, 언어자원의 체계적 구축 기반 확립, 필수적 인식 확립…

KRISTAL 2006KRISTAL 2006

47/47

감사합니다울산광역시 남구 무거2동 산29

울산대학교 7호관 324-1호 한국어처리연구실

http://nlplab.ulsan.ac.kr & http://nlplab.ulsan.ac.kr/kiponto