2014 년 가을학기 강원대학교 컴퓨터과학전공 문양세

2014 년 가을학기강원대학교 컴퓨터과학전공 문양세

데이터 (Data)

Data Mining & Practicesby Yang-Sae Moon

강의 내용데이터 (Data)

데이터 타입

데이터 품질

데이터 전처리

유사도와 거리


데이터란 무엇인가 ?

데이터 집합이란 ?

속성들 (attributes) 로 구성된 데이터 객체들 (data objects) 의 모임

(Collection of data objects and their attributes)

• 객체는 레코드 , 점 , 엔티티 , 인스턴스 등으로 불리기도 함

• 속성은 변수 (variable), 필드 , 특성 , 특징 등으로

불리기도 함

속성이란 ?

어떤 객체의 성질 / 특징 (property or

characteristic) 을 나타냄• 속성의 예 : 사람의 경우 이름 , 눈 색깔 등 ,

나라의 경우 언어 , 종교 , 평균 기온 등

데이터 (Data)

Tid Refund Marital Status

Taxable Income Cheat

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

Attributes

Objects


속성 값 (Attribute Values)

속성 값은 속성에 부여되는 수치나 심볼을 의미함

(Attribute values are numbers or symbols assigned to an at-

tribute.)

속성 vs. 속성 값 ?

• 동일한 속성이라 할지라도 다른 속성 값이 부여될 수 있다 .

예제 : 키 (height) 는 미터 (meter) 혹은 피트 (feet) 로 측정될 수 있다 .

• 다른 속성이라 할지라도 같은 속성 값이 부여될 수 있다 .

예제 : 학번 (ID) 과 나이는 모두 정수 값을 가진다 .

그러나 , 속성의 특징 (property) 은 다를 수 있다 .

예를 들어 , ID 는 8 자리 정수이고 ,

나이는 0 이상 200 이하 등의 제한이 있을 수 있다 .

데이터 (Data)


속성의 타입 (Types of Attributes)

범주적 ( 정성적 ) 속성 (categorical attributes)

• 명목형 ( 이름형 , nominal): 상이한 이름들을 나타내며 , 객체를 구분하는데 사용한다 .

예 : 학번 , 눈동자 색깔 , 우편번호

• 서열형 ( 순서형 , ordinal): 객체의 순서를 부여할 수 있다 .

예 : 광석의 경도 , 수박의 등급 , 도로 번호

수치적 ( 정량적 ) 속성 (numerical attributes)

• 구간 (interval): 속성 값들간의 차이가 의미가 있으며 , 측정의 단위가 존재한다 .

예 : 달력의 날짜 , 섭씨 및 화씨

( 기준 온도 대비 상대적 온도 )

• 비율 (ratio): 속성 값들간의 차이와 비율

모두가 의미가 있다 .

예 : 길이 , 시간 , 카운트 , 절대온도

데이터 (Data)


속성 값의 특징 (Properties)

속성의 특징을 기술하기 위한 성질• 구분 (distinctness): , ( )

• 순서 (order): , , ,

• 덧셈 (addition): ,

• 곱셈 (multiplication): ,

상기 성질에 의한 속성 값들의 특징 • 명목형 (nominal): 구분

• 순서형 (ordinal): 구분 , 순서

• 범위 (interval): 구분 , 순서 , 덧셈

• 비율 (ratio): 구분 , 순서 , 덧셈 , 곱셈

데이터 (Data)


이산 및 연속 속성

이산 속성 (Discrete Attribute)

• 셀 수 있는 값들의 유한 또는 무한 집합

• 예 : 우편번호 , 카운트 , 문서 집합에 포함된 단어들의 집합

• 주로 정수 변수로 표현함

• 이진 속성 (binary attribute) 은 이산 속성의 특수한 형태임

연속 속성 (Continuous Attribute)

• 속성 값으로 실수를 가짐

• 예 : 온도 , 키 , 무게

• 연속 속성은 일반적으로 부동소숫점

변수로 표현됨 ( 그러나 , 엄밀하게 말해서

부동소수점 변수도 이산 속성임 )

데이터 (Data)


데이터 집합의 타입 (Types of Data Sets)

레코드 기반 데이터• 데이터 행렬 (Data Matrix)

• 문서 데이터 (Document Data)

• 트랜잭션 데이터 (Transaction Data)

그래프 기반 데이터• World Wide Web

• Molecular Structures

서열형 데이터 (Ordered Data)

• 공간 데이터 (Spatial Data)

• 시간 데이터 (Temporal Data)

• 순차 데이터 (Sequential Data)

• 유전자 시퀀스 데이터 (Genetic Sequence Data)

데이터 (Data)


데이터 집합의 일반적 특징

차원 (Dimensionality)

• 객체 ( 레코드 ) 를 구성하는 속성의 수이다 .

• 고차원인 경우 차원의 저주 (curse of dimensionality) 문제를 일으키며 ,

이의 해결을 위해 차원 감소 (dimensionality reduction) 를 사용한다 .

희소성 (Sparsity)

• 객체 대부분이 0 인 값을 갖는 경우를 말한다 .

• 주로 1% 이내만 0 이 아닌 값을 가지면 희소 (sparse) 하다 말한다 .

• 카운트 등을 사용하여 데이터를 표현한다 .

해상도 (Resolution)

• 패턴은 스케일 (scale), 즉 해상도에 따라 달라질 수 있다 .

• 예 : 지구 표면은 미터 단위로 표현하면 평평하지 않으나 , 수십 Km 단위로 표현하면

상대적으로 매우 매끈하다 .

데이터 (Data)


레코드 데이터

레코드들의 모임으로 구성된 데이터를 의미하며 , 각 레코드는 고정된

수의 속성들로 구성되어 있다 . (Data that consists of a collection of

records, each of which consists of a fixed set of attributes.)

데이터 (Data)


데이터 행렬 (Data Matrix)

고정된 수의 수치 속성들로 구성된 경우 , 하나의 객체 ( 레코드 ) 는

다차원 공간의 하나의 점으로 볼 수 있다 .

이 같은 데이터는 m x n 행렬로 표현되며 , m 개의 행 (row) 은 각각

객체를 , n 개의 열 (column) 은 각각 속성을 나타낸다 .

데이터 (Data)


문서 데이터 (Document Data)

각 문서는 용어 벡터 (term vector) 로 표현할 수 있다 .

• 각 용어는 벡터의 컴포넌트 ( 혹은 속성 ) 에 해당한다 .

• 각 컴포넌트의 값은 해당 용어가 문서에 몇 번 나타났는지의 숫자에 해당한다 .

데이터 (Data)


트랜잭션 데이터 (Transaction Data)

특별한 타입의 레코드로서 , 각 레코드 ( 트랜잭션 ) 는 아이템들의

집합이다 .

• 연관규칙 분석에서는 장바구니 데이터 (market basket data) 로 불린다 .

• 예 : 식품점에서 한 명의 고객이 한 번에 구매한 제품들의 목록

데이터 (Data)


그래프 데이터 (Graph Data) (1/3)

Graph G = (V, E)

• V = 정점 ( 노드 ) 의 집합 (set of vertices, set of nodes)

• E = 에지 ( 아크 , 링크 ) 의 집합 (set of edges, set of arcs, set of links)

데이터 (Data)



HTML 문서 집합 그래프 표현 가능

데이터 (Data)



화합물 데이터 (Chemical

Data)

데이터 (Data)

소셜 네트워크 데이터


서열 ( 순서 ) 데이터 (Ordered Data) (1/4)

트랜잭션들의 시퀀스 (sequences of transactions)

데이터 (Data)



유전자 시퀀스 (genome sequences)

데이터 (Data)



시계열 데이터 (time-series data)

데이터 (Data)



시공간 데이터 (Spatio-Temporal Data)

데이터 (Data)



데이터 타입

데이터 품질

데이터 전처리

유사도와 거리


데이터 품질 문제

노이즈 (noise)

이상치 (outliers)

누락 값 (missing values)

중복 데이터 (duplicate data)

데이터 (Data)


노이즈 ( 잡음 )

노이즈는 원본 값을 변경시키는 것을 의미한다 .

(Noise refers to modification of original values.)

노이즈 예 : 음성의 왜곡 , TV 스크린의 흔들림

데이터 (Data)


이상치 (Outliers)

데이터 집합 내의 다른 객체들과는 ( 상당히 , considerably) 다른

특징을 갖는 객체를 의미한다 .

데이터 (Data)


누락 값 (Missing Values)

누락 값이 발생하는 원인• 정보 수집이 이뤄지지 않음 ( 예 : 신체 검사에서 어떤 사람이 몸무게 측정을 거부함 )

• 일부 속성이 모든 경우에 적용되지 않음 ( 예 : 연소득 속성은 아이들에게 적용되지 못

함 )

누락 값의 처리• 해당 데이터 객체를 제거한다 .

• 누락 값을 추정한다 .

( 회귀분석 등을 통해 값을 추정하여 이용한다 .)

• 분석 과정에서 누락 값은 무시한다 .

• 모든 가능한 값으로 대치한다 .

데이터 (Data)


중복 데이터 (Duplicate Data)

데이터 집합은 중복되거나 거의 중복된 데이터 객체를 포함할 수 있다 .(Data set may include data objects that are duplicates, or almost duplicates of one

another.)

• 특히 , 이종의 출처 (heterogeneous sources) 로 부터 데이터를 수집할 때 주로

발생하는 이슈이다 .

• 예 : 한 사람이 복수의 이메일 주소를 가지는 경우

데이터 정제 (data cleaning)

• 중복 데이터 문제를 다루는 과정을 의미한다 .

데이터 (Data)



데이터 타입

데이터 품질

데이터 전처리

유사도와 거리


데이터 전처리 (Data Preprocessing) 의 종류

집계 (aggregation)

샘플링 (sampling)

차원 축소 (dimensionality reduction)

특징 선택 vs. 특징 추출 (feature selection vs. feature extraction)

...

데이터 (Data)


집계 (Aggregation) (1/2)

두 개 이상의 속성들을 하나의 속성으로 ( 혹은 두 개 이상의 객체들을

하나의 객체로 ) 통합함 (combining)

집계의 종류 : 합계 , 평균 , 최대값 , 최소값 등

집계의 목적• 데이터 축소 (data reduction): 속성 혹은 객체의

수를 줄인다 .

• 스케일 변화 : 작은 스케일을 큰 스케일로 변경한다 .

( 예 : 동 단위 데이터를 시 단위 데이터로 다시 도 단위 데이터로 집계함 )

• 보다 “안정된” 데이터를 만듦 : 집계된 데이터는 변동성이 보다 작다 .

( 예 : 매월 치르는 모의고사 성적보다 , 이들을 평균한 성적이 보다 변동성이 작다 .)

데이터 (Data)


집계 (Aggregation) (2/2)

호주의 평균 월별 / 연별 강수량 예제• 아례 사례는 1982-1983 년 호주 평균 월별 / 연별 강수량에 대한 표준편차

히스토그램이다 .

• 평균 연별 강수량은 평균 월별 강수량 보다 적은 가변성을 보인다 .

데이터 (Data)


샘플링 (Sampling)

샘플링은 전체 데이터 중 일부만을 선택하는 주요 기술이다 .

• 샘플링은 사전 조사 (preliminary investigation) 에서 사용되기도 하고 ,

실제 최종 데이터 분석에 사용되기도 한다 .

통계학자들은 전체 데이터 분석이 너무 고비용에 시간이 오래 걸리기

때문에 샘플링을 사용해 왔다 .

데이터 마이닝에서 샘플링이 종종 사용되는 이유 역시 전체 데이터를

처리하는 것이 너무 고비용에 많은 시간이 걸리기 때문이다 .

효과적인 샘플링이란 ?

“ 샘플을 사용한 경우와 전체

데이터를 사용한 경우가 거의

동일한 결과를 얻어야 한다”

데이터 (Data)


샘플링의 종류

랜덤 샘플링• 특정 아이템이 선택될 확률이 모두 동일하다 .

• 무대체 샘플링 (sampling without replacement)

• 대체 샘플링 (sampling with replacement) 동일 아이템이 중복 선택될 수 있음

층화 샘플링 (Stratified Sampling)

• 희귀 클래스들이 존재하는 경우 , 이 클래스의

아이템들을 포함하도록 샘플링해야 한다 .

• (1) 데이터를 몇 개의 파티션으로 분해한 후 ,

(2) 각 파티션에서 랜덤 샘플링을 수행한다 .

데이터 (Data)


차원의 저주 (Curse of Dimensional-ity)

차원이 증가할수록 데이터가 급격하게 희소하게 분포한다 .

기존 인덱스가 잘 동작하지 않으며 , 마이닝 결과가 부정확해 진다 .

차원 축소 (Dimensionality Reduction)

• 목적

고차원 저차원 변환을 통해 , 차원의 저주를 피한다 .

데이터 마이닝을 수행하는데 있어서의 메모리 양 및 수행 시간을 줄인다 .

경우에 따라서 , 무관한 데이터를 제거하거나 노이즈를

제거할 수 있다 .

• 주요 기술

Principle Component Analysis (PCA)

Singular Value Decomposition (SVD)

Discrete Fourier Transform (DFT)

데이터 (Data)


특성 선택과 특성 추출

특성 선택 (Feature Selection)

• 전체 속성 중에서 몇 개의 대표적 속성만을 선택하여 차원을 축소한다 .

• 축소 과정이 매우 간단하나 ,

대표 속성이 객체 전체를 잘 반영해야만 차원 축소의 성능이 좋다 .

특성 추출 (Feature Extraction)

• 전체 속성 값들을 변환하여 몇 개의 새로운 속성을 생성함으로써 차원을 축소한다 .

• 축소 과정이 다소 복잡하나 ,

새롭게 생성된 속성이 전체 속성 값들을 잘 반영하는 특징을 가진다 .

데이터 (Data)



데이터 타입

데이터 품질

데이터 전처리

유사도와 거리


유사도와 비유사도

유사도 (Similarity)

• 두 객체가 얼마나 닮았는지를 나타내는 수치 ( 측정 ) 값

• 두 객체의 닮은 정도가 높을수록 높은 유사도를 가짐

비유사도 (Dissimilarity)

• 두 객체가 얼마나 다른지를 나타내는 수치 ( 측정 ) 값

• 두 객체의 닮은 정도가 높을수록 낮은 비유사도를 가짐

데이터 (Data)


단순 속성에 대한 유사도 / 비유사도데이터 (Data)


유클리디안 (Euclidean) 거리

유클리디안 거리의 정의• n = number of dimensions (attributes)

• pk, qk = value of the k-th dimension

데이터 (Data)


Minkowski 거리 (1/2)

Minkowski 거리 ( 유클리디안 거리의 일반화 )

• n = number of dimensions (attributes)

• pk, qk = value of the k-th dimension

• r = 1 : Manhattan distance, city block distance, or Hamming distance

각 축으로 떨어진 정도를 합한 거리 ( 도심에서 도로를 이동할 때의 거리 )

• r = 2 : Euclidean distance

두 점 간의 직선 거리

• r = : Supremum distance

두 점의 최소값 / 최대값 사이의 거리

데이터 (Data)


Minkowski 거리 (2/2)데이터 (Data)


코사인 유사도 (Cosine Similarity)데이터 (Data)


상관관계 (Correlation)데이터 (Data)

상관관계는 두 객체간의 선형 관계 (linear relationship) 을 나타낸다 .

상관관계는 (1) 데이터를 정규화한 후 , (2) 내적으로 구한다 .


상관관계의 시각화데이터 (Data)



데이터 타입

데이터 품질

데이터 전처리

유사도와 거리

2014 년 가을학기 강원대학교 컴퓨터과학전공 문양세

Documents