b1220 0501 0452 1 2

정보통신기 기술연구과제

05-기 -051

웨이블릿 변환을 이용한 무제약 이미지상의 자 역 추출

응용(Character for extraction on a unconstrained image using wavelet transform and its

application)

2006. 6. 30.

주 연구기 : 조선 학교

정보통신기 기술연구과제

05-기 -051

웨이블릿 변환을 이용한 무제약 이미지상의 자 역 추출

응용(Character for extraction on a unconstrained image using wavelet transform and its

application)

2006. 6. 30.

주 연구기 : 조선 학교

연구책임자 : 조 범

제 출 문

정보통신부 장 귀하

본 보고서를『웨이블릿 변환을 이용한 무제약 이미지상

의 자 역 추출 응용』의 연구결과보고서로 제출합니다.

2006. 6. 30.

연 구 기 : 조선 학교

연구 책임자 : 조 범

참여 연구원 : 서 원 택

김 은

이 분

박 아 람

드

요 약 문

1. 제 목

웨이블릿 변환을 이용한 무제약 이미지상의 자 역 추출 응용

2. 연구의 목 요성

무제약 이미지 상의 자 역 추출 응용에 한 연구는 상 내의 문자들

이 이미지의 내용을 함축 이고 구체 으로 표 하는 요한 정보들이라는 에

착안한다. 이러한 상내의 문자 정보들을 실시간에 추출하여 인식한다면 시각장

애인을 한 보행안내 시스템, 지능 로 의 자동주행 등과 같은 분야에서 다양하

게 활용 될 수 있다.

지 까지 상에서의 문자 역 검출 문자 인식에 한 연구는 시작단계라

할 수 있으며, 알고리즘의 복잡성과 처리시간 그리고 검증 역의 오류로 인해 이

를 해결하기 한 지속 인 노력이 진행되고 있다.

본 연구는 무제약 이미지 상에서 자 역을 추출하는 방법으로 ⅰ) 이미지의

텍스처에 기반하여 웨이블릿 변환을 특징 추출자로 사용하며 ⅲ) 이미지에 따른

통계 특성을 고려하고 iii) 추출된 정보를 SVM(Support Vector Machines) 분류

기로 검증하여 최종 으로 역을 결정하는 연구에 을 두어 과제를 수행하고

자 한다.

3. 연구의 구성 범

본 연구는 무제약 이미지상에서 자 역을 검출하는 방법에 해서 연구하

다. 이미지로부터 자 역을 추출하기 해 웨이블릿 변환을 이용하 다. 웨이블

릿 변환은 이미지 정보를 이해하는 계층 인 분해 구조를 제공한다. 특징들은

16×16 블록의 웨이블릿 변환으로부터 추출된다. 자 역은 배경 역과 다른 텍

스처를 가진다. 상을 텍스처의 혼합으로 보며, 텍스처 신호에 지에 한 정보

를 얻을 수 있다면 텍스처에 기반한 특징추출이 가능하다 보고, 멀티 스 일에서

서로 다른 방향으로 상 텍스처를 성긴 데이터(sparse data)와 상세계수(detail

coefficient)로 표 한다. 본 논문에서는 상의 2D Haar 웨이블릿 변환을 사용하

여 멀티스 일과 여러방향의 필터링을 수행한다. 2D Haar 웨이블릿 필터들의 다

양한 결합으로 특징 역을 강조하며 텍스트 후보 역을 검출하고, 여기에 SVM을

사용하여 텍스트 역을 검증한다.

4. 연구내용 결과

제안된 이미지는 다양한 해상도로 간 , 도로, 학교 등의 실내외 환경에서 취득

한 자연이미지 간 이미지 신문과 잡지로부터 획득한 100개의 자연이미지

를 사용하 다. 비를 가진 상의 경우이거나 인식이 어려운 크기의 자

역은 추출이 어려우므로 본 연구에서는 16×16 크기 이상의 자 역만을 고려하

다. 배경의 복잡도에 따른 성능을 비교하기 해서 단순한 이미지와 복잡한 이

미지로 분류하여 실험하 으며, 성능평가를 하여 체 실험 상이미지에서의

찾은 자 역의 수를 나타내도록 하 으며, 다양한 종류의 이미지에 테스트한 결

과 단순이미지는 90%의 추출률을 얻었으나 복잡한 이미지에서는 88%의 추출률을

결과로 가졌다.

5. 정책 활용내용

무제약 이미지 상에서 텍스트 역 추출을 기반으로 한 실시간 문자 인식 시스

템이 가능하게 된다면 공서 일반 기업에서 업무 에 발생되는 서류 수

많은 자료를 데이터베이스화하여 손쉽게 데이터를 검색, 장, 분류가 가능하게

될 것이다. 한 디지털 카메라로 취득한 이미지나 동 상에 포함된 이미지 정보

들이 실시간에 추출하여 인식할 수 있다면 시각 장애인 보행 보조 시스템, 로

자동 주행 시스템, 비디오 자동 검색 색인 시스템, 텍스트 자동 번역 시스템

등 여러 산업 분야에 용 될 수 있을 것이다.

- 네비게이션 시스템을 한 거리간 인식

- 시각 장애인 보행 보조 시스템

- 카메라 내장 휴 폰 문자인식

- 로 자동 주행 시스템

- 비디오 자동 검색 색인 시스템

- 텍스트 자동 번역 시스템

- 자동차 번호 인식

- 교통표지 인식

6. 기 효과

교육 측면

패턴인식 로그램을 실생활에 응용

기술 측면

무제약 이미지상에서 텍스트 역 추출 기술 개발

문자인식 처리 기술력 향상

경제산업 측면

문자 인식 자동 응용서비스 산업 창출

인력과 비용 감축

SUMMARY

1. Title

Character for extraction on a unconstrained image using wavelet transform

and its application

2. Objective and Importance of Research

The study on the character areas extraction and application in unconstraint

images is inspired by the importance of the embedded text in images. They

are implicit and concrete information about their contents. We can provide

assistance to the visually impaired persons and contribute the automatic

walking robot.

Many studies on the text detection and character recognition have been

developed to reduce algorithm complexity, processing time and error of wrong

detection.

We proposed the method of character areas detection: ⅰ) using wavelet

transform as a feature extractor based on image texture, ⅱ) considering

statistical properties of image, ⅲ) classifying the image with SVM and then

verifying final areas.

3. Contents and Scope of the Research

We've researched the method of extraction characters area from many

images. In order to detect the embedded text from image, we've used wavelet

transform. Multi-resolution analysis, wavelet transform, offer a hierarchical

decomposing scheme for understanding image information. Features is extracted

with wavelet transform of 16×16 block size. character areas have different

texture from background areas. In this study, we considered image as mixture

of textures. If we get the texture signal, we can extract features based on

texture. Images are decomposed sparse data and detail coefficient in multi-scale

and multi-orientation. We filtered images into multi-resolution and multi-scale

subbands using 2D Haar wavelet transform. The subbands are fused to

emphasized the character areas and detect the character areas. Finally SVM

verify them whether character areas or not.

4. Research Results

We tested 100 images for experiment taken from indoor and outdoor. The

character areas was extracted in natural scene, signs, newspaper, journal

images. The research suffered from the low contrast and too big or small font

size character. We, therefore, considered area size larger than 16×16. To

compare the performance according to complexity, we classify the simple and

complicate images. The results of experiments show the extraction ratio more

than 90% in simple images but 88% in complicate images.

5. Policy Suggestions for Practical Use

This research was studied for many applications. Documents can be more

effectively represented by separating the character and graphic part and storing

the character as an ASCII set and the graphics part as bit-maps. This facilitates

efficient searching and storage of the text part in documents, required in large

databases.

― signs recognition for navigation system

― assistance system for visually impaired persons

― embedded character recognition system in mobile phone

― Robot automatic walking system

― Video retrieval and indexing system

― Car plate recognition

― Traffic signs recognition

6. Expectations

Educational expectation

The application of pattern recognition program in real world.

Technical expectation

The technique development for character area detection in unconstraint

images.

Economical expectation

The creation of automatic application service industry for character

recognition

The cut-off of labor and cost

목 차

제 1 장 서론 1

제 1 연구의 배경 1

제 2 국내외 환경 동향 1

1. 국내 동향 2

2. 국외 황 3

제 3 연구의 요성 4

제 4 연구의 목표 7

제 2 장 련 연구 8

제 1 텍스트 추출 연구 8

제 2 텍스트 역 추출 방법 11

1. 색 연속성을 이용한 추출 11

가. 색 임 11

나. 색병합 11

다. 후보 역 추출 12

2. 밝기 변화를 이용한 추출 13

가. 처리 14

나. 후보 역 추출 14

3. 색변화를 이용한 추출 16

가. 수평 수직 분산이미지 생성 16

나. AND 연산을 이용한 잡 제거 17

다. 역추출 검증 18

4. 추출된 역의 결합 18

제 3 장 역 검출 과정 20

제 1 Wavelet을 이용한 특징추출 20

1. Wavelet이란? 20

가. Wavelet의 정의 20

가. Wavelet의 특징 20

2. Haar 기 함수 21

가. Haar 웨이블릿 변환을 한 기본 정의 21

나. Haar 웨이블릿 25

3. 웨이블릿 변환의 확장 30

가. 2차원 변환 30

4. 웨이블릿과 곡선 34

가. Subdivision 35

나. 다해상도 분석(Multi-resolution Analysis) 41

다. 웨이블릿의 종류 45

제 2 SVM(Support Vector Machine) 50

1. 개요 50

2. SVM 분류기 51

제 4 장 실험 결과분석 57

제 5 장 결론 향후과제 62

참고문헌

Contents

Chapter 1. Introduction 1

Section 1. Background of the research 1

Section 2. Social situation 1

1. domestic situation 2

2. oversea situation 3

Section 3. Importance of the research 4

Section 4. Goal of the research 7

Chapter 2. Related Research 8

Section 1. Study of text extraction 8

Section 2. Methods of text area extraction 11

1. Extraction using color connectivity 11

a. Color reduction 11

b. Color clustering 11

c. Candidate areas 12

2. Extraction using Edge 13

a. Preprocessing 14

b. Candidate areas 14

3. Extraction color variation 16

a. Horizontal and vertical variation image 16

b. Denoising using AND operation 17

c. Extraction and verification of text areas 18

4. Fusion of extracted areas 18

Chapter 3. Areas Extraction process 20

Section 1. Feature extraction using wavelet 20

1. What is wavelet? 20

a. Definition of wavelet 20

b. Characteristics of wavelet 20

2. Haar Basis Function 21

a. Basic definition for Haar wavelet transform 21

b. Haar Wavelet 25

3. Extension of wavelet transform 30

a. 2D wavelet transform 30

4. Wavelet and curve 34

a. Subdivision 35

b. Multi-resolution Analysis 41

c. Kinds of wavelet 45

Section 2. Support Vector Machine 50

1. Overview 50

2. SVM classifier 51

Chapter 4. Experiment 57

Chapter 5. Results and future work 62

Reference

표 목 차

표 1.1 무제약 이미지상 문자 역 추출 응용 분야 3

표 4.1 실험이미지의 성능 평가 58

그 림 목 차

그림 1.1 명함인식 시스템의 3

그림 1.2 무제약 이미지상 문자 역 추출 응용 분야 6

그림 2.1. 불림(좌) 녹임(우) 연산을 한 구조 연산자 15

그림 2.2. 불림 구조 연산자(좌), 지움구조 연산자(우) 18

그림 3.1 웨이블릿의 표 방식 20

그림 3.2 Haar 웨이블릿 함수의 분해과정 22

그림 3.3 piecewise-constant function 23

그림 3.4 2V 에 한 박스 함수 16

그림 3.5 2W 에 한 Haar 웨이블릿 26

그림 3.6 2V 기 함수 표 18

그림 3.7 1V 과

1W 로 표 한 2V 벡터 19

그림 3.8 0V 와

0W , 1W 으로 표 된

2V 의 벡터 20

그림 3.9 이미지에 한 2차원 표 변환 30

그림 3.10 이미지에 한 2차원 비표 변환 31

그림 3.11 2V 에 한 2차원 Haar 표 기 함수 32

그림 3.12 2V 에 한 2차원 Haar 비표 기 함수 33

그림 3.13 비정규 변환/복원의 용 34

그림 3.14 Chaikin 알고리즘 (a), (b) 35

그림 3.15 Chaikin 알고리즘 (c), (d) 36

그림 3.16 Chaikin 알고리즘 용 38

그림 3.17 박스 함수의 세분화 40

그림 3.18 필터 뱅크 45

그림 3.19 Daubechies 기 함수 46

그림 3.20 Linear Separators 50

그림 3.21 Optimal Linear Searator 51

그림 3.23 Maximum Margin 51

그림 3.24 Support Vectors in Dual Problem 53

그림 3.25 Soft Margin 54

그림 3.26. Higher-dimensional space 55

그림 3.27 Non-linear SVM 56

그림 4.1 입력이미지의 2차 웨이블릿 변환 57

그림 4.2 자연이미지에 한 역 추출 결과 59

그림 4.3 자연이미지 역 추출 결과 발생한 오류의 60

그림 4.4 문서 상 자 역 검출 61

- 1 -

제 1 장 서 론

제 1 연구의 배경

무제약 이미지 상의 자 역 추출 응용에 한 연구는 상 내의 문자들

이 이미지의 내용을 함축 이고 구체 으로 표 하는 요한 정보들이라는 에

착안한다. 이러한 상내의 문자 정보들을 실시간에 추출하여 인식한다면 시각장

애인을 한 보행안내 시스템, 지능 로 의 자동주행 등과 같은 분야에서 다양하

게 활용될 수 있다[1].

지 까지 상에서의 문자 역 검출 문자 인식에 한 연구는 시작단계라

할 수 있으며, 알고리즘의 복잡성과 처리시간 그리고 검증 역의 오류로 인해 이

를 해결하기 한 지속 인 노력이 진행되고 있다.

본 연구는 무제약 이미지 상에서 자 역을 추출하는 방법으로 ⅰ) 이미지의

텍스처에 기반하여 웨이블릿 변환을 특징 추출자로 사용하며 ⅲ) 이미지에 따른

통계 특성을 고려하고 iii) 추출된 정보를 SVM(Support Vector Machines) 분류

기로 검증하여 최종 으로 역을 결정하는 연구에 을 두어 과제를 수행하고

자 한다.

제 2 국내외 환경 동향

1. 국내 동향

국내의 이미지 처리 문자 역 추출 방법에 한 분야는 많은 연구가 이루어

지고 있다. 들 들어 우리들의 실생활에서 가장 많이 볼 수 있는 것은 도로의 단

속 카메라, 신분증에 한 인식, 명함에 한 인식 분야일 것이다.

활용 가능한 분야로는 문서의 이미지를 받아서 자동으로 장해주는 문서입력

자동화 시스템, 신분증(주민등록증, 운 면허증, 여권 등)을 인식하는 시스템, 명함

- 2 -

인식 시스템, 주차 리 시스템, 각종 서류(신청서, 청약서, 카드 표, 계약서 등) 이

미지의 자동처리 시스템, 팩스 문서의 인식 시스템, 우편물 분류 자동화 시스템,

자도서 , 기업, 공서의 원문 서비스 시스템 등이다. 그러나 재로서는 형식

이 정해져 있는 문서나 명함을 상으로 하는 연구나 개발은 이루어지고 있으나

정해진 형식이 없는 무제약 이미지를 상으로 하는 연구는 제한된 실정이다.

재 국내에서 진행되는 문자 추출에 한 연구 황을 살펴보면 남 학교

김지수 등은 명도 이미지 정보에 여러 가지 필터링 연산을 수행한 후에 에지 이

미지를 구하고, 긴 선 제거 잡 제거를 통한 텍스트 추출 방법을 제안하 으

나 이미지 자체가 가지고 있는 기울기 원근 정보의 보정이 필요하며, 복잡한

배경 속의 텍스트 추출에 있어서는 명도 이미지 정보를 가지고는 어느 정도 한계

를 보이는 단 이 있다. 2004년 배경숙 등은 문자의 획 특징을 이용하는 통계

인 방법으로 문자 역을 검증하는 방법을 제안했다. 텍스트와 비텍스트 이미지

를 문자의 획과 방향성을 표 하는 36차원의 특징을 추출한 후 추출된 특징

변별력이 높은 특징만을 선택하여 SVM 분류기를 구성한 후 텍스트와 비텍스트

역을 분류하게 된다. 이와 같은 방법은 벽면의 타일이나 나뭇가지, 나뭇잎 등과

같이 텍스트와 유사한 특성을 갖는 역을 비교 잘 분류해 낼 수 있다.

앞에서 소개한 것과 같이 국내에서의 이미 분할까지의 과정이 완료된 데이터를

사용한 문자인식 연구에 집 되는 반면 무제약 이미지에서 문자 역을 추출하는

것에 한 연구는 아직까지 주목을 받지 못하는 실정이다.

- 3 -

그림 1.1 명함인식 시스템의

2. 국외 황

지난 수십년에 걸친 연구자들의 노력으로 문자인식 기술은 많은 발 을 해 왔

다. 오 라인 인식의 경우는 입력된 텍스트의 공간 정보만을 가지고 인식해야

하기 때문에 매우 어려운 실정이다. 이러한 이유로 아직까지 많은 연구자들이 오

라인 문자인식의 연구에 집 하고 있다. 문자를 인식하는데 요한 처리 과정

하나가 바로 이미지에서 문자단 의 데이터로 분리해주는 과정이다. 하지만

부분의 문자인식 연구가 문자단 로 분할되었다는 가정 하에 이루어지고 있다. 그

래서 무제약 이미지에서 텍스트 역을 분리하는 과정에 한 연구는 미흡한 실

정이다.

이미지에서 텍스트 추출에 한 연구는 1995년 Zhong 등이[2] 텍스트의 색은

일정하며 명도이미지에서 텍스트 역은 공간 분산 값이 크다는 특징을 이용하

여 두 방법을 순차 으로 결합한 방법을 제안하 으나 다양한 종류의 스캔 이미

지로 제안한 방법을 실험한 결과 길이가 짧거나 색이 일정하지 않은 문자열, 수직

방향 는 필기된 문자열 등에서 오류가 발생하는 단 을 가지고 있었으며, 1998

년 Jain 등은[3] 이진 이미지, 웹 이미지, 색 이미지 비디오 임의 네 가지

- 4 -

종류의 이미지에서 텍스트를 추출하는 방법을 제안하 다. 이 방법은 이진 이미지

웹 이미지, 비디오 임에서는 높은 추출률을 보인 반면, 색 이미지에 해서는

낮은 추출률을 보 다. 한 부분의 실험 이미지가 비디오 임에 국한되어

있는 단 을 가지고 있었으며, 1999년 Jeong 등은[4] 신경망을 이용하여 뉴스 비디

오 임에서 텍스트의 치를 찾는 방법을 제안하 다. 이 방법은 어 숫자

가 수평방향으로 정렬된 뉴스 비디오 임을 상으로 하 기 때문에 텍스트의

크기와 폰트에 제한을 두었다. 2000년 Li 등은[5] 웨이블릿 변환을 이용하여 텍

스트의 획 특징을 추출하고, 신경망을 이용한 학습으로 비디오 임에서 텍스트

패턴을 분류하는 방법을 제안하 다. 다양한 크기의 텍스트를 추출하기 해서 원

이미지로부터 피라미드 이미지를 생성하여 다양한 해상도에서 텍스트를 추출하

다. 하지만 이 방법에서 사용된 신경망은 추정하고자 하는 목 함수를 효과 으로

반 하지 못해, 일반화 성능에서 문제 을 드러내고 있다.

앞에서의 내용과 같이 외국에서도 국내와 마찬가지로 문자인식에 한 연구는

활발하게 이루어지고 있으나 무제약 이미지에서의 문자 역 추출에 한 연구는

아직 기 단계라 할 수 있다.

제 3 연구의 요성

최근 컴퓨터 기술의 부신 발달로 컴퓨터를 이용한 방 한 양의 정보를 장

하고 처리할 수 있게 되었으나, 문서에 수록된 정보를 컴퓨터에 입력하는 것은 아

직도 사람이 직 키보드로 입력하는 방식을 취하고 있어서 자료의 입력에 많은

인력과 시간이 필요한 실정이다. 따라서 진정한 정보화 사회의 실 을 해서는

정보 입력의 자동화가 실하게 요구되며, 보다 효율 인 정보 입력하기 해서는

무엇보다도 문자 인식 기술에 련된 연구가 가장 필요하다.

특히 문자 인식 기술 연구 분야 에서 문자 추출 련 연구들을 보면 국내외

에서 문서 이미지에서의 텍스트 역과 그림 역 분리 제한된 환경에서 얻어

진 이미지에서의 문자 역 추출에 련하여 많은 연구가 진행되고 있으며, 이미

- 5 -

CD표지, 문헌표지 같은 제품들이 일부 상용화 되었다. 반면 무제약 이미지에 포함

되어 있는 문자들은 많은 복잡한 정보들을 가지고 있기 때문에 해상도가 낮고

자 형태와 크기, 색상 등이 다양하기 때문에 이를 추출하고 인식하는 일은 어려운

문제로 남아 있어서 아직까지는 련 논문 자료가 주를 이루고 있다.

그러므로 본 연구에서는 무제약 이미지를 수집 획득하여 이미지에 나타나는 다

양한 자 크기, 자체, 복잡한 배경, 문자열-비문자열 겹침 상, 복잡한 칼라,

상을 획득한 시 에서 생기는 문자열의 3차원 상 등 다양한 종류의 복잡한 배

경을 갖는 무제약 이미지 상에서의 자 역을 추출하는데 연구 목 이 있다. 이

러한 무제약 이미지 상에서 텍스트 역 추출을 기반으로 한 실시간 문자 인식

시스템까지 가능하게 된다면 공서 일반 기업에서 업무 에 발생되는 서류

수많은 자료를 데이터베이스화하여 손쉽게 데이터를 검색, 장, 분류가 가능

하게 될 것이다.

한 디지털 카메라로 취득한 이미지나 동 상에 포함된 이미지 정보들이 실시

간에 추출하여 인식할 수 있다면 시각 장애인 보행 보조 시스템, 로 자동 주행

시스템, 비디오 자동 검색 색인 시스템, 텍스트 자동 번역 시스템 등 여러 산

업 분야에 용 될 수 있을 것이다.

표 1.1 무제약 이미지상 문자 역 추출 응용 분야

응 용 분 야 기 능

시각 장애인 보행 보조 시스템 보행 에 나타난 문자 정보 간 인식

로 자동 주행 시스템 주변 환경의 학습을 통해 재의 치 악

행동 결정하여 자동 주행하는 기능

비디오 자동 검색 색인 시스템 각 장르별로 데이터 검색, 장, 분리

텍스트 자동 번역 시스템 원문을 원하는 언어로 자동 번역

- 6 -

로봇 자동주행시스템

텍스트자동 번역시스템시각장애인보행 보조시스템

도서자동검색및색인시스템

응용

비디오자동검색 및색인시스템




응용




응용

비디오자동검색 및색인시스템

그림 1.2 무제약 이미지상 문자 역 추출 응용 분야

- 7 -

제 4 연구의 목표

문서 이미지, 이진 이미지, 웹이미지, 비디오 임 등의 무제약 이미지 상에

서 텍스트 역과 비텍스트 역을 분할하는 효율 인 세그멘테이션 기법을 제

안하고자 하 으며, 상에서의 텍스트 역인식을 해 웨이블릿 변환을 이용하

다. 웨이블릿은 공간과 주 수 모두에 한 신호분석을 가능 해 뿐만 아니

라 에러 연속성 제어에도 좋은 결과를 보이고 있으며, 국부 이거나 역 인

역처리를 지원한다. 이러한 웨이블릿 변환에 기반하여 다해상도 분석을 하며

특징추출을 해 국부에 지를 계산한다. 국부에 지 분석은 텍스트 역에서 에

지 변화가 하다는 것과 배경이나 비텍스트 역의 내부는 낮은 국부에

지 변화를 보이고 있음에 응하여 상의 텍스트 역을 검출하는 방법이다. 본

연구에서는 상의 웨이블릿 변환 계수에 기반하여 국부 으로 역을 나 어

각 역의 텍스트, 비텍스트 역을 찾기 해 국부에 지 변화를 고려하여 특징

추출을 하게 된다. 이 게 추출된 특징 벡터들은 SVM에 입력되어 학습된다.

SVM은 패턴 분류 문제에 있어 고차원 공간에서의 뛰어난 일반화 성능으로 분류

문제의 해결 방법으로 선호되고 있다. 무제약 이미지 상에서 텍스트와 비텍스

역을 추출하는 것을 이진 분류 문제로[20] 보고 SVM에 데이터의 특징을 학습시

키면서 라미터들을 조정하고 최 의 분류기를 구 한다.

- 8 -

제 2 장 련 연구

제 1 텍스트 추출 연구

텍스트 추출 연구는 그래픽(graphic) 텍스트 추출과 장면(scene) 텍스트 추출 연

구로 나 어 진행되고 있다. 그래픽 텍스트 추출은 부분의 이미지의 질이 높은

문서이미지나 비디오 임을 상으로 역을 추출하 지만[6-10], 최근에는 복

잡한 배경을 갖는 자연이미지에서 텍스트의 크기, 색, 폰트 종류, 방향 등이 다양

하게 나타나는 장면 텍스트를 추출하는 연구가 응용을 고려한 제한 인 환경에서

활발하게 진행되고 있다[11,12].

그래픽 텍스트 추출에 한 연구로는 Jain 등은[3] 이진 이미지, 웹 이미지, 색

이미지 비디오 임의 4가지 종류의 이미지에서 텍스트를 추출하는 방법을

제안하 다. 이진 웹 이미지에 해서는 텍스트의 밝기 값이 균일하다는 특징

을 이용하 고, 다 값 분해(Multi-valued Decomposition)를 통해 경과 배경을

분리한 후 연결요소를 분석하여 역을 추출하 으며, 색 연속성은 색 임을 수

행한 후 역시 다 값 분해을 통해 경과 배경을 분리한 연결요소를 분석하여

역을 추출하 다. 이 방법은 네 가지 종류에 해 서로 다른 특징과 임계값을

용하기 때문에 종류별로 수동 인 실험을 수행하 다. 실험 결과는 이진 이미

지, 웹 이미지, 비디오 임에서는 높은 추출률을 보인 반면, 색 이미지에 해

서는 낮은 추출률을 보 다. 한 부분의 실험 이미지가 비디오 임에 국한

되어 있는 단 이 있다.

Zhong 등은[2] 텍스트의 색은 일정하며, 명도이미지에서 텍스트 역은 공간

분산(spatial Variance) 값이 크다는 특징을 이용하고, 두 방법을 순차 으로 결합

한 방법을 제안하 다. 색을 이용한 방법에서는 색 양자화를 수행하여 색의 개수

를 이고 각 색 면에 한 연결요소를 분석하여 역을 추출하 다. 명도이미지

을 이용한 방법에서는 공간 분산을 용한 후 에지를 추출하여 서로 반 방향

을 가지는 에지 을 찾음으로써 텍스트 역을 추출하 다. 끝으로 두 방법을 순

차 으로 결합하여 역을 확정하 다. 끝으로 두 방법을 순차 으로 결합하여

- 9 -

역을 확정하 다. 다양한 종류의 스캔된 이미지로 제안한 방법을 실험한 결과 길

이가 짧거나 색이 일정하지 않은 문자열, 수직방향 는 필기된 문자열 등에서 오

류가 발생하는 단 이 있었다.

H. K. Kim은[12] 비디오 임으로부터 자동으로 텍스트 역을 추출하기

해서 문자들이 수평 방향으로 놓여져 있고, 균일한 색과 일정한 크기를 갖는다는

가정으로 색 연속성 특징을 이용한 방법을 제안하 다. 알고리즘은 크게 두 부분

으로서 우선 색 히스토그램 양자화에 의해 색 이미지를 분할하고, 연결요소의 길

이와 X/Y 시그니처를 이용하여 각 색 면에서 비텍스트 요소들을 제거하 다. 50

개의 비디오 임으로 제안된 알고리즘을 실험한 결과 86%의 추출률을 보 으

나, 색의 비가 크지 않은 텍스트와 크기가 작은 텍스트에 해서는 정확히 찾지

못하며 16개의 경험 임계값을 정해야 하는 단 이 있다.

P. K. Kim은[13] 색 이미지를 상으로 텍스트의 색 연속성 특징을 이용한 추출

방법을 제안하 다. 제안한 방법은 24비트 색을 모두 이용하는 역 양자화의

단 과 텍스트와 배경 역이 잘 분리되지 않고 시간이 많이 소요되는 단 을 보

완하기 해서 R, G, B 각각의 상 2비트를 이용하여 총 6비트를 이용하는 지역

양자화 방법을 용하 다. 지역 양자화를 수행한 후 경계선 추 (contour

following)을 용하여 얻어진 연결요소를 분석하여 텍스트 역을 추출하며, 책

표지 이미지를 상으로 실험하 다. 지역 양자화의 처리 시간이 오래 걸리고

기울어진 텍스트 역을 추출하기 어려운 단 이 있다.

장면 텍스트 추출 연구로서 Ohya 등은[14] 실외 자연 이미지의 텍스트 역을

추출하기 해서 부분의 텍스트는 명도 값이 일정하다는 특징을 이용하 다. 이

논문에서의 텍스트 역은 기울어짐이 없고 배경과 뚜렷하게 구분된다는 가정을

제하 다. 지역 이진화(local thresholding) 방법을 용하여 텍스트 요소를 검

출하고, 텍스트 요소들의 유사성을 계산한 후 완화(Relaxational) 방법을 이용하여

텍스트 요소들을 병합시켰다. 이정표, 자동차 번호 , 간 이미지를 상으로 실험

한 결과 단순한 이미지에서 좋은 결과를 얻었지만, 배경이 복잡하거나 조명 변화

가 있는 이미지에서는 오류가 많이 발생하는 단 이 있었다.

Gu 등은[15] 미분 탑-햇츠(differential top-hats) 연산자를 이용한 추출 방법을

- 10 -

제안하 으며, 문자 획을 크기에 따라 8단계로 나 고 흰 문자와 검은 문자로 구

분하여 연산자를 용하 다. 제안한 알고리즘을 실외에서 오 , 정오, 오후, 녁

등 4가지 시간 별로 획득한 이미지에 용한 결과 정오와 오후에 한 이미지에

서는 정확한 추출을 보 지만 조명의 변화가 있는 오 과 녁 이미지에서는 오

류가 많이 발생하 다. 한, 처리 시간이 오래 걸리는 단 이 있다.

에서 살펴본 것처럼 그래픽 텍스트를 추출하기 한 부분의 방법들은 색

이미지에서의 색 연속성 특징을 이용한 색병합 방법의 시도와 명도이미지에서는

명도 값이 균일하다는 특징을 이용하기 한 이진화 방법을 시도하 다. 장면 텍

스트 추출 연구에서도 유사한 방법을 시도하 으나, 그래픽 텍스트 추출에 비해

색, 방향, 크기, 폰트, 기울어짐 등에 제약을 두었다.

- 11 -

제 2 텍스트 역 추출 방법[16]

1. 색 연속성을 이용한 추출

색 연속성을 이용한 추출은 우선 색 면의 개수를 이기 해서 간단한 색

임을 실시하고, 조명 변화와 복잡한 배경을 처리하기 해서 색 병합 방법을 제안

한다. 각각의 색 면에 한 연결요소를 분석하여 텍스트 후보 역을 찾고, 각 면

에서 찾은 결과를 결합함으로써 최종 인 후보 역을 확정한다.

가. 색 임

입력된 이미지는 640×480 크기의 24비트 색 이미지로써 320×240 크기로 먼

축소시킨다. 24비트로 표 된 이미지에서 색 면을 분리한다면 많은 계산 시간이

필요하기 때문에 색 임을 먼 수행한다. 색 임은 화소의 R, G, B 각 요소의

하 6비트를 제거하여 상 2비트만을 남기는 Bit Dropping 방법을 이용한다. 색

임 결과 이미지는 최 64개의 색으로 표 된다.

나. 색병합

RGB로 표 된 색 이미지는 빛과 조명에 따라 동일한 색으로 구성된 화소들이

서로 다른 색으로 분리되는 경우가 종종 발생한다. 한, 색 임으로 만들어진

색 면 모두를 상으로 역을 찾는 것이 불필요하며, 처리시간도 오래 걸리기 때

문에 색 병합을 수행하여 처리할 색 면의 개수를 이는 것이 필요하다. 64개의

색으로 표 되는 RGB 공간에서 색 사이의 거리를 이용한 색 병합을 수행한다. 색

이 유사하다고 단하여 병합되는 RGB 공간에서의 3차원 유클리디언(Euclidean)

거리가 1 이하인 경우로 설정한다. 색 병합은 그림 3과 같이 1차 병합과 반복 인

2차 병합으로 나 어 수행된다.

색 임 결과 이미지는 색마다 다양한 빈도수를 갖는다. 1차 병합은 으로 식

별하기 어려울 정도의 은 빈도수의 색들을 미리 제거함으로써 클러스터(cluster)

들을 고립시켜 색 병합 결과를 향상시키기 한 것이다. 색 임 결과 이미지의

각 색의 히스토그램을 구한 후 히스토그램 수가 일정한 수 이하인 색들을 선택하

여 그 색과 유사하며 빈도수가 가장 높은 색으로 병합시킨다.

- 12 -

자연이미지에 나타나는 텍스트는 그 역을 강조하기 해서 부분 배경과 보

색 계에 있거나 RGB 공간에서 서로 거리가 먼 색들로 구성되는 경향이 있다. 2

차 병합은 유사도, 보색 계 경험 인(Heuristic) 정보를 활용한다. 1차 병합

후에 남은 색 에서 RGB 공간에서 각 모서리에 치하며 빈도수가 가장 높은

색을 병합할 기 색으로 선택한다. 다음으로 기 색과 유사하며 빈도수가 가장

큰 색을 선택하여 병합한다. 이 때 병합되는 색들은 부분 경험 으로 색 공간에

서 회색 계열의 색이거나 회색 계열의 색 근처에 치한다. 그러나 R, G, B와

C(Cyan), M(Magenta), Y(Yellow)는 뚜렷이 구분되어야하는 색임에도 불구하고 색

공간에서 회색 계열의 색과 같은 거리에 존재하여 하나의 회색 계열 색으로 병합

되는 경우가 발생한다. 따라서 선택된 두 색을 병합할 때 두 색 하나 이상의

회색 계열의 색이라면 빈도수가 큰 회색 계열의 색으로 병합하여 R, G, B로 구성

된 역과 C, M, Y로 구성된 역간의 연결성이 끊어지도록 한다. 그러나 만약

회색 계열의 색이 없다면 빈도수가 높은 색으로 병합한다. 이러한 과정은 남아있

는 색의 개수가 2가 되거나 유사한 색이 더 이상 존재하지 않을 때까지 반복한다.

그림 4(a)는 색 임과 색 병합 과정을 거쳐 색의 수가 어들면서 R 계열의 색과

Y 계열의 색이 분리되어 배경과 뚜렷이 구분되는 결과를 보여 다.

다. 후보 역 추출

색 병합 결과에서 동일한 색으로 분리되어야 할 역들이 조명의 향 는 색

임으로 인해서 한 개 이상의 다른 색으로 분리되는 경우가 발생한다. 이러한 문

제를 해결하기 해서 텍스트 역의 연결요소는 도가 높은 특징을 이용하여,

색 병합된 이미지의 각 색 면에 3×3 크기의 구조 연산자(Structuring Element)를

이용한 모폴로지 닫힘(Closing) 연산을 수행하여 인 한 요소들을 연결시킨다. 벽

면의 타일과 같이 좁은 간격으로 넓게 분포되어 있는 연결요소들이 하나로 뭉쳐

지는 경우도 발생하지만, 연결요소의 크기를 제한함으로써 이러한 것들을 부분

으로 젝거할 수 있다. 각 색 면에서 연결요소와 외곽사각형을 구하고, 연결요소의

크기와 외곽사각형의 치, 크기, 종횡비(Aspect Ratio)를 추출한다. 그림 5는 각

색 면의 연결요소와 연결요소의 외곽사각형을 보여 다.

각 색 면에서 후보 역의 수를 이기 우해서 외곽사각형의 크기가 임계값 이

- 13 -

상으로 큰 것과 무 작아서 식별할 수 없는 후보 역이 생기지 않도록 가로

는 세로가 한 화소로 구성되거나 임계값 이하의 넓이를 갖는 외곽사각형을 제거

한다. 한 외곽사각형의 가로/세로와 외곽사각형을 차지하는 연결요소의 비율에

제한을 두어 기둥이나 벽면 체 는 일부로 수성된 연결요소를 제거한다. 그림

6은 그림 5의 각 색 면에 의 규칙을 용한 결과이다.

다음으로 문자 단 의 의미 있는 외곽사각형을 구성하기 해서 외곽사각형 사

이의 거리와 X Y축 방향으로 투 의 겹침 정도를 이용하여 연결요소를 결합한

다. 각 색 면을 구성하고 있는 외곽사각형 사이의 시작과 끝 을 사용하여 가로,

세로 방향으로 겹침 정도가 크거나 외곽사각형 사의 거리가 10화소 이하이면 결

합한다. 이 과정으로 의미있는 문자 단 의 외곽사각형을 구성할 수 있다. 그림 7

은 결합 결과를 보여 다.

처음 단계에서의 연결요소 제거는 텍스트의 획이 제거되는 것을 방지하기 해

서 명확하게 제거할 만한 것들만 제거하기 해서 엄격한 기 으로 제거하 지만,

외곽사각형들이 1차로 결합된 후에는 획들이 인근 연결요소에 결합되었기 때문에

보다 완화된 기 으로 외곽사각형을 추가로 제거할 수 있다. 제거 규칙은 1차 제

거와 같지만 임계값은 다르게 설정한다. 획과 같은 텍스트의 일부를 구성하는 연

결요소들은 단계에서 문자 단 의 외곽사각형에 포함되기 때문에 높이와 폭을

제한하는 임계값을 크게하여 작은 연결요소를 제거하고, 세로/가로의 비율을 제한

하는 임계값도 크게 하여 가로 는 세로로 치우친 연결요소를 제거한다. 한,

외곽사각형을 구성하는 연결요소의 비율이 임계값 이하이면 제거하여 텍스트의

아주 작은 부분을 포함하는 연결요소는 제외시킨다.

끝으로 각 색 면에서 찾아진 후보 역들을 결합하여 하나의 후보 역 외곽사각

형을 구성한다. 각 색 면에서 찾아진 후보 역들의 외곽사각형의 겹침 정도를

악하여 80% 이상으로 서로 겹쳐졌으면 결합하여 하나의 외곽사각형으로 만든다.

2. 밝기 변화를 이용한 추출

밝기 변화를 이용한 추출은 먼 이미지의 에지를 구한다. 에지 분포를 분석하

여 이미지에 포함되어 있는 다양한 종류의 긴 선들을 제거하여 처리할 이미지를

- 14 -

단순하게 만든다. 긴 선 정보들을 텍스트 후보 역의 기울어짐과 원근을 보정하는

데 사용될 수 있다.

가. 처리

색 연속성을 이용한 추출에서 사용한 320×240 크기의 축소된 이미지를 먼 명

도이미지(Gray-level)로 바꾼다. 이 이미지에 3×3 크기의 미디언(Median) 필터를

용하여 잡 의 일부를 제거한 후, Canny 에지 검출을 수행한다. 그림 10은 미디

언 필터 Canny 에지검출 결과를 보여 다. Canny 에지 검출은 에지를 매우

정교하게 찾아주는 장 이 있지만, 연산 시간이 오래 걸리는 단 이 있다. 처리시

간이 오래 걸리는 단 을 개선하기 해서 Canny 에지 추출 과정에서 시간이 가

장 많이 소요되는 억제(Suppression) 단계에서 주변의 모든 화소로부터 융기

(Ridge) 을 찾지 않고, 경사(Gradient) 값이 큰 화소만을 상으로 융기 을 찾음

으로써 비교 횟수를 여 처리시간을 폭 단축시키는 연구도 진행되고 있다.

나. 후보 역 추출

자연이미지에 포함되어 있는 텍스트 주변에는 텍스트를 둘러싸고 있는 다양한

종류의 긴 선들이 부분 존재한다. 따라서 텍스트 주변의 긴 선들을 추출하여 기

울어짐 원근 추정에 필요한 정보를 추출한 후 제거하면 이미지를 단순하게 만

들 수 있다. 긴 선들이 제거된 단순한 이미지에서 텍스트 역은 에지 도가 높

은 특징이 나타난다. 에지 도가 높은 역에 모폴로지를 용한다면 텍스트

역을 더욱 강조할 수 있으며, 도가 낮은 잡 의 일부를 제거할 수 있다. 강조된

이미지에 해서는 연결요소, 외곽사각형 정보 에지 빈도를 이용하여 검증한다.

1) 긴 선 추출 제거

선을 찾기 해서 8-방향의 인 화소를 고려한 에지 추 을 수행하여 각 방향

의 히스토그램을 구한다. 에지 추 의 시작 치에 따라 같은 방향의 선임에도

불구하고 서로 다른 방향으로 히스토그램이 구성될 수 있기 때문에 이를 해결하

기 해서 8-방향에서 서로 칭인 방향을 합한 4-방향에 한 히스토그램도 함께

고려한다. 한 긴 선이 텍스트와 된 경우도 빈번히 발생하는데 이러한 문제

- 15 -

를 해결하기 해서 X, Y 투 을 이용하여 긴 선 부분만을 선택 으로 제거한다.

이 과정에서 선의 크기를 제한하여 텍스트의 획과 같이 작은 부분이 제거되지 않

도록 한다.

에지 추 에서 X, Y 축의 최 , 최소 좌표와 선의 방향 변화 빈도를 찾는다. 추

출된 각 선의 히스토그램을 분석하면 긴 선들은 4-방향 히스토그램의 최 빈(Bin)

의 값이 다른 빈들에 비해 크며, 최 X, Y와 최소 X, Y의 차가 크게 나타나며 방

향의 변화 정도는 작게 나타난다. 사격형인 경우 4-방향 히스토그램의 상 두 방

향 빈의 합이 체 히스토그램 합과 유사하게 나타난다. 이러한 특징을 이용하여

긴 선, 사각형의 테두리 선 길고 꺽이는 부분이 포함된 선 등의 다양한 모양의

선들을 제거한다.

2) 후보 역 강조

긴 선들이 제거된 이미지에서의 텍스트 역은 경험 으로 에지 도가 높게

나타난다. 에지 도는 조 하지만 문자의 크기, 간격 등에 따라 에지 간격이 다

양하기 때문에 모폴로지 연산을 용하여 문자 역을 강조시킨다. 모폴로지 연산

은 그림 2.1과 같은 2×3 크기의 불림(Dilation) 연산자와 3×2 크기의 녹임(Erosion)

연산자를 구성하여 닫힘(Closing) 연산을 용한다.

••

••

그림 2.1 불림(좌) 녹임(우) 연산을 한 구조 연산자

모폴로지를 이용한 강조는 부분 자 단 로 강조되기 때문에 수직 문자열에

해서도 자 단 의 추출이 가능해진다. 이러한 모폴로지 연산을 수행하여 텍스

트와 제거되지 않은 텍스트 주변의 에지들이 서로 연결되는 경우를 일 수 있다.

다. 후보 역 검증

- 16 -

모폴로지를 용한 결과에서 연결요소의 화소수가 무 크거나 작은 것은 텍스트

가 아닌 경우가 부분이기 때문에 제거한다. 연결요소의 화소수가 아주 큰 역우

는 나무나 타일 등과 같이 에지 도가 조 한 배경에서 발생된 경우가 부분이

고, 연결요소의 화소수가 아주 작은 경우는 비록 텍스트 역이라 하더라도 사람

도 구분하기 어렵기 때문에 제거한다. 한, 외곽사각형에서 연결요소가 차지하는

비율, 외곽사각형의 세로/가로 비율, 폭 는 높이 등이 아주 작은 것들도 추가로

제거한다. 한, 각 역에 하여 수평 수직 방향의 에지 빈도의 평균값을 확

인하여 검증한다.

3. 색변화를 이용한 추출

실내외에서 취득한 자연이미지는 빛과 조명의 향으로 는 인 인 의도에

의해서 텍스트와 배경이 명확하게 구분되지 않는 경우도 빈번하게 발생한다. 이러

한 경우 색 변화를 특징으로 이용한다면 보다 정확한 역 추출을 기 할 수 있

다. 이 방법은 색 연속성과 밝기 변화를 이용한 텍스트 역 추출 방법이 조명의

변화에 따랄 색 병합의 오류와 에지 추출의 오류가 쉽게 발생하여 생기는 오검출

의 빈도수를 일 수 있다.

색 변화 정도는 분산으로 표 할 수 있는데 분산은 그 이 값 는 색 값에서

구할 수 있다. 명도이미지의 밝기 값으로 분산을 구한다면 문서이미지와 같이 텍

스트와 배경의 구분이 뚜렷한 경우 분산이 크게 나타나지만, 밝기 값의 변화가 작

은 경우 분산도 작게 표 된다. 그러나 RGB로 표 된 색 정보는 3차원 RGB 공간

에서 화소 값이 표 되어 색 사이의 거리를 분산으로 정확하게 표 할 수 있다. 1

차원명도이미지에서 분산이 작은 이유는 3차원 공간에서 거리가 먼 화소들의

치가 동일 선상에 선형으로 투 되어 색 변화 값이 축소되기 때문이다. 따라서 색

이미지에서의 분산은 명도이미지에서의 분산보다 크며 변화를 정확하게 측정할

수 있는 장 이 있다.

가. 수평 수직 분산이미지 생성

320×240 크기의 입력된 색 이미지에 해서 1×21 크기의 수평 방향 도우와

- 17 -

17×1 크기의 수직 방향 도우를 각각 설정하여 식 (2.1)을 이용하여 분산을 구한

다. 여기에서 Hv 와 Vv 는 수평 수직 방향의 분산을 의미하며, R, G, B는 화소

에 한 색 역의 값이고, VRμ 은 R 색상의 수평 방향 평균을 의미한다. 분산을

구하는 도우의 크기는 실험에 의해서 결정하 다. 구해진 분산은 식 (2.2)와

(2.3)을 이용하여 값의 범 를 0과 255사이의 값으로 정규화 시킨다. 우선 분산이

일정 수 이상으로 큰 값들은 하나의 큰 값으로 체해 수 있도록 식 (2.2)를

사용하여 값의 범 를 이고, 식 (2.3)을 사용하여 최 최소 정규화(Min-max

Normalization)를 수행한다. 여기에서 1max 과 1min 은 분산 v 의 최 , 최소값이

며 2max 와 2min 는 새로운 범 의 명도값을 의미한다.

2 2 21 (( ) ( ) ( ) )21

H i HR i HG i HRv R G Bμ μ μ= − + − + −

2 2 21 (( ) ( ) ( ) )17V i VR i VG i VRv R G Bμ μ μ= − + − + −

(2.1)

newv v= (2.2)

( )new 1normalized 22 2

1 1

v minv minmax min

max min−⎛ ⎞

= +−⎜ ⎟−⎝ ⎠(2.3)

나. AND 연산을 이용한 잡 제거

텍스트 역은 수평 수직 방향 분산이 모두 크게 나타나지만, 단순한 선들과

같은 불필요한 요소들은 수평 는 수직의 한 이미지에서만 분산 값이 크게 나타

난다. 따라서 두 분산이미지의 논리 AND 연산을 수행한다면 선과 같이 불필요

한 요소들을 쉽게 제거할 수 있다. 논리 AND 연산을 수행하기 해서 먼 이

진화를 수행하며, 이진화는 정규화된 분산이미지의 평균을 임계치로 사용하 다.

- 18 -

다. 역 추출 검증

논리 AND 연산을 수행한 결과 이미지에는 분산이 큰 색 변화가 심한 역들

이 남게 되지만 불필요한 잡 도 부분 으로 포함된다. 따라서 텍스트 역의 처

리를 쉽게 하고 간단한 잡 들을 제거시키기 해서 모폴로지 연산을 수행한다.

모폴로지 연산은 수평 방향의 텍스트를 주로 강조하기 해서 그림 2.2와 같이

2×5 크기의 불림 연산자와 3×3 크기의 녹임 연산자를 구성하여, 식 (2.4)와 같이

열림(Opening)과 닫힘(Closing) 연산을 반복 으로 용한다.

I Closing Opening Opening= + + (2.4)

••

••

그림 2.2 불림 구조 연산자(좌), 지움 구조 연산자(우)

후보 역의 검증과 결합은 밝기 변화를 이용한 방법과 동일한 방법으로 연결

요소의 외곽사각형을 분석하여 검증하고, 겹침 정도와 외곽사각형을 분석하여 검

증하고, 겹침 정도와 외곽사각형 사이의 거리를 이용하여 외곽사각형을 결합한다.

4. 추출된 역의 결합

색 연속성, 밝기 변화 색 변화 특징을 이용한 추출은 상호 보완 인 역할을

할 수 있기 때문에 각 방법에서 찾은 역들을 결합하면 텍스트 역 추출의 정

확성을 향상시킬 수 있다. 각 방법에서 찾은 역의 겹침 정도를 서로 비교해서,

검증으로 확인해야 하는 후보 역과 검증을 생략하고 텍스트 역으로 최종 확정

하는 후보 역으로 구분한다.

각 특징을 이용한 텍스트 추출 결과를 분석하면 색 연속성을 이용한 방법은 빛

- 19 -

는 조명에 민감하여 색 병합이 잘 이루어지지 않기 때문에 틀리게 추출된 역

(False Accept)과 찾지 못한 역(False Reject)이 존재한다. 밝기 변화를 이용한 방

법은 조명 변화로 인해서 텍스트와 배경 사이에 명도 비가 크지 않아 에지를

정확하게 찾지 못하고, 배경이 복잡할 경우에는 텍스트 주변에 나뭇가지나 타일

등과 같이 많은 에지가 존재하여 오류가 발생하는 경우가 많다. 색 변화를 이용한

방법은 기울어진 텍스트와 배경이 복잡ㅎ나 이미지에 한 오류가 발생하기 쉽다.

이와 같이 각 방법의 단 을 악하여 상호 보완 으로 결합을 한다면 보다 정확

한 추출이 가능하다.

결합은 각 특징에서 추출한 역의 상호 겹침 정도를 비교하여 두 역이 80%

이상 겹친 경우 동일한 역으로 단하여 검증 과정 없이 텍스트 역으로 확정

한다. 겹침 정도가 80% 이하이거나 겹침이 없는 경우에는 검증한다. 검증은 획 기

반 특징으로 학습된 SVM 분류기를 이용하여 텍스트 역과 비텍스트 역으로

구분한다.

- 20 -

제 3 장 역 검출 과정

제 1 웨이블릿을 이용한 특징추출

1. 웨이블릿이란?

가. 웨이블릿 정의

웨이블릿에 한 각 분야의 정의는 모두 다르다. 수학에서는 웨이블릿을 “데이

터나 함수, 혹은 연산자를 서로 다른 주 수 요소로 분할해주는 툴”로 정의하고

있고, 공학 분야에서는 “필터의 반복 용으로 뽑아내는 분리된 형”으로 정의하

고 있다. 반면, 컴퓨터 그래픽스 분야에서는 웨이블릿을 “데이터를 계층 으로 분

석할 수 있게 해주는 수학 인 툴”로 정의하고 있다.

웨이블릿은 수많은 애 리 이션에서 디지털 데이터를 표 하는데 매우 합한

데이터 표 방식이며, 데이터 체를 표 한 성긴 데이터(sparse data)와 상세 정

보(detail coefficients)로 표 한다.

Wavelet Representation


A Coarse Overall Representation


DetailCoefficients

DetailCoefficients

= +Wavelet Representation




DetailCoefficients

DetailCoefficients

= +

그림 3.1 웨이블릿의 표 방식

웨이블릿은 계층 구조라는 특성을 지닐 뿐만 아니라, 계산이 용이하고 데이터가

성기다는 특징을 가지기 때문에 다양한 분야에 용할 수 있다.

나. 웨이블릿 특징

웨이블릿의 등장 이 에는 신호나 데이터 변환에 푸리에 변환(Fourier

transform)이 주로 사용되었다. 푸리에 변환은 데이터를 주 수 분석에 용이한

형태로 변환해 주는 함수 으며, 지 도 많이 사용되고 있다. 그러나 푸리에 변환

함수는 단일 주 수에 한 정보만 포함하기 때문에 다양한 분야에 용하기에는

무리가 있었다.

- 21 -

그러나 웨이블릿은 공간과 주 수 모두에 한 신호 분석을 가능 해 뿐만

아니라 에러 연속성 제어에도 유리했다. , 지역 이거나 역 인 LoD도 지

원할뿐더러 연산 속도도 빠르다. 그 기 때문에 웨이블릿은 특히 압축분야나 다

해상도 분석, 혹은 노이즈 제거를 한 필터에 많이 사용되고 있다[17-19].

이런 웨이블릿의 표 인 특징으로는 계산상의 이 과 데이터 희소성 용

성을 들 수 있다. 우선, 웨이블릿 연산은 선형 시간 에 연산이 가능하기 때문에

매우 빠른 알고리즘을 구 할 수 있다는 장 을 가진다. , 웨이블릿 변환을 끝

낸 데이터는 값이 0이거나 크기가 매우 작은 값을 가지게 될 확률이 높기 때문에

압축 기법에 용하는데 유리하다. 게다가 웨이블릿은 매우 유연하기 때문에 이미

지나 커 , 혹은 평면을 포함하는 다양한 문제에 용할 수 있다. 웨이블릿은 이

런 특성을 가지기 때문에 다양한 분야에 용해서 사용할 수 있는 것이다.

2. Haar 기 함수

여기에서는 가장 간단한 웨이블릿 기 함수 하나인 Haar 기 함수를 통해

웨이블릿의 정의 방법과 특성에 해 구체 으로 설명한다.

가. Haar 웨이블릿 변환을 한 기본 정의

1) 개요

간단한 제를 통해 Haar의 1차원 변환이 어떤 방식으로 이 지는지 알아보자.

그림 3.2는 [9, 7, 3, 5]라는 일련의 데이터에 Haar 웨이블릿 변환을 용한 를

보여주고 있다. 그림에서 볼 수 있듯이 먼 [9, 7, 3, 5]라는 데이터를 두 개씩 짝

지어서 평균을 낸다. 그러면 4개의 데이터는 [8, 4]라는 2개의 데이터로 요약될 수

있다. 다시 이 2개의 데이터의 평균을 구하면 6이라는 값이 나온다. 바로 이 값이

[9, 7, 3, 5]라는 4개의 값을 표하는 평균값이다. 반 로, 6이라는 평균값을 가지

고 본래의 4개의 값을 복원하기 해서는 평균값 외에도 상세계수(detail

coefficients)라는 값이 필요하다. 이 상세 계수는 평균값과 본래 값과의 차이를 나

타낸다.

- 22 -

261

1 -18 42

9 7 3 54

Detail coefficientsAverageResolution

Decomposition of four-pixel Image

261

1 -18 42

9 7 3 54

Detail coefficientsAverageResolution

Decomposition of four-pixel Image

그림 3.2 Haar 웨이블릿 함수의 분해과정

를 들어 보자. 그림 3.2의 [9, 7, 3, 5] 사례에서 처음 두 값의 평균은 8이다.

이 때, 평균값 8에 1을 더하면 9가 되고, 평균값에서 1을 빼면 7이 되기 때문에

본래 값을 복원할 수 있다. 상세 계수는 짝지어진 두 값의 차에 한 평균을 구하

면 된다. 이런 식으로 웨이블릿을 반복 용해서 얻은 최종 결과는 [6, 2, 1, -1]이

라는 네 개의 값이다. 이 때, 6은 [9, 7, 3, 5]에 한 평균값을 나타내고 2는 두 번

째 변환에 한 상세 계수, 그리고 [1, -1]은 첫 번째 변환에 한 상세 계수를 가

리킨다. 이제 웨이블릿의 이해에 필요한 여러 가지 기본 정의 개념에 해 알

아보자.

2) 벡터 스페이스

웨이블릿을 정의하려면 우선 벡터 스페이스(vector space)에 해 알아야 한다.

벡터 스페이스는 스칼라 값에 한 덧셈과 곱셈이 정의된 벡터의 집합을 가리키

며, 이 때, 벡터는 [0, 1)의 범 에 정의된 상수함수(constant function)이다. 몇 가

지 기호에 해 정의해 보자.

․0 : [0, 1)V 에 정의된 상수함수

․1 :[0,1/ 2), [1/ 2,1)V 에 정의된 각각의 상수함수

․ : [0, 1)jV 를 2 j개의 구간으로 균등 분할한 뒤, 각 구간에 해 정의된 모든

상수 함수

이 게 상수함수로 정의된 벡터 스페이스를 이미지와 연 시켜서 생각해 볼 수

- 23 -

있다. 즉, [0, 1)에서 단일 상수함수로 정의되는 0V 는 하나의 픽셀로 구성된 이미

지로 [0, 1/2)과 [1/2, 1)의 두 구간에서 2개의 상수함수로 정의되는 1V 스페이스

는 2개의 픽셀로 구성되는 이미지로 볼 수 있다. 따라서 2 j개의 픽셀이 있는 1차

원 이미지는 jV 에 응시켜서 생각할 수 있다.

그림 3.3 piecewise-constant function

3) 기 함수(Basis Function)

기 함수는 선형결합을 통해 벡터 스페이스 내에 존재하는 모든 벡터를 생성할

수 있는 최소한의 벡터 집합으로 구성된다. 앞에서 설명했던 벡터 스페이스 jV

의 기 함수는 스 일링 함수(scaling function)라고도 하며, φ 라는 기호로 나타

낸다. jV 에 한 기 함수는 일련의 박스 함수(box function)로 표 할 수 있다.

- 24 -

그림 3.4 2V 에 한 Box basis

이 기 함수는 다음 수식과 같이 표 할 수 있다.

( ) : (2 ) 0,1, ... , 2 1j j ji x x i iφ φ= − = − (3.1)

여기서,

1 0 1( ) :

0for x

xotherw ise

φ≤ <⎧

= ⎨⎩

(3.2)

4) 내 연산 정의

웨이블릿을 정의하려면 내 에 한 정의가 있어야 한다. 일반 으로 내 은 벡

터 스페이스에서 다음과 같은 성질을 가지는 연산을 모두 총칭한다.

․ 칭성 : | |u v v u< > = < >

․겹선형성(Bilinear) : | | |au bv w a u w b v w< + > = < > + < >

․양의 정부호(Positive Definite) : | 0 , 0u u u< > > ∀ ≠

․직교성(orthogonal) : | 0u v< >=

웨이블릿 정의에 필요한 내 은 표 내 (standard inner product)으로 정의하

며, 표 내 은 다음 수식과 같다.

- 25 -

1

0| ( ) ( )f g f x g x dx< > = ∫ (3.3)

나. Haar 웨이블릿

1) 웨이블릿

벡터 스페이스 jV 에서 표 내 연산을 이용해서 새로운 벡터 스페이스

jW

를 정의한다. 이 때 jW 는

1jV + 스페이스 내에 정의된

jV 의 직교보(orthogonal

complement)를 가리킨다. 즉, jW 는 주어진 내 연산에 해

jV 함수에 직교하

는 모든 함수 스페이스를 가리키며, 이 함수 스페이스는 1jV +

스페이스에서 정의

된다. 웨이블릿은 바로 jW 스페이스의 기 함수를 구성하는 벡터를 가리키며,

( )ji xΨ 로 표기한다. 웨이블릿 함수의 속성은 다음과 같다.

∙jW 의 기 함수인

jιΨ 는

jV 의 기 함수 jiΦ 와 함께

1jV +의 기 함수를 형

성한다.

∙jW 의 모든 기 함수

jιΨ 는 주어진 내 함수에 해

jV 의 모든 기 함수

jiΦ 와 직교한다.

2) Haar 웨이블릿

Haar 웨이블릿은 앞에서 설명한 박스 기 함수에 응되는 웨이블릿 함수를 나

타낸다. Haar 웨이블릿 함수에 한 수식은 다음 수식에 나와 있으며, 이 웨이블

릿에 응되는 그래 는 그림 3.5와 같다.

( ) (2 ) 0,1, 2, ... , 2 1j j ji x i iψ ψ= − = − (3.4)

- 26 -

여기서,

1 0 1/ 2( ) : 1 1/ 2 1

0

for xx for x

otherwiseψ

≤ <⎧⎪= − ≤ <⎨⎪⎩

(3.5)

그림 3.5 1W 에 한 Haar 웨이블릿

웨이블릿의 장 은 상 벨의 스페이스를 하 벨의 기 함수와 웨이블릿

함수로 표 할 수 있다는 것이다. 그러면, 앞에서 설명한 [9, 7, 3, 5]를 Haar 웨이

블릿을 용해서 변환하고, 상 벨의 스페이스가 어떻게 하 벨의 기 함수

와 웨이블릿으로 표 되는지 알아보자.

그림 3.6에서 [9, 7, 3, 5]를 2V 기 함수를 이용해서 표 했다. [9, 7, 3, 5]는

[0, 1)를 4개 구간으로 나눠 표 할 수 있으므로 2V 기 함수로 표 할 수 있으

며, 각 기 함수에 9, 7, 3,5를 각각 곱한 것을 더하면 체 역을 표 할 수 있

다.

2 2 2 2 2 2 2 20 0 1 1 2 2 3 3( ) ( ) ( ) ( ) ( )I x c x c x c x c xφ φ φ φ= + + + (3.6)

- 27 -

1 2 3 40 1 2 3[ ] [ 9 7 3 5 ]c c c c =

그림 3.6 [9, 7, 3, 5]의 2V 기 함수 표

이것을 1V 과

1W 으로 표 한 것이 그림이다. [9, 7, 3, 5]라는 2V 스페이스 벡

터는 [8, 4]라는 평균값에 1V 의 기 함수를 곱하고 [1, -1]이라는 상세 계수에

1W 의 웨이블릿 함수를 곱해서 이 값을 모두 더함으로써 표 할 수 있으며, 이

과정이 바로 웨이블릿 변환이다.

1 1 1 1 1 1 1 10 0 1 1 0 0 0 1( ) ( ) ( ) ( ) ( )I x c x c x d x d xφ φ ψ ψ= + + + (3.7)

1 1 1 10 1 0 1[ ] [8 4 1 1]c c d d = −

그림 3.7 1V 과

1W 로 표 한 2V 벡터

- 28 -

여기에 웨이블릿 변환을 한 번 더 용해 보자. 1V 스페이스에 속한 [8, 4] 벡

터에 웨이블릿 변환이 한 번 더 용되면, 이 벡터는 0V 와

0W 의 기 함수로

표 할 수 있으며, 그 결과는 그림 3.8과 같다.

0 0 0 0 1 1 1 10 0 0 0 0 0 1 1( ) ( ) ( ) ( ) ( )I x c x d x d x d xφ ψ ψ ψ= + + + (3.8)

0 0 1 10 0 0 1[ ] [6 2 1 1]c d d d = −

그림 3.8 0V 와

0W , 1W 으로 표 된

2V 의 벡터

3) 웨이블릿의 특성

Haar 웨이블릿을 포함하는 직교 웨이블릿 기 함수의 특성 에는 직교성이

있다. 이것은 직교 웨이블릿에 속하는 모든 기 함수가 서로 직교한다는 성질이

다. 를 들어서 Haar 웨이블릿 함수의 경우에는 00φ ,

00ψ ,

10ψ ,

11ψ 의 기 함수가

모두 서로 직교한다는 성질을 가진다.

다른 웨이블릿 기 함수의 특성으로는 정규화(normalization)를 들 수 있다.

정규화라는 것은 기 함수 ( )u x 에 해 | 1u u< >= 가 성립하는 경우를 의미한

다. Haar 기 함수의 경우에는 웨이블릿 기 함수 공식을 다음과 같이 변경하면

정규화된 기 함수를 얻을 수 있다.

- 29 -

procedure DecompositionStep(C : array[1...h] of reals)

for 1i ← to / 2h do

' [ ] ( [ 2 1] [ 2 ]) / 2C i C i C i← − +

' [ / 2 ] ( [ 2 1] [2 ]) / 2C h i C i C i+ ← − −

end for

'C C←

end procedure

prodedure Decomposition(C : array[1...h] of reals)

/C C h← (normalize input coefficients)

while 1h > do

DecompositionStep(C[1...h])

/ 2h h←end while

end procedure

( ) : 2 (2 )j ji x x iφ φ= − (3.9)

( ) : 2 (2 )j ji x x iψ ψ= − (3.10)

이 때, 정규화된 계수는 각각의 계수를 ( 2 ) j로 나눔으로써 구할 수 있다.

4) Pseudo code

정규화된 웨이블릿 변환을 구 한 pseudo 코드는 다음과 같다.

- 30 -

3. 웨이블릿 변환의 확장

이미지나 볼륨 데이터에 의해 웨이블릿 변환을 용하려면 웨이블릿 변환을 확

장 용하는 방법에 한 이해가 선행되어야 한다. 여기에서는 앞에서 다른 1차원

웨이블릿 변환을 좀 더 고차원 변환으로 확장하는 방법에 해 알아본다.

가. 2차원 변환

이미지에 용할 수 있는 2차원 변환에는 표 변환과 비표 변환의 2가지 방식

이 있다.

1) 표 변환(Standard Decomposition)

표 변환 방식은 1차원 웨이블릿 변환을 이미지의 각 행에 있는 픽셀에 해

용하는 것으로부터 시작된다. 각 행에 해 웨이블릿 변환을 용한 다음에는

각 열에 해 1차원 웨이블릿 변환을 수행한다. 이 게 표 변환을 용한 뒤 결

과로 나오는 값은 단 하나의 평균값과 여러 개의 계수값이다. 표 변환의 진행

과정은 그림 3.9에 나타나 있다.

그림 3.9 이미지에 한 2차원 표 변환

- 31 -

2) 비표 변환(Nonstandard Decomposition)

2차원 비표 변환 방식은 열과 행에 한 변환을 번갈아가면서 한번씩 수행하

는 것이다. 우선 가로 방향으로 각 행에 해 1차원 웨이블릿 변환을 수행한다.

이 게 가로와 세로 방향에 한 한 의 변환이 웨이블릿 변환을 1번 수행한 것

이 된다. 이 과정을 하나의 평균값만 남을 때까지 계속 반복하는 것이 바로 이미

지에 한 비표 변환이다. 그림 3.10은 비표 변환의 진행 과정을 보여주고 있

다.

그림 3.10 이미지에 한 2차원 비표 변환

3) 2차원 변환에 한 Haar 기 함수

2차원 변환에 한 Haar 기 함수를 생성해 보자. 표 변환에 한 Haar 기

함수는 모든 1차원 기 함수에 해 텐서(tensor) 연산을 용한 것이다. 그림 3.11

은 1차원 Haar 기 함수 2V 를 2차원 기 함수로 확장한 것을 보여 다.

- 32 -

그림 3.11 2V 에 한 2차원 Haar 표 기 함수

앞서 설명했듯이 그림 3.11은 2V 스페이스의 모든 Haar 기 함수에 해 텐서

연산을 용한 것이다. 비표 변환에 한 기 함수를 생성하려면 우선 2차원 기

함수에 한 정의가 선행되어야 한다. 2차원 기 함수는 다음 수식과 같이 정의

한다.

( , ) : ( ) ( )x y x yφ φ φ φ=

( , ) : ( ) ( )x y x yφ ψ φ ψ=

( , ) : ( ) ( )x y x yψ φ ψ φ=

( , ) : ( ) ( )x y x yψ ψ ψ ψ=

(3.11)

의 수식에서 도출된 2차원 Haar 기 함수에 한 정의는 다음 수식과 같다.

- 33 -

, ( , ) : 2 ( 2 , 2 )j j j jk l x y x k y lφ φ φ φ= − −

, ( , ) : 2 (2 , 2 )j j j jk l x y x k y lφψ φψ= − −

, ( , ) : 2 (2 , 2 )j j j jk l x y x k y lψφ ψ φ= − −

, ( , ) : 2 (2 , 2 )j j j jk l x y x k y lψψ ψψ= − −

(3.12)

의 수식에서 수식마다 붙어있는 2 j의 기 함수의 직교성과 정규화를 정의한

다. 수식에 근거하여 만든 2V Haar 기 함수의 2차원 확장은 그림 3.12와 같

으며, 그림 3.13은 2차원 비정규 변환 복원 과정을 이미지에 용해서 보여

것이다.

그림 3.12 2V 에 한 2차원 Haar 비표 기 함수

- 34 -

그림 3.13 비정규 변환/복원의 용

4) 정규 변환과 비정규 변환의 비교

정규 변환은 체 행에 해 1차원 변환을 끝까지 수행한 뒤, 체 열에 해

다시 1차원 변환을 수행하는 방식으로 비정규 변환보다 쉽게 이해할 수 있으면

정사각형 형태가 아닌 이미지에도 용할 수 있다는 장 을 가진다. 반면, 비정규

변환은 정규 변환에 비해 효율 으로 계산이 가능하다는 장 이 있지만, 정사각형

이미지가 아닌 경우에는 용하기 힘들다. 그러나 그림 3.10에서 볼 수 있듯이 다

해상도 표 이 가능하기 때문에 정규 변환보다는 비정규 변환이 많이 사용되

는 편이다. 2차원 변환방식을 고려하는 사용자라면 각 변환 방식의 성격을 고려해

보고 자신이 사용하려는 용도에 합한 변환 방식을 용해야 한다.

4. 웨이블릿과 곡선

웨이블릿은 여러 다양한 용도로 사용할 수 있는데, 그 하나가 곡선에 한

정의이다. 사실 Haar 웨이블릿의 박스 함수로는 다양한 애 리 이션에의 활용이

쉽지 않다. 곡선이나 곡면에 한 정의에도 합하지 않기 때문에 좀 더 일반

- 35 -

인 함수 공간으로의 확장이 필요하다.

이에 사용할 수 있는 것이 recursive subdivision이라는 간단한 과정으로 우리는

이 과정을 통해 여러 다양한 계층의 웨이블릿 함수를 정의해서 활용할 수 있다.

여기에서는 subdivision 과정을 통해 웨이블릿 함수를 정의하는 방법과 그로 인해

생되는 여러 웨이블릿 함수의 다양한 특성에 해 알아보기로 한다.

가. Subdivision

1) Recursive Subdivision

Recursive Subdivision이란 piecewise-linear한 성격을 갖는 기함수 0 ( )f x 를

계속 다듬어서 1 2( ), ( ), ...f x f x 라는 함수를 순차 으로 만들어 가면서 결국 최

종함수를 생성해 내는 방법을 가리키며, Chaikin이 1974년에 최 로 소개했다. 그

림 3.14는 Chaikin의 알고리즘으로 최종 함수 ( )f x 를 생성하는 과정을 보여 다.

그림 3.14 Chaikin 알고리즘 (a) 기함수 0 ( )f x , (b)

1( )f x

Chaikin의 알고리즘은 연속 으로 폴리곤의 모서리를 잘라내면서 최종 곡선을

만들어 내는 과정이다. 다음 수식은 Chaikin의 알고리즘을 수식으로 나타낸 것이

다.

1

2 2j j

kj jk

i i kf r f − +⎛ ⎞ ⎛ ⎞=⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑ (3.13)

- 36 -

그림 3.15 Chaikin 알고리즘 (c) 2 ( )f x , (d) 최종 함수 ( )f x

이 수식에서 0 ( )f x x축의 각 이 정수인 함수로 정수 단 의 직선으로 구성

된 도형을 의미하고 ( )jf x 는 x축의 각 이 / 2 ji 에 치한 도형을 의미한다.

이러한 recursive subdivision 과정은 averaging mask로도 표 할 수 있다.

Averaging mask는 한 과 그 주변 과의 계를 평균 계수로 표 한 것으로

일반 으로 1 0 1(..., , , , ...)r r r r−= 의 형태로 표 한다. Chaikin의 averaging

mask는 0 11( , ) (1 , 1 )2

r r r= =로 표 할 수 있다.

Subdivision 과정은 averaging mask의 종류에 따라 그리고 mask의 용방법에

따라 uniform과 non-uniform, stationary와 non-stationary subdivision으로 구분할

수 있다. Uniform subdivision은 곡면 체에 걸쳐서 동일한 mask를 용하는 경

우를 가리키고, non-uniform은 그 반 의 경우를 가리킨다. 즉, uniform

subdivision의 경우에는 r 과 i 는 독립 인 계를 갖는다. stationary

subdivision은 subdivision 과정이 반복될 때 계속 동일한 mask를 용하는 경우

를 가리키며, subdivision의 단계에 따라 mask가 달라지는 경우를 non-stationary

subdivision이라고 한다. 즉, stationary subdivision의 경우에는 r 이 j 와 독립

인 계를 갖는다.

- 37 -

2) Subdivision 과정

Subdivision 과정은 splitting과 averaging을 통해 수행된다. 이 때, splitting은

과 사이의 간격에 간 을 생성함으로써 사이의 간격을 이는 과정을

의미하고 averaging은 평균 계수를 사용해서 평균값을 생성하는 과정이다. 모든

종류의 subdivision은 splitting 과정을 공유한다. 다음은 subdivision을 수행하는

과정을 나타낸다.

․각 함수 '( )f x 를 일련의 값1 0 1(..., , , , ...)j j jc c c−

의 형태로 표 한다.

․ '( )f x 의 각 은 2j j

i j

ic f ⎛ ⎞= ⎜ ⎟⎝ ⎠ 의 치에 생성된다.

․ '( )f x 의 각 에서의 값을 계산하려면 1jf −의 값이 필요하다. 이때의 계산

공식은 다음 수식과 같다.

12: :j j

i iSplitting c c −=

( )1 12 1 1

1:2

j j ji i ic c c− −+ += +

(3.14)

: j ji k i k

k

Averaging c r c += ∑ (3.15)

3) Uniform Subdivision의

Uniform subdivision은 앞에서 언 했듯이 곡선의 구간에 걸쳐서 동일한

averaging mask가 용되는 subdivision 방식을 가리킨다. Uniform Subdivision의

가정 표 인 사례로는 Chaikin의 알고리즘을 들 수 있다.

Chaikin의 알고리즘은 기 폴리곤의 x와 y 좌표에 해 독립 으로 splitting과

averaging 과정을 반복 용함으로써 최종 곡선을 얻을 수 있으며, uniform

quadratic B-spline을 진 으로 형성한다. 이 알고리즘은 스칼의 삼각형에 의

해 생성되는 mask를 사용해서 어떤 차원의 uniform B-spline이라도 생성할 수 있

는 공식으로 일반화할 수 있다. 즉, 다음 수식으로 생성된 mask를 사용해서

- 38 -

subdivision 과정에 용하면 n+1차원의 B-spline을 생성할 수 있는 것이다.

1 , ,0 12 n

n n nn

⎛ ⎞⎛ ⎞ ⎛ ⎞ ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎝ ⎠

(3.16)

즉, 1차원 B-spline의 경우, 0( ) 1r r= = , 2차원 B-spline은

0 1( , ) 1/ 2(1,1)r r r= = , 3차원 B-Spline의 경우에는 0 1 2( , , ) 1/ 4(1, 2, 1)r r r r= =

의 averaging mask를 용해서 생성할 수 있다. 그림 3.16은 Chaikin의 알고리즘

을 용해서 구 한 subdivision 과정을 보여 다.

이런 uniform subdivision의 다른 로는 Daubechies Subdivision을 들 수 있

다. Daubechies Subdivision은 마치 랙털 같은 복잡한 양상의 곡선을 생성해 주

며, 1/ 2 1/ 2

0 1( , ) 1/ 2(1 3 , 1 3 )r r = + − 이라는, 다소 생소한 mask를 사용한다.

Daubechies의 mask에 해서는 뒤에서 다시 자세히 다룬다.

(a) (b) (c) (d)

그림 3.16 Chaikin 알고리즘 용

(a) 기곡선 (b), (c), (d) 최종 곡선이 형성되는 과정

4) Non-uniform Subdivision

non-uniform subdivision은 체 에 해 용하는 mask 값이 균등하지 않은

경우를 가리키며, averaging step에 한 일반식은 다음과 같다.

,j j j

i i k i kk

c r c += ∑ (3.17)

- 39 -

이 식은 다시 행렬 형태로 변환할 수 있다.

j j jic R c= (3.18)

다음은 행렬로 표 한 non-uniform subdivision의 averaging mask로 Hoppe가

제안한 B-spline에 한 mask다.

41 2 1

1 2 11...4

1 2 14

jR

⎛ ⎞⎜ ⎟⎜ ⎟⎜ ⎟

= ⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

(3.19)

5) 첩 스페이스와 세분화가 가능한 스 일링 함수(refinable scaling function)

벡터 스페이스 V 는 0 1 2 ...V V V⊂ ⊂ ⊂ 의 성질을 가지는데, 벡터 스페이

스의 이런 속성을 ‘ 첩성(nested)'이라고 한다. 여기에서는 subdivision을 통해 벡

터 스페이스의 첩성을 정의해 보고 첩성에 의해 정의되는 웨이블릿 함수의

특성에 해 알아보자. 벡터 스페이스 V 는 다음 수식과 같이 정의된다.

{ }0 1 2 1( ) , ( ) , . . . , ( )j

j j jj x x xV s p a n φ φ φ−

= (3.20)

이것을 달리 얘기하면 0 2 1( ), ..., ( )j

j jx x−

Φ Φ 로 구성되는 함수가 jV 의 기 함수

를 구성한다는 것을 의미한다. 이 때, 첩성이 정의되는 기 함수를 스 일링 함

수라고 한다. 첩성을 가지는 기 함수는 세분화가 가능하다. 즉, 1j − 벨의

함수는 j 벨 함수의 선형 결합으로 모두 생성할 수 있다는 것이다.

앞에서 정의한 Haar의 박스 함수는 첩성을 가지며, 그 기 때문에 세분화가

가능하다. 다음 수식은 이 성질을 수식으로 나타내고 있으며, 그림 3.17은 Haar 웨

- 40 -

이블릿 박스 기 함수의 첩성을 설명해 다.

12 2 1( ) 1 ( ) 1 ( )j j j

i i ix x xφ φ φ−+= ⋅ + ⋅ (3.21)

1

0

1jiφ−

1

0

1

0

2jiφ 2 1

jiφ +

1

0

1jiφ−

1

0

1

0

2jiφ 2 1

jiφ +

그림 3.17 박스 함수의 세분화

모든 subdivision 방식은 세분화가 가능한 스 일링 함수를 생성하기 때문에

첩된 벡터 스페이스를 정의할 수 있게 해 다. 이 과정에 해 알아보자.

subdivision과 첩 스페이스의 계를 이해하려면 우선 subdivision의 splitting과

averaging 과정이 기값 0jc 에 해 선형 이라는 것을 인식해야 한다. 그 기

때문에 최종 함수는 다음 수식과 같이 정의할 수 있다.

0 0( ) ( )i ii

f x c xφ= ∑ (3.22)

1 1... ( ) ( ) ...j j j ji i i i

ic x c xφ φ− −= = = =∑ ∑ (3.23)

이 수식을 행렬식으로 표 하면 다음과 같다.

1 1( ) ... ( ) ( ) ...j j j jf x x c x c− −= = Φ = Φ = ,

0 1, ( ) ( ( ), ( ), ... )j j jwhere x x xφ φΦ =(3.24)

- 41 -

Splitting과 averaging 과정은 1

1jc −

의 값에 해서도 선형 이기 때문에 jc 는

splitting 과 averaging을 표 하는 행렬 P로 표 할 수도 있다.

1j j jc P c −= (3.25)

여기서 행렬 jP 는 averaging을 수행하는 행렬

jR 와 splitting을 장하는 다

른 행렬의 곱으로 구할 수 있으며, subdivision matrix라고 한다. 이제 스 일링

함수와 이 행렬과의 계를 알아보자.

1 1( ) ( )j j j jx c x c− −Φ = Φ

1 1 1( ) ( )j j j j jx c x P c− − −Φ = Φ

1 ( ) ( )j j jx x P−∴ Φ = Φ

(3.26)

의 수식은 스 일링 함수의 세분화 계를 보여 다. 이 수식에 의하면 모든

성긴 벨의 스 일링 함수는 상 벨의 스 일링 함수의 선형 결합으로 표

할 수 있다. 세분화가 가능한 스 일링 함수라는 것은 첩 스페이스에서

subdivision에 의해 정의된 스 일링 함수이며 기본 scaling 함수의 선형 결합만으

로 모든 기 함수를 생성할 수 있다. 다음에는 이 함수의 계층 구조에 해 알

아보자.

나. 다해상도 분석(Multi-resolution Analysis)

1) 정의

다해상도 분석을 한 기본 조건은 다음과 같다.

∙subdivision 과정을 통해 정의된 스 일링 함수만이 세분화가 가능하다.

∙ 첩된 선형 함수 스페이스를 형성하는데 사용되는 함수는 subdivision 과정

을 통해 정의된다.

- 42 -

여기서는 이런 조건을 만족하는 함수 스페이스를 통해 다 해상도 분석에 필

요한 수학 개념에 해 알아본다.

2) 세분화(Refinement)

스 일링 함수 웨이블릿 함수와 행렬식과의 계를 알아보고, 이 두 함수를

행렬식으로 표 해 보자. jV 스페이스에 속한 스 일링 함수는 다음과 같이 표

할 수 있다.

0 ( ) 1( ) : ( ), ..., ( )j j jv jx x xφ φ −⎡ ⎤Φ = ⎣ ⎦ (3.27)

마찬가지로 웨이블릿 스페이스 jW 에 속한 함수 역시 다음과 같이 표 할 수 있

다.

0 ( ) 1( ) : ( ) , ... , ( )j j ju jx x xψ ψ −⎡ ⎤Ψ = ⎣ ⎦ (3.28)

여기서 jW 스페이스는

jV 스페이스와 상호 보완 계에 있기 때문에

( 1) ( ) ( )v j v j w j+ = + 라는 등식도 성립한다. jV 서 스페이스가 첩성을 띤다

는 것은 세분화가 가능한 스 일링 함수가 있다는 것과 일맥상통한다. 그 기 때

문에 이런 스페이스에서는 앞에서 정의했던 jP 라는 행렬이 존재할 수 있다. 즉

다음과 같은 식이 성립할 수 있다.

1 ( ) ( )j j jx x P−Φ = Φ (3.29)

1( ) ( )j j jx x Q−Ψ = Ψ (3.30)

를 들어 의 공식을 Haar 기 함수에 용해 보자 벨 j 에는 ( ) 2 jv j =

개의 스 일링 함수와 ( ) 2 jw j = 개의 웨이블릿이 있다. 그 기 때문에 Haar 기

- 43 -

함수에는 1V 의 2개의 스 일링 함수와

1W 의 2개의 웨이블릿을 2V 에 존재하

는 4개의 스 일링 함수로부터 산출하는 세분화 행렬이 반드시 존재한다. 이 세분

화 행렬을 나타낸 것이 수식 (3.32)이다.

1 2 2( ) ( )x x PΦ = Φ

1 2 2( ) ( )x x QΨ = Ψ(3.31)

2

1 01 00 10 1

P =

2

1 01 0

0 10 1

Q−

=

−

(3.32)

의 수식은 하나의 수식으로 묶어서 표 가능하다.

1 1[ | ] [ | ]J J j j jP Q− −Φ Ψ = Φ (3.33)

3) 필터 뱅크(Filter Bank)

앞에서 정의한 행렬식은 웨이블릿 변환에도 활용할 수 있다. 여기에서는 행렬식

과 계층 인 웨이블릿 변환과의 계를 정의한다. 스페이스 jV 에 존재하는 함수

를 생각해 보자. 이 함수의 계수들은 스 일링 함수를 통해 정의되며 다음 행렬식

으로 정의할 수 있다.

0 ( ) 1[ ... ]j j j Tv jc c c −= (3.34)

여기서 jc 에 한 해상도 표 을 생성하기 해서는

jc 를 다운샘 링 해

야 한다. 다운 샘 링 과정은 행렬로 표 할 수 있다.

1j j jc A c− = (3.35)

- 44 -

이 때 jA 는 ( 1) ( )v j v j− × 형태의 행렬을 가리킨다. 다운샘 링 과정은 이와

같이 수행되지만, 이 과정에서 잃게 되는 세부 정보를 따로 샘 링해서 장할 수

도 있다. 여기에 사용되는 행렬이 jB 며 세부정보는 다음 수식으로 표 할 수 있

다.

1j j jd B c− = (3.36)

여기서 jB 는 ( 1) ( )w j v j− × 형태로 구성되는 행렬이다.

jA 와 jB 를 분

석필터(analysis filter)라고 하며, 이 두 행렬을 사용하면 jc 의 계수를 하 계수

1jc −과 세부 정보

1jd −로 구분할 수 있다. 만약

jA 와 jB 를 하게 선정한

다면, 1jc −

과 세부 정보 1jd −로부터 본래의 계수

jc 의 값을 복원하는 것도 가

능하다. 이 때 사용하는 행렬을 jP 와

jQ 라고 하며, 이 두 행렬을 합성 필터

(synthesis filter)라고 한다.

1 1j j j j jc P c Q d− −= + (3.37)

Haar 기 함수에서 2A 와

2B 를 구하면 다음과 같다.

2 1 1 0 010 0 1 12

A⎡ ⎤

= ⎢ ⎥⎣ ⎦

2 1 1 0 010 0 1 12

B−⎡ ⎤

= ⎢ ⎥−⎣ ⎦(3.38)

필터 뱅크는 반복 인 분석과정을 가리키는데, 필터 뱅크에 의해 분해된 계수는

0 1 1, , , ... ,j jc d d d −로부터 다시 복원이 가능하다. 필터를 반복 으로 용하는

과정은 일반 으로 ‘웨이블릿 변환’으로 알려진 변환과정과 동일하며,

0 1 1( , , , ... , )j jc d d d −의 크기는 본래 데이터

jc 의 크기와 일치한다. 필터 뱅크

의 용 과정은 다음 그림 3.18과 같다.

- 45 -

jc

jA

jB

1jc −

1jd −

1jA −

1jB −

2jc −

2jd −

…… 1c1A

1B

0c

0d

jc

jA

jB

1jc −

1jd −

1jA −

1jB −

2jc −

2jd −

…… 1c1A

1B

0c

0d

그림 3.18 필터 뱅크

이 필터 뱅크를 일반화하면 다음 수식과 같이 표 할 수 있다.

1 1[ | ]j

j j jj

AB

− − ⎡ ⎤Φ Ψ = Φ⎢ ⎥⎣ ⎦

1[ | ]j

j jj

A P QB

−⎡ ⎤ =⎢ ⎥⎣ ⎦

(3.39)

수식에서 볼 수 있듯이 jA ,

jB 와 jP ,

jQ 는 서로 한 계를 가진다. 분

석 필터와 합성 필터의 계는 여러 종류의 웨이블릿의 성격을 정의하기도 한다.

이제, 웨이블릿의 3가지 종류의 웨이블릿의 성격을 정의하기도 한다. 이제 웨이블

릿의 3가지 종류에 해 알아보고, 그에 따른 필터간의 계에 해 알아보자.

다. 웨이블릿의 종류

웨이블릿은 웨이블릿 세분화 행렬 jQ 의 생성 방법에 따라 orthogonal,

semiorthogonal, bi-orthogonal의 3가지로 분류할 수 있다.

1) Orthogonal 웨이블릿

Orthogonal 웨이블릿이란 직교성이 있는 기 를 가진 웨이블릿을 가리키는데,

직교성이 있는 기 함수는 서로 직교하는 성질을 가진다. Orthogonal 웨이블릿이

가져야 할 조건은 다음과 같다.

․스 일링 함수는 서로 직교한다.

․웨이블릿 함수도 서로 직교한다.

- 46 -

․각 웨이블릿 함수는 모든 성긴(coarser) 스 일링 함수와 직교한다.

이 조건을 수식으로 표 하면 다음과 같다.

|j j I=⎡ ⎤< Φ Φ >⎣ ⎦

|j j I=⎡ ⎤< Ψ Ψ >⎣ ⎦

0|j j =⎡ ⎤< Φ Ψ >⎣ ⎦

(3.40)

Orthogonal 웨이블릿은 다음과 같은 성질을 가진다.

1[ | ] [ | ]j

j j T j jj

AP Q P QB

− ⎡ ⎤= = ⎢ ⎥⎣ ⎦

( )j j TA P= ( )j j TB Q=

(3.41)

즉, orthogonal 웨이블릿에서는 세분화 행렬과 합성 행렬의 결합에 역을 취한

것과 이 결합을 치환해서 얻은 행렬이 동일하다.

Orthogonal 웨이블릿에 속하는 웨이블릿은 앞에서 설명한 Haar 웨이블릿 외에

도 Daubechies가 발견한 Daubechies 웨이블릿이 있다. Daubechies 웨이블릿은

Haar 웨이블릿보다 부드러운 기 함수를 제공하는 직교 웨이블릿으로 D2, D4,

D6,... 등 다양한 필터가 개발되어 있다. 그림 3.19는 Daubechies 웨이블릿 D4

필터에 사용되는 함수를 나타낸다.

그림 3.19 Daubechies 기 함수 : (a) D4 스 일 함수 (b) D4 웨이블릿

- 47 -

2) Semi-orthogonal 웨이블릿

Semi-orthogonal 웨이블릿은 주어진 해상도에 해당하는 웨이블릿 기 함수가 성

긴 벨의 스 일링 함수와 직교하는 웨이블릿을 가리킨다. 웨이블릿 함수가 서로

에 한 직교 조건을 만족시킬 필요는 없다. 다음 수식은 semi-orthogonal 웨이블

릿의 조건을 표 하고 있다.

0|j j =⎡ ⎤< Φ Ψ >⎣ ⎦

0|j j j jP Q =⎡ ⎤< Φ Ψ >⎣ ⎦

( ) 0|j T jj jP Q∴ =⎡ ⎤< Φ Ψ >⎣ ⎦

(3.42)

Semi-orthogonal 웨이블릿을 생성하려면 의 수식을 만족시키는 jQ 행렬을 찾

아내야 한다.

3) Bi-orthogoanal 웨이블릿

Bi-orthogonal 웨이블릿을 생성하려면 [ | ]j jP Q 행렬에 한 역행렬이 존재해

야 한다. 즉, 분석 행렬 jA 와

jB 가 존재한다는 제조건을 만족해야 한다. 그리

고 다음 조건을 만족하는 dual 함수를 정의해야 한다.

|j j I=⎡ ⎤< Φ Φ >⎣ ⎦% |j j I=⎡ ⎤< Ψ Ψ >⎣ ⎦% (3.43)

Bi-orthogonal 웨이블릿의 핵심은 바로 이 dual 웨이블릿 함수라고 할 수 있다.

Bi-orthogonal 웨이블릿 함수의 정의 조건은 다음과 같다.

|j j I=⎡ ⎤< Φ Φ >⎣ ⎦% |j j I=⎡ ⎤< Ψ Ψ >⎣ ⎦%

0|j j =⎡ ⎤< Φ Ψ >⎣ ⎦% 0|j j =⎡ ⎤< Ψ Φ >⎣ ⎦%

|j j i s in v e r t ib leP Q⎡ ⎤⎣ ⎦

(3.44)

- 48 -

라. Daubechies D4 변환

Daubechies 웨이블릿의 기 함수는 Haar 기 함수와 마찬가지로 직교성을 띠는

웨이블릿 함수로, 이 웨이블릿에는 평균 계수의 개수에 따라 D2, D4, D6, .... 등의

다양한 기 함수가 존재한다. 이 D2는 Haar 변환 방식을 정규화한 것과 동일

하다. 일반 으로 계산의 복잡도와 변환 화질을 고려해서 D4 방식을 가장 많이

사용한다. 여기에서는 Daubechies D4 필터에 해 상세하게 알아본다. D4 필터의

스 일링 계수와 웨이블릿 계수는 다음과 같다.

0 1 2 31 3 3 3 3 3 1 3( , , , ) , , ,4 2 4 2 4 2 4 2

h h h h⎛ ⎞+ + − −= ⎜ ⎟⎝ ⎠

(3.45)

0 1 2 31 3 3 3 3 3 1 3( , , , ) , , ,4 2 4 2 4 2 4 2

g g g g⎛ ⎞− − + + − −= ⎜ ⎟⎝ ⎠

(3.46)

스 일링 계수는 평균값을 산출하고 웨이블릿 계수는 차이값, 즉 웨이블릿 계수

를 산출한다. 스 일링 함수와 웨이블릿 함수는 각각의 계수 4개와 데이터 값 4개

를 내 을 통해 최종값을 생성하는데, 처음 입력된 데이터의 개수가 N개라고 하

면, 변환을 끝낸 데이터는 / 2N 개의 평균값과 / 2N 개의 웨이블릿 계수(세부

계수)를 가지게 된다. 다음 수식은 웨이블릿 변환 과정을 행렬식으로 나타낸 것이

다.

0 1 2 3 0

0 1 2 3 1

0 1 2 3 2

0 1 2 3 3

0 1 2 3 4

0 1 2 3 5

0 1 2 3 6

0 1 2 3 7

0 0 0 00 0 0 0

0 0 0 00 0 0 00 0 0 00 0 0 00 0 0 0 0 00 0 0 0 0 0

h h h h sg g g g s

h h h h sg g g g s

h h h h sg g g g s

h h h h sg g g g s

⋅ (3.47)

- 49 -

행렬식에서 볼 수 있듯이 D4 변환에서는 Haar 변환에서 발생하지 않았던 문제

가 나타난다. 바로 경계 처리에 련된 문제이다. 경계값으로 인해 발생하는 문제

를 해결하는 방법에는 3가지가 있다.

∙데이터를 순환 데이터로 보고, 마지막 데이터의 뒤에는 데이터 시작부분이 오

는 것으로 간주해서 경계값을 처리한다.

∙데이터가 반사 상을 일으키는 것으로 처리한다. 즉 마지막 부분의 데이터는

처음 나타났을 때와는 반 순서로 뒤에 반복한다.

∙Gram-Schmidt orthogonalization을 사용한다. 즉 데이터의 처음과 끝부분의

데이터에는 별도의 경계처리를 고려할 필요가 없는 웨이블릿 함수를 용한다.

다음 수식은 웨이블릿 복원 과정에 한 행렬식을 보여 다.

2 2 0 0

3 3 1 1

2 2 0 0 1

3 3 1 1 1

2 2 0 0 2

3 3 1 1 2

2 2 0 0 3

3 3 1 1 3

0 0 0 0 0 00 0 0 0 0 0

0 0 0 00 0 0 0

0 0 0 00 0 0 00 0 0 00 0 0 0

i

i

i

i

i

i

i

i

h g h g ah g g g c

h g h g ah g h g c

h g h g ah g h g c

h g h g ah g h g c

+

+

+

+

+

+

⋅ (3.48)

수식에서 a 는 평균값을 나타내고 c 는 웨이블릿 계수를 나타낸다.

- 50 -

제 2 SVM(Support Vector Machine)

1. 개요

SVM은 Vapnik에 의해 제안된 통계학 학습이론에 기반한 보편 근방법으

로 경험 성능뿐만 아니라 고차원 공간에서의 뛰어난 일반화 성능으로 분류문제

의 해결방법으로 심을 받고 있다. SVM은 기존의 통계 학습 방법들에 이용되

는 경험 험 최소화 방법과는 다른 구조 험 최소화를 이용하여 일반화 에

러를 이는 방법을 취하고 있다. 한 SVM은 역 오류(Backpropagation) 신경

망이나 방사기 함수(Radial Basis Function)와 같은 기존의 다른 근방법들처럼

패턴인식/분류나 비선형 곡선 함수 추정 등의 다양한 일을 효과 으로 수행할 수

있다. 이진 패턴 분류 문제에서 SVM은 학습 데이터의 성격에 따라 선형 분리 가

능한 경우, 선형 분리 가능하지 않는 경우, 비선형 특징 공간의 세 가지로 나 다.

SVM의 기본 원리는 선형 분리 가능한 문제에서 출발하며, 선형 분리 가능하다는

것은 두 집단으로 구분되는 평면이 존재한다는 의미이다. 선형 분리 가능하지

않은 경우는 데이터가 분리면의 반 편에 존재하는 경우가 발생하여, 학습 데이터

가 선형 으로 분리되지 못하는 경우이며 SVM은 데이터가 원래 제약조건에서 어

느 정도 배되는지의 수 을 측정하여 선형 인 결정평면을 찾아 다. 비선형 특

징공간의 경우에는 학습 데이터가 선형 분리면으로 나뉘지 않게 되며, 이러한 경

우 SVM은 입력벡터를 고차원 특징공간으로 매핑한 뒤 고차원 공간에서 선형 분

리면을 찾아낸다. 이때 커 함수의 도움을 받아 특징공간에서 입력 벡터의 내

을 쉽게 구하는 방법을 알아낸다.

그림 3.20 Linear Separators

- 51 -

2. SVM 분류기

optimalhyperplan

margin

0T b+ =w x

optimalhyperplan

margin

0T b+ =w x

그림 3.22 Optimal Linear Separator

0, , nw x b x w R b R⋅ + = ∈ ∈ (3.49)

여기서 SVM은 가 치 벡터 w 와 바이어스 b 로 구성되는 0w x b⋅ + = 의

최 분할 경계면을 갖도록 표본 1( , ) iN

i ix y −를 학습시키는 것이다[Cristi00]. 여기

서 ix 는 i 번째 에 한 입력 패턴이고, iy 는 원하는 출력이다.

ρ

r

ρ

r

그림 3.23 Maximum Margin

- 52 -

결국 2개의 클래스와 최 분할 경계면사이의 거리에 따른 마진(margin)

( , )w bρ 는 가 되며, 입력패턴을 최 으로 분류하는 최 분할 경계면은 다음 비

용함수 ( )wθ 를 최소화한다. 여기서 비용함수 ( )wθ 는 2( ) 1/ 2w wθ = 이다. 이

최 화 문제를 해결하기 하여 라그랑지 승수법을 이용하면 다음과 같은 라그랑

지 함수를 얻을 수 있다.

2

1 1

1 ( )2

N N

p i i i ii i

L y x w bw α α= =

= − + +∑ ∑ (3.50)

최 화 문제에 한 해는 w 와 b 에 해서는 최소화되고, 0iα ≥ 에 해서

는 최 화되어야 한다. 따라서 w 와 b 에 한 라그랑지 함수의 최소는 각각에

한 미분으로 얻어질 수 있다.

10 0

N

i ii

L yb

α=

∂= → =

∂ ∑

1

0N

i i ii

L w x yw

α=

∂= → =

∂ ∑(3.51)

한편, 의 두 결과를 라그랑지 함수에 입하면 다음과 같은 이원문제(dual

problem)의 목 함수 ( )Q α 로 표 할 수 있다.

1 1 1

1( )= ( )2

N N NT

i i j i j i ji i j

Q y y x xα α α α= = =

− ⋅∑ ∑ ∑ (3.52)

따라서 분류문제를 의 식으로 바꾸어 생각하면, 학습패턴 1( , ) iN

i ix y −이 입력

으로 주어졌을 때, 제약조건 1

0N

i ii

yα=

=∑ 와 0 ( 1,2,..., )i i Nα ≥ = 를 만족하는 목

함수 ( )Q α 를 최 화하는 라그랑지 승수 iα 를 찾는 것이다.

- 53 -

ρ

r

01 =α

02 =α

04 =α

05 =α

07 =α

08 =α

4.010 =α

09 =α

010 =α

011 =α

8.03 =α

4.16 =α

ρρ

r

01 =α

02 =α

04 =α

05 =α

07 =α

08 =α

4.010 =α

09 =α

010 =α

011 =α

8.03 =α

4.16 =α

01 =α

02 =α

04 =α

05 =α

07 =α

08 =α

4.010 =α

09 =α

010 =α

011 =α

8.03 =α

4.16 =α

그림 3.24 Support Vectors in Dual Problem

따라서 의 제약조건식 하에서 목 함수 식을 최 로 하는 최 의 라그랑지

승수 ioα 를 찾으면 최 의 가 치 벡터 ow 가 계산될 수 있으며 최 의 바이어스

ob 는 서포트 벡터(support vector)로부터 계산될 수 있다. 각각의 계산식은 다음

과 같다.

1

N

o i i ii

w x yα=

= ∑

1 [ ]2o o r sb w x x= − +

(3.53)

여기서 rx 과 sx 는 각각 다음의 조건을 만족하는 서포트 벡터이다.

, 0, 1, 1ro so r sa y yα > = = − (3.54)

한편 선형 으로 분류 가능하지 않은 문제에 해 분류 가능하게 하는 일반화된

최 분할 경계면을 해 음수가 아닌 스칼라 변수 0iξ ≥ 를 사용한다. 여기서

iξ 는 잘못된 분류와 계된 오차의 척도로 슬랙변수(slack variable)이다.

- 54 -

iξiξ

iξiξ

그림 3.25 Soft Margin

따라서 선형 가능하지 않은 경우를 해 슬랙변수 iξ 를 포함한 제약조건은 다

음과 같다.

( ) 1 , 1, 2, ...,i i iy w x b i Nξ⋅ + ≥ − = (3.55)

한 의 제약조건을 만족하는 가 치 벡터 w 와 슬랙변수 iξ 를 포함하는

비용함수 ( , )w ξΘ 는 다음과 같다.

2

1

1( , )2

N

ii

w cwξ ξ=

Θ = + ∑ (3.56)

여기서 c 는 양의 값으로 학습오차와 일반화 능력 사이의 상 계를 제어하

는 라미터이다. 의 식에 한 최 화 문제에 한 라그랑지 함수는

( , , , , )L w b ξ α β 로 표 되며, 여기서 β 는 0ξ ≥ 의 조건을 한 라그랑지

승수이다. 주어진 라그랑지 함수에 한 이원문제의 목 함수 ( )Q α 는 앞에서 말

한 분류 가능한 문제에서 목 함수와 동일하다. 다만, 주어진 목 함수 ( )Q α 의

최 화 조건은 10

N

i ii

yα=

=∑와 0 ( 1,2,..., )i c i Nα≤ ≤ = 으로 iα 의 상한선이

주어지는 것만 다르다. 한 최 의 가 치 벡터와 최 의 바이어스 역시 앞과 같

- 55 -

은 과정으로 구해진다.

지 까지의 최 분할 경계면은 선형의 결정면만을 설명한 것으로 모든 문제에

용될 수는 없으므로, 비선형 분류도 가능하도록 하기 해 좀 더 일반 인 결정

면을 가지도록 할 필요성이 있다.

0x

0x

0x

2x

0x

2x

그림 3.26 Higher-dimensional space

이를 한 방법으로 SVM에서는 입력벡터 x 를 고차원(high dimension) 특징공

간 z 로 사상을 이용한다. 이는 분리 가능한 최 분할 경계면이 입력공간에서

비선형이나 변환을 통해 고차원 특징공간에서 선형 으로 표 될 수 있느냐 하는

것이다. 이 게 입력공간의 입력벡터를 특징공간으로 사상하기 해서는 커 함수

K 를 사용함으로써 계산이 가능하다. 여기서 커 함수와 특징공간과의 계는 다

음과 같다.

( , ) ( ) ( )Ti j i jK x x z x z x= ⋅ (3.57)

사상을 한 커 함수로는 여러 종류가 사용될 수 있다.

․ p 차수의 다항식 커 (polynomial kernel of degree p)

- 56 -

( , ) ( 1) pi j i jK x x x x= ⋅ + (3.58)

․방사기 함수 커 (radial basis function kernel)

( , ) ( 1) pi j i jK x x x x= ⋅ + (3.59)

․탄젠트 커 (tangent kernel)

( , ) tanh ( )i j i jK x x kx x δ= ⋅ − (3.60)

커 함수를 구하게 되면 이때 목 함수는 다음과 같이 쓸 수 있게 된다.

1 1 1

1( ) ( , )2

N N N

i i j i j i ji i j

Q y y K x xα α α α= = =

= −∑ ∑ ∑ (3.61)

SVM의 특징은 최 분할 경계면(optimal hyperplane)을 찾기 하여 체 데이

터를 다루지 않고, 분할 경계면 주변의 몇 개의 서포트 벡터만을 다룬다는 것이

다. 서포트 벡터들과 이들의 승수를 학습시켜 잡음이 들어가거나 특징공간 내에서

분리가능하지 않는 비선형의 경우에도 근 가능하다는 특징을 갖고 있다. 아래

<그림>에서는 N차원의 공간상에서 N+1차원의 고차원 평면으로 분류가 가능한 두

부류가 주어졌을 경우 SVM 방법을 이용하여 최 분할 경계를 표 한 것이다.

x'x→Φ: x'x→Φ:

그림 3.27 Non-linear SVM

- 57 -

제 4 장 실험 결과분석

본 연구에서는 무제약 이미지에서 자 역을 찾고자 Windows XP에서 Visual

C++ 6.0과 Matlab 7.0 그리고 펜티엄 IV 2.4GHz를 사용하 다. 제안된 이미지는

256×256, 640×480 해상도로 간 , 도로, 학교 등의 실내외 환경에서 취득한 자연이

미지 간 이미지 신문과 잡지로부터 획득한 100개의 자연이미지를 사용하

다. 비를 가진 상의 경우이거나 인식이 어려운 크기의 자 역은 추출

이 어려우므로 본 연구에서는 16×16 크기 이상의 자 역만을 고려하 다.

다해상도(Multi-resolution) 웨이블릿 변환을 수행하여 무제약 상에서의 텍스처

의 특징을 찾는다. 이미지에 수평 수직방향으로 필터를 용하여 고주 성분

을 갖는 LH, HL, HH 부밴드와 주 성분의 LL 부밴드로 이미지를 분해한다.

각 부밴드들은 서로 다른 특성을 나타내는데 LL은 원 이미지를 축소한 것과 같으

며, LH는 수평 성분, HL은 수직 성분, HH는 각 성분에서 웨이블릿 계수값이

크게 나타나며, 이는 수평, 수직 각선 방향의 텍스처 특징을 악할 수 있게

해 다. 입력 상의 2차원 Haar 웨이블릿 변환은 그림에서 보여 다.

그림 4.1 입력이미지의 2차 웨이블릿 변환

- 58 -

배경의 복잡도에 따른 성능을 비교하기 해서 단순한 이미지와 복잡한 이미지

로 분류하여 실험하 으며, 단순한 이미지는 당한 크기의 텍스트를 포함하며 배

경과의 구분이 명확하고 기울어짐과 원근이 비교 은 것이고 복잡한 이미지는

단순한 이미지에 속하지 않는 나머지 이미지들이다. ICDAR에서 제공한 학습

(training) 이미지와 테스트(test) 이미지도 실험하 다.

실험 결과는 표 4.1과 같으며, 성능 평가[21]를 하여 체 실험 상 이미지에

서의 텍스트 역의 개수는 Total, 정확히 찾은 텍스트 역의 개수는 Correct, 텍

스트 역의 일부만 찾아진 개수는 Partial, 텍스트 역을 찾지 못한 경우는

Missing, 텍스트가 아닌 역을 텍스트로 찾은 개수는 False로 하 다. 성능 측정

단 로 Precision을 사용하여 체 찾은 역 에서 정확히 찾은 자 역의 비

율로서 정확성을 표 하며, Recall은 자 역으로 찾은 개수 에서 일치하게 찾

아진 역의 비율로서 찾지 못하는 것을 악하기 한 것이다.

Precision = (Correct+Partial) / (Correct+Partial+False)

(Recall = C orrect + Partial) / (T otal num ber of texts)(4.1)

표 4.1는 배경의 복잡도에 따른 자 역의 추출 성능을 평가하기 한 것으로 단

순한 이미지에서 Precision 과 Recall 모두 좋은 성능을 보여주고 있으나, 복잡한

배경을 가지거나 폰트의 크기가 다양한 상에서는 Missing과 False 역이 많이

찾아지는 경향을 볼 수 있었다. 이러한 원인으로 주로 자 크기가 체 이미지에

서 차지하는 역이 넓고, 간 이미지에서 많이 볼 수 있는 그래픽 폰트의 자

들이 많기 때문에 오류가 발생한 것으로 본다.

Total Correct Partial Missing False

단순

이미지

역 개수 235 207 5 12 72

Precision 70.2% Recall 90.2%

복잡

이미지

역 개수 296 250 11 25 140

Precision 65.1% Recall 88.2%

표 4.1 실험이미지 성능 평가

- 59 -

그림 4.2 자연이미지에 한 역 추출 결과

그림 4.2는 실험에 사용된 단순한 자연이미지를 보여주고 있으며 역을 잘 찾

고 있음을 알 수 있다. 그림 4.3에서 보여주는 이미지와 같이 폰트의 크기, 모양,

조명변화 등이 다양한 상의 경우 역을 잘 찾지 못한 오류의 를 볼 수 있으

며 (a)는 심한 조명으로 발생한 오류이며 (b) 다양한 폰트와 복잡한 배경으로 인해

서 발생한 오류이다. (c)는 간 이미지와 마찬가지로 문자의 크기가 무 커서 찾

지 못한 오류이며 (d)는 복잡한 배경과 무늬로 인해서 발생한 오류를 보여 다.

자 역 추출은 배경의 복잡도에 따라 단순한 이미지와 복잡한 이미지, 그리

고 다양한 크기의 상을 획득하여 처리하 다. SVM을 이용하여 역을 추출하는

단 은 SVM 알고리즘 자체가 수학 인 증명을 풀어야 하고 학습을 시켜야 하는

문제가 존재하기 때문에 소요시간이 많이 걸린다는 이다. 그러나 오버피 이 없

고 안정 인 성능을 보장하기 때문에 연구가 활발하다.

- 60 -

(a) 심한 조명에 의한 오류(b) 문자와 배경의 복잡으로 인

한 오류

(c) 문자 크기에 의한 오류 (d) 복잡한 배경으로 인한 오류

그림 4.3 자연이미지 역 추출 결과 발생한 오류의

본 연구에서는 실험이미지로 자연이미지 뿐만 아니라 문서 상 이미지도 테스

트 하 다. 신문과 잡지로부터 스캔받은 이미지를 본 내용에서 제안한 방법으로

테스트하 으며 우수한 성능을 얻을 수 있었다. 이미지의 텍스처 속성을 활용하여

웨이블릿 변환과 국부에 지 추정 그리고 SVM 신 K-means 클러스터링 알고리

즘을 용하 다. 웨이블릿 변환으로 이미지의 특징을 추출하여 국부에 지 연산

으로 찾고자하는 역을 강화하 으며, 처리시간을 단축시키기 하여 단순한 이

진분류 알고리즘을 용한 결과 그림과 같은 결과를 얻을 수 있었다.

- 61 -

(a) newspaper1 image (a) journal image (a) newpaper2 image

(b) wavelet (b) wavelet (b) wavelet

(c) feature detection (c) feature detection (c) feature detection

(d) result image (d) result image (d) result image

그림 4.4 문서 상 자 역 검출

- 62 -

제 5 장 결론 향후과제

본 연구에서는 무제약 상을 입력으로 받아 문자 역을 추출하는 연구를 수

행 하 다. 무제약 상에서 문자 역을 검출하기 하여 다해상도 웨이블릿 분

석에 기반하여 서로 다른 스 일에서 텍스처 특징들을 찾아 이를 분류하고자 하

다. 웨이블릿 변환은 멀티 스 일에서 상에 포함된 특징들에 한 추출이 가

능하게 만든다. 멀티스 일 분석과 패턴인식에 기반한 특징추출 구조는 다른 기존

의 특징추출 방법보다 안정 이고 강인하다는 것은 이미 잘 알려진 사실이다[101].

웨이블릿 변환에서 얻은 특징들을 학습시켜 상으로부터 문자 역을 정확하

고 안정 으로 추출하기 해 SVM을 제안하 다. 제안한 방법을 다양한 종류의

이미지에 테스트한 결과 안정 인 추출률을 보 으나, 조명변화가 심하고 비

상이거나 배경이 조잡하고 폰트 크기가 무 큰 상 등에는 문자 역을 찾지

못하는 단 을 보 다.

향후 연구에서는 이러한 오류의 원인을 정확히 분석하여 제안한 방법을 개선하

고 텍스처 특징추출에 한 다양한 연구와 문자 역 검출 연구에서 일진보한 문

자 역 내의 자를 인식하는 인식기의 개발도 연구가 필요하다 하겠다.

- 63 -

[참고문헌]

[1] J. C. Shim, C. Dorai, R. Bolle, "Automatic Text Extraction from Video for

Content-Based Annotation and Retrieval," Proceedings of 14th International

Conference or Pattern Recognition, Vol. 1, pp. 618-620, Brisbane,1998.

[2] Y. Zhong, H. Shang and A. K. Jain, "Automatic Caption Localization in

Compressed Video," IEEE Transactions on Pattern Analysis and Machine

Intelligence, Vol. 22, No. 4, pp. 385-392, 2000.

[3] Anil K. Jain, Bin Yu, "Automatic Text Location in Images and Video

Frames," Pattern Recognition, Vol. 31, No. 12, pp. 2055-2076, 1998.

[4] K. Y. Jeong, K. J, H. J. Kim, "Neural Network-Based Text Location for

News Video Indexing," International Conference on Image Processing(ICIP),

3, pp. 319-323, 1999.

[5] H. Li, D. Doermann, Omid Kia, "Automatic Text Detection and Tracking in

Digital Video," IEEE Transactions on Image Processing, Vol. 9, No. 1, pp.

147-156, 2000.

[6] M. Bertini, C. Colombo, A. Del Isimbo, "Automatic Caption Localization in

Videos using Salient Points," IEEE International Conference on Multimedia

and Expo, pp. 69-72, 2001.

[7] Y. Zhong, H. Shang and A. K. Jain, "Automatic Caption Localization in

Compressed Video," IEEE Transactions on Pattern Analysis and Machine

Intelligence, Vol. 22, No. 4, pp. 385-392, 2000.

[8] F. LeBourgeois, "Robust Multifont OCR System from Gray Level Images,"

International Conference on Document Analysis and Recognition, Vol. 1,

pp. 1-5, 1997.

[9] R. Lienhart, F. Stuber, "Automatic Text Recognition in Digital Videos,"

Image and Video Processing IV, The International Society for Optical

Engineering(SPIE), 1996.

[10] M. A. Smith, T. Kanade, "Video Skimming for Quick Browsing Base on

- 64 -

Audio and Image Characterization," Technical Report CMU-CS-95-186,

Carnegie Mellon University, July 1995.

[11] Chuang Li, Xiaoqing Ding, Youshou Wu, "Automatic Text Location in

Natural Scene Images," Document Analysis and Recognition, Proceedings

Sixth International Conference, pp. 1069-1073, Sept. 2001.

[12] H. K. Kim, "Efficient Automatic Text Location Method and Content-based

Indexing and Structuring of Video Database," Journal of Visual

Communication and Image Representation, Vol. 7, pp. 336-344, 1996.

[13] P. K. Kim, "Automatic Text Location in Complex Color Images using Local

Color Quantization," TENCON 99. Proceedings of the IEEE Region 10

Technical Conference, Vol. 1. pp. 629-632, 1999.

[14] J. Ohya, A. Shio, S. Akamatsu, "Recognizing Characters in Scene Images,"

IEEE Transactions Pattern Analysis and Machine Intelligence, PAMI-16(2),

pp. 67-82, 1995.

[15] Lixu Gu, Toyahisa Kaneko, "Robust Extraction of Characters from Color

Scene Image Using Mathematical Morphology," Proceeding of 7th

International Conference on Pattern Recognition, Vol. 2. pp. 1002-1004,

1998.

[16] 최 우외, "계층 특징 결합 검증을 이용한 자연이미지에서의 장면 텍스

트 추출," 한국정보과학회 논문지 : 소 트웨어 응용, Vol. 31, No. 4, pp.

420-438, 2004.

[17] S. Mallat, "A theory for Multiresolution Signal Decomposition: The Wavelet

Representation," IEEE Trans. Pattern Analysis and Machine Representation,"

IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 11, No. 7, pp.

674-693, July 1989.

[18] R. Devore, B. Jawerth, and B. Lucier, "Image Compression Through

Wavelet Transform Coding," IEEE Trans. Information Theory, Vol. 38, No.

2, pp. 719-746, Mar. 1992.

- 65 -

[19] G. Beylkin, R. Coifman, and V. Rokhlin, "Fast Wavelet Transforms and

Numerical Algorithms, Part I, "Comm. on Pure and Applied Mathematics,

Vol. 44, 1991, pp. 141-183.

[20] C. Cortes, V. Vapnik, "Support Vector Networks," In Proceedings of

Machine Learning, Vol. 20, pp. 273-297, 1995.

[21] S. M. Lucas, A. Panaretos, L. Sosa, A. Tang, S. Wong and R. Young,

"ICDAR 2003 Robust Reading Competition," International Conference on

Document Analysis and Recognition(ICDAR), Vol. 2, pp. 682-687, 2003.

05

Ⅰ

기

Ⅰ

051

웨이블릿변환을이용한무제약이미지상의

자

역추출

응용

2006

․6

조

선

학

교

1. 본 연구보고서는 정보통신부의 출연 등으로 수행한

정보통신연구개발사업의 연구결과입니다.

2. 본 연구보고서의 내용을 발표할 때에는 반드시 정보통신부

정보통신연구개발사업의 연구결과임을 밝 야 합니다.

b1220 0501 0452 1 2

Technology