Transcript
Page 1: 멀티미디어 데이터  : 텍스트 (Text)

1

멀티미디어 데이터 멀티미디어 데이터 ::텍스트텍스트 (Text)(Text)

Lecture #2Lecture #2

Page 2: 멀티미디어 데이터  : 텍스트 (Text)

2

멀티미디어 구성 요소멀티미디어 구성 요소 멀티미디어 구성 요소 :

1) 텍스트2) 그래픽 & 이미지3) 사운드4) 비디오 & 애니메이션

미디어 접근법 :1) 특징 : 정보표현 능력 vs 비용 등2) 컴퓨터 내부 표현 방식3) 파일 저장 방식4) 정보 처리 방식

Page 3: 멀티미디어 데이터  : 텍스트 (Text)

3

텍스트텍스트 (1)(1)

멀티미디어 데이터 가운데 우리가 가장 일반적으로 사용하는 미디어

기본적으로 가장 많이 사용하는 매체 전통적이고 전형적인 매체 적은 저장 공간 비용으로 많은 정보를 표현 데이터의 입력은 키보드 , 스캐너를 사용 정보 전달의 효율성이 낮다

Page 4: 멀티미디어 데이터  : 텍스트 (Text)

4

텍스트텍스트 (2)(2)

텍스트의 표현 문자 코드 (Code) 사용 텍스트 데이터 ( 문자 또는 숫자 ) 를 2 진수의 코드로

정보를 표현 (encoding) 코드 체계 :

ASCII, 한글코드 ( 완성형 / 조합형 코드 ), 유니코드 (unicode) 등

마크업 텍스트 (Markup Text) Postscript, HTML, SGML, XML 등

이미지 텍스트 : 텍스트 스캔 (Text Scan) 문서의 이미지 데이터 문서 인식 프로그램

Page 5: 멀티미디어 데이터  : 텍스트 (Text)

5

텍스트텍스트 (3) – (3) – 문자 코드문자 코드 문자 코드

모든 문자는 이진법을 사용하는 코드로 표시 언어에 따라 알파벳 사용권에서는 대개 8 비트 코드를

사용하고 , 한자를 사용하는 동양권에서는 16 비트 코드를 사용

같은 8 비트를 사용하는 경우에도 사용하는 코드에 따라 다소 차이점이 있다

문자 코드 종류 ASCII 코드 EBCDIC 코드 한글코드 ( 완성형 / 조합형 코드 ) 유니코드 (unicode) 등

Page 6: 멀티미디어 데이터  : 텍스트 (Text)

6

텍스트텍스트 (4) – (4) – 문자 코드문자 코드 ASCII 코드

세계적으로 가장 널리 사용되는 코드 기본적으로 8 비트를 사용하여 256 개의 문자를 표현 8 비트 중 가장 위의 1 비트 (MSB) 를 제외한 7

비트만을 사용하여 128 개의 문자를 표현하고 제일 위의 비트는 오류 확인 목적으로 사용

독일어 , 불어 등 영어의 알파벳 외의 별도의 알파벳을 사용하는 언어를 표현하기 위해서는 8 비트 모두를 사용하여 특수문자나 기호를 표현

IBM 확장 ASCII 처럼 최초의 128 ANSI 코드는 ASCII

코드와 같았으나 나머지 128 개는 Windows 응용 프로그램의 요구를 충족시키기 위해 정의 되었다

Page 7: 멀티미디어 데이터  : 텍스트 (Text)

7

텍스트텍스트 (5) – (5) – 문자 코드문자 코드 EBCDIC 코드

EBCDIC 코드는 IBM 사의 중형 컴퓨터인 IBM360/370/390

시스템에 사용하기 위해 개발된 코드 체계 8 비트로 나타낼 수 있는 256 개의 코드를 모두 사용하지 않고

약 150 개 정도의 코드만을 사용

Page 8: 멀티미디어 데이터  : 텍스트 (Text)

8

텍스트텍스트 (6) – (6) – 문자 코드문자 코드 유니코드

컴퓨터와 인터넷의 대중화로 전세계에서 공통으로 사용할 수 있는 코드 체계가 필요

ISO 에서 모든 언어를 표현할 수 있는 유니코드 (UNICODE) 를 국제표준으로 정하여 전세계에 보급

전세계에 알려진 모든 문자를 포함하고 있으며 8 비트 단위인 옥텟 (Octet) 으로 표현

두 개의 옥텟 만을 사용하는 코드에 따르면 한글은 기존의 완성형 코드를 모두 수용하고 최대 11,172 자를 표현할 수 있도록 한글 표시영역을 확장하여 기존의 문제점을 해소

유니코드는 Microsoft 사에서 지원하고 있어 개인용 컴퓨터 환경에서 국제적인 표준으로 등장

WindowsNT, Windows2000 에서 지원

Page 9: 멀티미디어 데이터  : 텍스트 (Text)

9

텍스트텍스트 (7) – (7) – 문자 코드문자 코드 한글 코드

한글 코드는 크게 완성형과 조합형의 두 종류가 존재 현재 완성형 한글 코드를 주로 사용

조합형 한글 코드 초성 , 중성 , 종성에 각각 특정한 코드를 부여하고 이를 서로

조합하는 형태로 사용하는 코드체계 자음과 모음에 대해 코드를 부여해 두고 한글의 조합 원리에 따라

순서대로 표현하는 방식 완성형 한글 코드

2 바이트 (16 비트 ) 를 사용하여 일상생활에서 사용되는 빈도가 높은 한글과 한자를 포함하여 코드를 지정한 경우

완성형은 한글 글자 하나하나에 코드를 부여하는 코딩 방식

Page 10: 멀티미디어 데이터  : 텍스트 (Text)

10

텍스트텍스트 (8) – (8) – 문자 코드문자 코드 한글 코드

조합형 코드의 경우 조선시대에 사용되던 고어를 포함한 모든 문자를 표현할 수 있다는 장점이 있으나 컴퓨터 통신상에서 한글 전송 시에 글자가 깨어진 채 전송되는 문제점이 있다

완성형 코드의 경우에는 모든 한글을 표시할 수 없다는 단점이 있으나 컴퓨터 통신에서 사용하기에 문제가 적게 발생한다는 장점이 있어 현재 국가 표준으로 지정

조합형을 사용할 경우 모든 가능한 형태의 글자 표현이 가능하지만 , 완성형의 경우는 코드 내에 포함되어 있지 않은 글자들은 표현할 수 없다

Page 11: 멀티미디어 데이터  : 텍스트 (Text)

11

텍스트텍스트 (9) – (9) – 폰트폰트 (( 글자체글자체 ))

텍스트 데이터 처리 : 문서 디스플레이 & 출력 폰트 사용

A. 비트맵 폰트B. 벡터 폰트 - True Type Font(TTF)

Page 12: 멀티미디어 데이터  : 텍스트 (Text)

12

텍스트텍스트 (10) – (10) – 폰트폰트 (( 글자체글자체 ))

[ 참고 ] 비트맵 폰트 & 벡터 폰트 비교 :

I am VECTOR Font

Page 13: 멀티미디어 데이터  : 텍스트 (Text)

13

텍스트텍스트 (11) – (11) – 폰트폰트 (( 글자체글자체 ))

Windows 에서 일반적으로 사용하는 (a) 한글 폰트와 (b) 영문폰트

Page 14: 멀티미디어 데이터  : 텍스트 (Text)

14

텍스트텍스트 (12)(12)

파일 저장 방식 TXT

RTF(Rich Text Format) : 서식 파일 등

문서 작성 프로그램의 파일 저장 방식 : DOC, HWP 등

( 예제 ) 아래아 한글에서 문서작성 후에 각각 TXT 포맷과 HW

P 포맷으로 저장한 다음 , 다시 읽기를 한다 .

Page 15: 멀티미디어 데이터  : 텍스트 (Text)

15

텍스트텍스트 (13)(13)

TXT TXT 포맷으로 운영체제에서 기본적으로 제공하는 텍스트

편집기를 사용하여 만들어진 파일 형식 ASCII 코드 또는 KS 한글 코드만으로 구성 모든 텍스트 편집기나 워드프로세서에서 읽을 수 있다 단순한 텍스트 정보를 교환하기 위한 파일 포맷이므로 그래프나

수식 등을 제공하지 않는다

Page 16: 멀티미디어 데이터  : 텍스트 (Text)

16

텍스트텍스트 (14)(14)

DOC DOC(Document) 는 마이크로소프트사 (MS) 의 워드를

사용하여 작성된 문서 포맷

그래픽 효과 , 그림 및 특수 기호 , 서식 정보 , 탭 , 줄 간격 등 워드에서 필요한 모든 정보를 포함하고 있다

같은 *.doc 이라는 확장자를 사용하더라도 상위 버전에서 만들어진 파일은 하위 버전에서 읽을 수 없을 수 없다

같은 포맷으로 Digital Equipment Corporation (DEC)

에서 Decwrite 라는 워드에디터가 있으며 같은 *.doc

이라는 확장자를 사용하나 서로간의 호환성은 없다

Page 17: 멀티미디어 데이터  : 텍스트 (Text)

17

텍스트텍스트 (15)(15)

HWP

HWP 는 한글 워드 프로세서에서 사용하는 문서 포맷

다른 워드 프로세서의 경우 완성형 코드를 사용하는데 비해 조합형 코드를 사용하고 있는 특징이 있다

그래픽 정보 , 수식 정보 , 특수문자 등 워드프로세서에 필요한 모든 정보를 포한다

Page 18: 멀티미디어 데이터  : 텍스트 (Text)

18

텍스트텍스트 (16)(16)

RTF RTF 는 서로 다른 운영 체제 시스템과 서로 다른 워드프로세서

사이에서도 텍스트 파일을 교환 할 수 있도록 위해 사용되는 문서형식

문서의 구조에 관련된 정보 역시 화면에서 읽을 수 있는 텍스트로 표시

표나 방정식과 같은 복잡한 기능을 사용하지 않는 경우 워드프로세서 사이에 문서를 교환할 수 있는 방법

파일 크기가 워드 프로세서 파일에 비해 수 배 이상 커지며 처리에 많은 시간이 걸리기 때문에 서로 다른 워드 프로세서 사이의 교환에만 사용하는 것이 바람직하다

Page 19: 멀티미디어 데이터  : 텍스트 (Text)

19

텍스트텍스트 (17)(17)

HTML HTML 형식은 일반 TXT 형식으로 되어 있어서 , 일반 TXT

를 편집할 수 있는 편집기라면 조작이 가능 형식은 앞장에서 언급하였듯이 인터넷 웹 문서의 표준

형식으로 단순한 텍스트 파일 형식으로 보기에는 적절하지 않을 수 있다

RTF 형식보다 호환성이 높은 텍스트 문서 포맷으로 등장

Page 20: 멀티미디어 데이터  : 텍스트 (Text)

20

텍스트텍스트 (18)(18)

XML XML 은 1996 년 W3C 에서 제안한 것 웹 상에서 구조화된 문서를 전송 가능하도록 설계된

표준화된 텍스트 형식 SGML 에서 꼭 필요한 핵심 기능만을 수용 XML 과 SGML 간의 변환이 용이 HTML 의 측면에서 보면 기존의 HTML 을 확장 , 보완

하였기 때문에 지금보다 더욱 복잡한 문서의 생성이 가능하고 구조적인 정보도 포한다

Page 21: 멀티미디어 데이터  : 텍스트 (Text)

21

텍스트텍스트 (19)(19)

XML 의 장점 서로 다른 소스로부터 뽑아낸 데이터를 비슷한 것끼리 묶어서

구조화한 데이터를 사용자 인터페이스와 분리가 가능 예를 들면 , 고객 정보 , 구매 주문 , 검색 결과 , 계산서 지불 ,

의학 기록 , 카탈로그 데이터 및 기타 정보가 XML 로 변환되어 HTML 페이지에 데이터를 기록하듯이 쉽게 데이터를 온라인 상에서 교환할 수 있다

데이터가 클라이언트에 전달되면 다시 서버로 되돌아가지 않고도 데이터를 조작 , 편집이 가능하여 서버의 계산 부하나 대역폭 부하가 낮아진다

서로 다른 데이터 소스의 데이터를 XML 포맷으로 바꾸면 이들 데이터를 통합하는 일이 용이

Page 22: 멀티미디어 데이터  : 텍스트 (Text)

22

텍스트텍스트 (20)(20)

텍스트 데이터 처리 : 문서 편집 기본 편집 연산 : 삽입 , 지우기 , 복사 , 옮기기 등

문서 포맷 작업 :

A. WYSIWYG 방식 : 아래아한글 , MS-Word 등

B. 오프라인 방식 : Tex, Latex 등

Page 23: 멀티미디어 데이터  : 텍스트 (Text)

23

Report #1Report #1

다음의 기능을 수행하는 프로그램을 작성하여라1. ASCII 코드 테이블을 출력한다

2. 영문 텍스트 파일을 입력받아 ASCII 코드 별로 빈도수를 계산하여 출력한다


Top Related