introduction data warehouse based on ibm db2 8 th nov. 2005
DESCRIPTION
Introduction Data Warehouse Based on IBM DB2 8 th Nov. 2005. Lee, JeonGeon ([email protected]) Business Intelligence S/W Group, IBM Korea DB2 Information Management Software. Agenda. What is Data Warehouse? Trends of Data Warehouse Real-time Data Warehouse DW Architecture by IBM - PowerPoint PPT PresentationTRANSCRIPT
© 2005 IBM Corporation
Introduction Data WarehouseBased on IBM DB28th Nov. 2005
Lee, JeonGeon ([email protected])Business IntelligenceS/W Group, IBM Korea
DB2 Information Management Software
1. What is Data Warehouse?
2. Trends of Data Warehouse
3. Real-time Data Warehouse
4. DW Architecture by IBM
5. Parallel Database
6. Case Study : KT EDW
Agenda
1. What is Data Warehouse?
Naver 지식 검색을 활용하세요 !
데이터 웨어하우스는 1980 년대 중반 IBM 이 자신이 하드웨어를 판매하기 위해 처음으로 도입했던 개념으로
IBM 은 인포메이션 웨어하우스 (Informationn Warehouse) 라는 용어를 사용하였다 .
이후 이 개념은 많은 하드웨어 , 소프트웨어 및 툴 공급 업체 들에 의해 이론적 , 현실적으로 성장하였으며 , 1980 년대 후반 Inmon 이 데이터 접근 전략으로 데이터 웨어하우스 개념을 사용함으로써 많은 관심과 집중을 받게 되었다 . - From Naver 지식 in
OLTP vs. Data Warehouse
트랜잭션 시스템 트랜잭션 시스템
OLTP(On-line Transaction Processing)
반복되는 단위업무처리 ( 거래처리 )신속한 거래처리
업무별 정보
현행정보 (Current Values)
상세정보
1~2 초 내의 Response Time
데이터웨어하우스데이터웨어하우스
OLAP(On-line Analytical Processing)
의사결정지원 (ad-hoc query)대량의 정보관리매우 빠른 속도로 데이터 량 증가
주제영역별 정보
이력정보 (Historical Snapshots of Data)
상세정보 + 요약 , 집계 , 외부정보
Several seconds to minutes
“Run your business” “Analyze your business”
Query only, no updates, no transactions - Optimized for RetrievalData refresh at regular intervalsSeparate from OLTP apps
–OLTP: “Run your business”–DW: “Analyze your business”–Oriented toward a specific business function
Historical snapshots of dataPotentially rapid data growth - Scalability critical!
Data Warehouse…
Subset of an existing data warehousingNarrower business functionQuery only, no updates, no transactions - Optimized for RetrievalData refresh at regular intervalsSeparate from OLTP apps
–OLTP: “Run your business”–DW: “Analyze your business”–Oriented toward a specific business function
Highly summarized dataHistorical data
Data Mart…
Select product, market, customer… , sum(revenue), sum(margin) … from sales, product, market, customer ... where date between 01/01/2002 and 12/31/2002 and market.state in (‘ 서울’ , ‘ 경기’ ) and customer_age in (18 to 34) group by product… order by customer… ;
DW, DM Query …
고객들이 정말로 선호하는 것은 무엇인가 ?
지난 5 년간 고객들의 구매 패턴은 어떻게 변해왔는가 ?
작년에 각 지역별로 가장 많은 이익을 남겨준 제품은 무엇인가 ?
각 지역별로 top 10 에 드는 고객은 누구인가 ?
분기별로 각 벤더들의 제품에 대하여 매출액 , 비용 , 순이익은 얼마인가 ?
“ 갑돌” 이라는 고객의 주소는 ?
주민등록번호 123456-1234567 의 고객이 이번 달 보험료는
납부했는가 ?
고객번호 101 번의 고객이 가입하고 있는 모든 보험의 내역은 ?
Star Schema
Customer DimensionCustomer Dimension
Product DimensionProduct Dimension
Time DimensionTime Dimension
Store DimensionStore Dimension
Fact Table : SalesFact Table : Sales
store codestore namestore typestreetstate… …( 수백 건 )
customer codecustomer nameagegenderaddresscompanyincome leveleducation… …( 수백만 건 )
time codeproduct codestore codecustomer code
revenuecostunit_soldnet profitquantity… …( 수십억 건 )
time codeorder datemonthquarteryear… …( 수백 건 )
product codeproduct nameproduct typevendor name… …( 수천 건 )
Fact table : dimensional model 의 중심 , measures,
how much or how many Dimension tables : what, where, when
DW 개발 단계
Analysis포괄적으로 interview 를 한다executive, manager, business analyst, end user기본 reportDW 에 기대하는 요구사항Scope 결정 , requirement 정의
필요한 data 가 모두 사용 가능한가 ? 제시간 안에 data 를 얻을 수 있는가 ?필요한 H/W, S/W 사양은 ?
Design주제 영역을 정한다measure/dimension 정의fact table 의 구성요소 정의Dimensional model 생성사용자들과 함께 model 확정Physical model 생성
Data gathering데이터 추출데이터 cleansing데이터 변환데이터 로드
ImplementQuery prototype 실행 및 tuningBI 툴을 사용한 개발필요한 application 개발
시연 & feedback일정 사용자들에게 DW 와 개발된 프로그램 소개FeedbackTuningRecovery plan
Think bigBuild smallVerify success against success criteria
DW 의 구축 효과
정보기술 부문의 효과
OLTP 시스템 작업량 감소SQL 프로그래밍 작업량 감소보고서 생성 작업량 감소유지보수 비용 절감기 투자된 시스템 가치 상승
기업 경영상의 효과
기업 경쟁력 향상하나의 일관성 있는 정보제공사용자에게 직접 정보제공정보자산의 효율적 이용새로운 시장기회 발견의사결정정보에 관한 전산실 업무 감소양질의 정보제공Business Process Reengineering과거 정보시스템 리엔지니어링
Data Warehouse효과
최종사용자 부문의 효과
전산부서 의존도 감소사용의 편리성원하는 정보에 신속하게 접속다양한 분석 수행워크그룹 생산성 증대 ( 업무 프로세스 개선 )환경변화에 신속하게 대응
2. Trends of Data Warehouse
Just in time
The driver of action
Mission Critical & Essential
Forward looking
Pervasive
Maximize Business
Insight
Top 5 trends …. BI Becomes:
Trend #1 – BI Becomes “Pervasive”
조직이 보다 많은 사용자들의 다양한 업무수행을 위해 BI 가 활용될 수 있기를 기대
비즈니스 일선에 좀 더 자세하고 수행 가능한 정보를 제공
아주 전문적인 분석가나 BI 전문가가 아니더라도 쉽게 사용될 수 있는 insight 를 요구
BI 가 이젠 더 이상 별도의 영역이 아니라 업무 수행의 모든 영역에 스며들어 별도로 분리할 수 없게 됨 . • Eclipsys Health Systems – 환자 침대 옆의 컴퓨터들이
a) 병원의 데이터베이스와 연결되어 환자의 상세정보 조회가능 b) 여러 병원의 데이터베이스와도 연결되어 치료 정보와 결과를 제공
• Monaco Cardio Thoracic Centre – 아주 상세한 환자의 레코드들과 예정된 절차 , 치료과정 등을 조회
• Staples – 재고 관리 , 상품간의 제휴 , Cross Sell 과 Self Service 채널 등
Trend #2 – BI Becomes “Just-in-time”
가장 최근의 정확하고 개인화된 데이터를 기반으로 비즈니스 insight 제공 .
의미 있는 정보가 어떤 device 를 통해서나 어느 곳으로나 바로 전달될 수 있게 됨으로써 정보의 가치를 극대화하도록 기대
• Pepsi – “on the fly” 배달 트럭의 경로를 결정함에 있어 가장 수익성있는 배달 경로를 적시에 발견
Trend #3 – BI Becomes the Driver of Actions
BI 와 analytics 가 비즈니스 프로세스와 작업의 흐름에 바로 결합되어짐
- 조직의 DNA 와 같은 일부가 됨 .
Analytics 를 operational 시스템과 연계하여 insight 와 비즈니스 수행 사이의 Closed loop cycle 을 형성 .
이 insight 를 활용하여 비즈니스 전략과 수행을 가이드
• Bank One – 지점의 수익성 시스템이 핵심적인 관리 도구가 되어 직원들의 업무수행과 보너스를 결정
• Nieman Marcus – 여러 상점들의 재고 관리 시스템이 요구에 따라 각 지역 branch 들 사이의 상품의 흐름을 제어 .
• Home Deport – 고객 ,재고 , 수익 그리고 employee 들의 관리를 도울 수 있는
광범위한 enterprise system
• Credit Union Of Texas – “CEO Flight Deck” 고객 , cross-sell/up-sell, 캠페인의 효과를 추적하고 , spatial dimensions
도 분석 가능
Trend #4 – BI Becomes Forward Looking
단순히 레포팅과 분석의 범위를 넘어서 BI 는 predictive modeling 으로 발전되고 있음 .
향후 데이터 마이닝이나 패턴인식과 같은 차원 높은 분석기법에 대한 관심과 기대가 증대될 것임 .
의사결정 프로세스가 실제로 데이터를 기반으로 한 expert 시스템과 통합 .
• Ford – 콜센터에서 수집된 voice 데이터의 마이닝을 통해 안전에 대한 이슈와 recall 등을 예측
• Boots The Chemist (UK) – 스마트 카드 로열티 프로그램이 수익성있는 고객을 확보할 수 있게 함
Trend #5 – BI Becomes Mission Critical & Essential
BI 솔루션이 비즈니스 수행과 성공 그리고 경쟁우위를 점할 수 있는 비즈니스의 핵심이 되고 있음 .
BI 아키텍처가 보다 강력하고 확장성이 보장될 수 있도록 기대되고 있음 .
수 terabytes 의 데이터를 다루고 수천 명의 사용자들이 사용하며 ,
24*365 의 가용성이 요구되고 있음 .
진취적인 조직은 필요한 정보를 비즈니스 사용자에게 “ push” 함으로써 신속함과 융통성 그리고 결단력을 확보
• Sprint PCS – 100TB 데이터 웨어하우스 운영 ; 전사 데이터 웨어하우스가 단순한 분석 시스템이 아니라 비즈니스
수행과 고객 billing 을 위한 핵심 시스템 . 만일 DW 가 down 되면 기업으로서는 ‘money’ 를 잃게 되는
심각한 상황을 초래 .
기본 애플리케이션과 비즈니스 인텔리전스 정보의 사용이 더 이상 경쟁우위의 요소는 아님 . 고객 , 투자자 , regulators,임원과 emploees 들이 이미 자연스러운 것으로 인식되고 있음
비용절감으로 인한 매출성장
Key competency: responsiveness
Critical success factor:effectiveness 확보 - people and processes
Source: CEO Study of 456 WW CEOs IBM Corporation - Feb 2004
What’s on the minds of 450 of the world’s leading CEOs?
Source: Operating Environment Market Drivers Study, IBM Corp. 2004
CEO 요구사항
IT 와 비즈니스의 결합으로 매출증대와 비용절감의 목표달성
IT 를 통하여 조직의 역할을 지원 어떻게 IT 가 사람들과 팀 이 좀 더
효과적으로 일할 수 있도록 도와줄 것인가 ?
CIO 고민들
Business Intelligence is evolving…
원인 : 기술적인 제약 , 기능적인 제약 , best practices 의 부족
Focus: 완벽한 data warehouse 구축
Batch 로 Data Warehousing updates
Data marts, Warehouse, Transaction Systems 과의 분리
Point in time BI
Stand alone 웨어하우스 ; 불완전한 EDWs
YesterdayYesterday ….. Going back as much as 15 years
BI used to employ the following fundamentals:
원인 : 기술적인 제약 , 기능적인 제약 , best practices 의 부족
Focus: 완벽한 data warehouse 구축
Batch 로 Data Warehousing updates
Data marts; Warehouse , Transaction Systems 과의 분리
Point in time BI
Stand alone 웨어하우스 ; 불완전한 EDWs
YesterdayYesterday ….. Going back as much as 15 years
Business Intelligence is evolving…
TodayToday
보다 빠른 데이터 제공과 성능 향상
Today’s cutting edge warehouses raise the bar:
Focus: true Business Intelligence
통합 , 데이터의 중복 감소
Real-time 가용성을 통한 이벤트 모니터링
Unstructured 데이터를 포함하여 보다 많은 데이터 소스의 데이터를 통합 ,
TodayTodayYesterdayYesterday
Batch 로 Data Warehousing updates
Data marts; Warehouse , Transaction Systems 과의 분리
Point in time BI
Stand alone 웨어하우스 ; 불완전한 EDW
Business Intelligence is evolving…
• 보다 빠른 데이터 제공과 성능 향상
통합 ,데이터의 중복 감소
Real-time 가용성을 통한 이벤트 모니터링
Unstructured 데이터를 포함하여 보다 많은 데이터 소스의 데이터를 통합 ,
Unveiling opportunities to significantly change the way you do business
What this meansWhat this means
가치있는 가공되지 않은 데이터의 사용 증가 현재 필요한 데이터에 바로 분석하여 비즈니스 수행 배치 시간의 감소
복잡성의 감소 비용의 감소 data inconsistencies 감소
즉석에서 당일의 정보를 획득하여 즉시 조치 “Intelligent” 의 변화 ( 주기적인 특성 등 ) 를 알 필요가 있음
분산된 데이터에 접근 낮은 리스크와 EDW 와 관련된 비용 통합된 마이그레이션 경로 개발
Information On Demand - 데이터를 Business Insight 로
InsightInsight
InformationInformation
proac
tive
proac
tive
DataData
activ
e
activ
e
passi
ve
passi
ve
Bu
sin
ess
flex
ibili
ty &
res
po
nsi
ven
ess
Business value
많은 데이터 소스로부터 데이터와 컨텐트를 통합
데이터를 유용한 정보로 전환
이 정보를 실시간 분석으로 intelligent 하면서도 신속한 의사결정을 지원
3. Real-time Data Warehouse
실시간 (Real time) & 준 실시간 (Near Real time)
source: META, Applied Analytics for Extreme Business Performance Management, 25 September 2002
절대적인 시간이라기 보다는 고객의 환경에 따라 새로이 정의되어야 함
데이터가 발생한 후 정보로서 처리되는데 걸리는 시간으로 구분
– 실시간 : 현재의 비즈니스 상태를 반영한 새로운 데이터를 기업 정보로 처리
– 준 실시간 : 현재 발생하는 비즈니스 데이터는 아니지만 , 그 기업에 “충분히
신선한 (fresh enough)” 데이터를 기업의 정보로 처리
분석을 위한 데이터의 latency?
Source: Colin White & The Data Warehousing Institute, Building the Real-Time Enterprise, Oct 2003
N=419
16%6%
16%
30%
11%
21%
1 시간 미만이 절반이상
< 12 hours
< 1 hour
<1 minute
< 1 secondNot sure
<1 day
16% 6%
16%
30%
11%
21%
실시간 BI 를 개발하거나 개발 계획이 있는 분야 ?
Source: Cutter Consortium: Corporate Use of Real-Time Data WarehousingBy DMReview.com Web Editorial , July 29,2003
0%3%5%8%
10%13%15%18%20%
리얼타임 BI 어플리케이션
고객 접점 분석
– 온라인 콜센터 고객 스코어링
– 상점 내 ‘즉시 발행’ 쿠폰
– ATM 사용시 개인에 맞는 광고
– 고객 개인에 맞는 웹 사이트 광고 및 관심 분야 표시
– 최적화되고 , 예측 가능한 공급망 유지
– 적시 재고 관리 및 모니터링
부정행위 적발
– ATM, 휴대 전화 , POS
항공기 티켓의 적정가격 결정 혹은 결항 비행편에 대한 차선 스케줄 결정
온라인 대출 신용정보 조회
통신 /에너지 분야의 망 관련 정보 관리
열차 , 트럭 , 선박 화물의 적재 및 운송 관리
실시간 BI
병렬ETL Engines
MQSeries queues
복제
웹 서비스
개인화 , 데이터 마이닝 , 비즈니스 룰 , 캠페인
경보 , 트리거 , KPIs, 분석
DB2Warehouse
ODS
InformationIntegration
CorporateDashboards
동시 사용자 조회
고객끊임 없는적재
ETL, EII, EAI
…
원시 데이터 소스
Data WarehouseData Mart
데이터 복제
ETL Data Mart
Data Mart
응용 프로그램
인터페이스를 이용한 응용 프로그램 간의 호출 방식
EAI App2App1
MQInFormatting & Mapping
MQOutRouteToLabel
비정형 데이터EII
“뷰”를 통한 단일한 가상의 데이터 저장소 구성
App3
Data Warehouse
ETL – 적재를 사용한 실시간 환경
짧은 주기의 지속적인 ETL
동시 쿼리
- 지속적인 loading 과 사용자 쿼리를 동시에 수행
- 고속 적재를 지원
EII 를 사용한 실시간 환경
Text WebSphere MQ
IBM Extended
Search
Excel WWW, email,…XMLBiological DataAnd Algorithms
DB2 II ClassicFederation
DB2 Information Integrator
실시간 접근
Sybase
Informix
SQL Server
Oracle
Teradata
ODBC
…
DB2 Family
DB2/390
Software AGAdabas
VSAM
CA-IDMS
CA-Datacom
IMS
…
Data Warehouse
EAI 를 사용한 실시간 환경
DB2 MQ Listener
ETL
User Stored
Procedure
ETLMQSI
Informix
VSAM
IMS
DB2
Oracle
Source
Data Warehouse
DB2
MQ
function
- Queue 를 사용하여 데이터의 실시간 전송
- IBM Websphere MQ 연동 function 을 DB2 에서 제공
구분 ETL EII EAI
정의 Extract, Transform, Load
여러 데이터 소스로부터 데이터를 추출하여 변환하고 정제한 후 또다른 데이터베이스 즉 DW 나 DM, 혹은 비즈니스 프로세스에 따라서는 또다른 운영 시스템에 적재
• DataStage
Middleware 영역
분산되어 있는 다양한 종류의 데이터 소스를 마치 하나의 소스인 것처럼 단일 뷰 제공
Websphere Information Integrator
• 조직 안팎에서 서로 다른 어플리케이션 및 프로세스 사이에서 데이터의 이동 및 교환 가능한 솔루션
• Websphere MQ
Strength structured data 처리
Batch 작업으로 처리
한 번에 대용량 데이터 처리
계산이나 집계 , 또는 많은 단계를 거쳐야 하는 복잡한 변환도 쉽게 작성
관리자에 의한 스케줄에 기반한 실행
대부분의 툴이 GUI 기반으로써 직관적인 view 를 제공하며 생산성이 높음
개발된 모듈의 재사용성이 높음
impact analysis 를 포함한 metadata 수집과 관리가 용이
structured data 와 unstructured data( 컨텐트 ) 모두 처리 가능
real-time 으로 data read/write 가능
데이터 모델과 metadata 가 생성되기 이전에 데이터 탐색 가능
remote source 의 global access 에 강점
성능 , 예산 , 가용성 , 보안 등의 문제로 데이터의 이동이 어려운 데이터 또는 불필요한 데이터의 이동을 피하기 위한 데이터의 위치에 대한 관리
가상의 데이터 저장소 제공
분산 또는 복제 , 물리적 통합 제공
통합 정보의 metadata 관리
새로운 데이터 소스에 대한 유연한 확장성 제공
Data Grid
• 비즈니스 레벨의 프로세스 및 데이터 통합에 focus
• 비즈니스 프로세스와 데이터의 재사용 및 분배
• API 기반의 어플리케이션• real-time 또는 near real-time• 개별적인 event 또는 트랜잭션 기반으로 데이터의 이동이 일어남
• 간단하고 기본적인 변환 또는 데이터 그 자체만을 이동시키고자 할 때 강점
• workflow 의 컨트롤이 가능
ETL vs. EII vs. EAI – Strengths and Challenges
구분 ETL EII EAI
Challenge 단방향의 데이터 흐름
소스 시스템의 데이터 변경에 대한 관리가 어려움
많은 공간의 staging 영역이 필요함 ; 스토리지 낭비의 우려
out-of-sync 이므로 소스 데이터가 DW 에 도달하기까지의 시간이 오래 걸림
실제 사용 여부와 상관없이 데이터 이동이 일어남
데이터 변환의 제약 ; SQL 기반의 변환
• 여러 소스에 대하여 key 를 match 시켜야 함
• 데 이 터 소 스 에 따 라 data type mismatch
• 소스 시스템의 resource 사용 ; 소스 시스템에 부하를 줄 수 있음
• 한 번에 수천 ~ 수만 레코드 처리• 사용량이 많은 시간에는 network 부하
우려
• 데이터 변환의 제약 - 간단한 데이터 변환
• 데이터 집계 제약• 트랜잭션 당 10 여개의 레코드 이동
• 개발하기가 복잡함 • 변환 작업의 재사용의 어려움• metadata 관리의 어려움 ;
metadata 의 사용 및 import/export• Semantic integrity• 사용량이 많은 시간에는 network 부하 우려
ETL vs. EII vs. EAI – Strengths and Challenges
ETL tool
Integrated Information
비즈니스 응용 프로그램Marketinge-CommerceFulfillment
ETL EII EAI
Data Flow •단방향 – source to target • 양방향 • 양방향
Data 이동 시점 • 스케줄에 의한 Batch Job• Daily - Monthly
• Query time - Query (SQL) managed
• Real-time
• Transaction triggered – 비동기식
• Transaction managed• (Near) Real-time
데이터 변환 및 정제 /Metadata 관리의 효율성 및 재사용성
• Best• 일반적으로 ETL Job
모듈과 프로세스의 재사용성이 높다
• Medium • 변환은 SQL 기반으로
이루어지며 , view 등의 database object 를 이용하게 된다
• Low • 변환은 ESQL 프로그램
기반으로 이루어지며 , DB catalog 정보에 제한된 metadata 만을 사용할 수 있다
데이터 이동 방법 • FTP 또는 direct database connection
• Direct database connection
• Messaging
한 번에 처리 가능한 데이터 볼륨
• Very large • 수백만 ~ 수십억 레코드
이상
• Medium • 수십만 ~ 수백만 레코드
• Small• 10 여 레코드를 몇 개의
pipe 를 통하여 처리
변환의 복잡도 • 매우 복잡한 변환도 쉽게 처리
• SQL 로 처리될 수 있는 정도의 복잡도
• 간단한 변환• broker 에 의해 구현
가능한 semantic transformation 에 제한됨
ETL vs. EII vs. EAI – 기술적 관점에서의 비교
ETL Best Practices
ETL 은 일반적으로 대용량 I/O bound 작업– 불필요한 staging step 을 줄여주어야 함
– 속도가 빠른 storage 사용
– 뜻하지 않은 I/O 를 피하라
– “lookup” 프로세스에 주의
– data file 의 위치에 유의
ETL 툴 사용시 생산성 및 데이터 일관성 향상
data mart 에서 data mart 로 가는 작업은 피하는 것이 좋음
과도한 locking 을 피해야 함– 많은 수의 프로세스들을 병렬로 처리하는 것이 키
– Key to running many concurrent processes in parallel
– Query, Load, Backup 이 동시에 허용되어야 함
ETL tool
Integrated Information
비즈니스 응용 프로그램Marketinge-CommerceFulfillmentEII Best Practices
일반적으로 규칙적이지 않은 ad-hoc 액세스에는 적합하지 않음
최상의 성능을 위해서 WII 는 자주 사용되는 데이터를 캐쉬함으로써 query 실행 비용을 관리하도록 계획을 세움
WII 는 query 의 종류와 비용을 관리– DB2 Query Patroller
remote source 사이에 많은 데이터의 이동이 발생하는 operation 의 경우 WII 는 꽤 많은 시간이 소요될 것이다– “permanent basis” 에는 WII 를 이용하여 “ virtual warehouse” 구축을 시도하지
말라 , 특히 ad-hoc 액세스가 일어날 것으로 예상되어진다면 더욱 그렇다
remote 소스에 대한 federated query 의 영향을 항상 염두에 두어야 한다– Remote data 에 대해서는 target access
데이터의 흐름은 remote 소스에서 federated server 로– 두 개 이상의 remote 소스에서 사이즈가 큰 테이블을 조인하는 것은 피하라
EAI Best Practices
Point-to-point 통합은 피하라– 좀 더 나은 재사용성을 Hub 와 broker 사용
어플리케이션 개발시 주의사항– 선행되어야 할 내용에 대한 준비 및 계획이 필요함
– 연관되는 시스템에 미치는 영향도를 이해해야 함
– 데이터 흐름에 대한 시나리오 및 일어날 수도 있는 현상에 대한 이해가 필요
성능에 대한 모니터링 workflow 에서 데이터의 일관성과 성능에 대한 병목현상을 trace 할
수 있도록 준비가 필요하다
실시간 BI
병렬ETL Engines
MQSeries queues
복제
웹 서비스
개인화 , 데이터 마이닝 , 비즈니스 룰 , 캠페인
경보 , 트리거 , KPIs, 분석
DB2Warehouse
ODS
InformationIntegration
CorporateDashboards
동시 사용자 조회
고객끊임 없는적재
4. DW Architecture by IBM
전통적인 EDW framework
Application
Data Marts
ODS
EDW
Mart Mart
ODS
Mart
Application Application ApplicationApplication
Data Warehouse
ODS Layer
Operational systems
ETL / Replication
ETL / Replication
ETL
BI Apps
Issues:
- 실시간 데이터 처리 난해- 애플리케이션이 여러 레이어로 접속- 처리 시간의 지연- 전체 TCO 증가- 변화가 어려움- Network 부하 발생
통합 데이터 웨어하우스 아키텍처
Logical and or Physical Mart layer
Application
Data Marts (LOB Apps)EDW
Application Application ApplicationApplication
Atomic Data (normalized)
ODS / Staging Layer
Operational systems
BI Apps
ETLBenefit:
- 실시간 데이터 처리- 애플리케이션이 단일 레이어로 접속- 필요에 따라 여러 레이어의 데이터 접근 - 처리 시간의 감소- 전체 TCO 감소- 변화에 대한 대처 용이- Network 부하 감소- 동적인 자원 관리
계층별 Data 아키텍처
EDW is an architecture, Not a database!!
상위 Layer로 진행될 수로 데이터 량은 줄어듬
상위 Layer로 진행 될수록데이터는 요약되고 보관 기간이 길어짐
데이
터 량
데이
터 상
세 수
준 및
보관
기간
원천 Raw 데이터 , Staging & 사용자테이블 Rolling data
주제영역별 사용자테이블 ( SoR -3rd normal form)
1 차 집계 요약 데이터
2,3차 집계데이터 마트( 요건 중심 )
의사결정데이터
L1
L2
L3
L4
L5
쿼리 성능의 저하 없는 동시 적재 , 쿼리 수행 , 유지보수 제공
수집영역
2,3 차 집계 데이터다차원 모델일별 /월별 데이터
1차 집계 요약 데이터일별 /월별 데이터
의사결정 데이터다차원 모델일별 /월별 데이터
•원천 시스템 데이터와 동일한 상세 수준 데이터• 1차 정제 수준•준실시간 /일별 /월별
주제영역별로 정리된 상세 수준의 데이터3차 정규화 모델정제 완료된 데이터준실시간 /일별 /월별
수집영역 데이터 근접 실시간 제공최소의 데이터 가공 , 신속한 데이터 제공
다차원 OLAP 분석( 정형 /비정형 )
정형 조회사용자 Ad-hoc Query정제된 전사 통합 모델 데이터
정형조회 /비정형 /실시간 /준 실시간 화면 조회
요약영역
통합영역
Raw Data Area
Subject Area
Summary Area
Require Specific Area
ExecutiveArea
L1
L2
L3
L4
L5
단계적 Recursive 정제 가공 수행필요한 단계에 필요한 가공
Federation: Join real-time data to the warehouse
DB2 InformationIntegratorApplication
ODS
Operational systems
Enterprise Data Warehouse
Mart Mart
DB2 DBMS
Access current customer records from a call centre
Access current stock levels from a supply chain data mart
Business activity monitoring – linking events to trends
Federation: Access XML & Unstructured Content
DB2 InformationIntegrator
Application
Operational systems
Enterprise Data Warehouse
Mart Mart
DBMSXML
Content Systems
Access to customer documentation (e.g. letters, media) from a call centre
Linking photos or documents to analysis of customer claims in insurance
Federation: Joining Marts & Warehouses
DB2 InformationIntegrator
Enterprise Data Warehouse
Mart
Second EDW
Mart
BI Tool
Access to marts developed by different departments for specific data
Access from mart to warehouse level for detailed data
Intelligent Queuing and Governance
Mixed workload requires workload balancing
Evaluation and workload management prior to resource consumption
– Define a data path for executives and emergency work
– Define a data path for “as long as it gets done” work
– Define rules or priority for the rest (80%+)
Evaluation and adjustment during resource consumption
– Identify priority and “just get it done” work, allotting appropriate resources
– Adjust the rest up and down based on priority, current workload and time period
Data Archiving and Retrieval
More important where regulatory & compliance reporting needs more history than Decision Support and BI
Set threshold for active vs aged data
Different partitions and storage groups
Use Hierarchical Storage Management (HSM) to leave stubs in aged tables, move data to tape
Aged data (ie candidate for archive) still available to SQL – HSM retrieves on demand
Generally over stressed, aged data will not usually influence or change aggregation and summaries
Be fast enough to keep up
EDW
Active data Aged data
HierarchicalStorageManager
OfflineStorage
5. Parallel Database
- 대용량 데이터
- 대량 적재
- 분석 시스템
- 비교적 적은 수의 동시 사용자
- 복잡한 쿼리
Data Warehouse System is…
Datauserresponse
- 폭발적인 데이터의 증가 (GB -> TB -> PB)
- 사용자의 증가- 사용자의 데이터베이스에 성능에 대한 기대 수준 증가
Massive Data
- 대부분 Reporting Tool 을 통해 생성되는 Query
- 90% 이상의 정형 쿼리- 10% 미만의 비정형 쿼리- 악성 쿼리 발생 가능- Query administration
정형쿼리
비정형쿼리
정형쿼리
비정형쿼리
쿼리 비율 자원 사용율
Query
- 데이터 적재 주기의 감소
- 분석대상 데이터의 동시성 욕구 증가
- 조회와 적재가 동시에 발생
- 트랜잭션 발생 후 30 분 이내에 분석 가능한 시스템의 사례
source: The Data Warehousing Institute, ETL Trends & Requirements, 2003
TodayIn 18
MonthsMonthly 32% 27%Weekly 34% 29%Daily/nightly 69% 65%Multiple times per day 15% 30%Near real time 6% 19%
Mixed Workload
Data Warehouse System is REALY…
- 폭발적인 데이터의 증가
- 준 실시간 적재
- 분석요구 증가
- 동시 사용자의 증가
- ad-hoc 쿼리
- Mixed workload
- Real-time DW
- 대용량 데이터
- 대량 적재
- 분석 시스템
- 비교적 적은 수의 동시 사용자
- 복잡한 쿼리
SMP
CPU
CPU
CPU
CPU
Memory
Storage
… CPU
MEM
Storage
…CPU
MEM
CPU
MEM
CPU
MEM
MPP
SMP Cluster
Storage
CPU
CPU
CPU
CPU
Memory
… CPU
CPU
CPU
CPU
Memory
… CPU
CPU
CPU
CPU
Memory
……..
Parallel system
1 10 20 30 40 501
10
20
30
40
50
CPUs Installed
CP
Us
of
Per
form
ance
Linear
good SMPs
Common Wintel SMPs
Best in class SMPs
SMP system performance
CPU
Mem
CPU
Mem
CPU
Mem
CPU
Mem
Disk Controllers
CPU
Mem
CPU
Mem
CPU
Mem
CPU
Mem
Interconnect
- H/W 의 병렬 아키텍처와는 다른 DBMS 의 병렬 아키텍처- Shared disk I/O 확장에 제한적 , 데이터 쏠림 (Skew) 발생- Shared Nothing
데이터 공유로 인한 Disk 병목현상을 근본적으로 제거하여 성능 보장무제한적인 확장 , 대용량 데이터 처리에 적합
Shared NothingShared NothingShared DiskShared Disk
Parallel Database System
I/O Channels
Storage Capacity
DB2 Data PartitionDB2 Data Partition
DB2 AgentsDB2 Agents
CPUCPU
Memory - BufferpoolMemory - Bufferpool
CommunicationCommunication
DB2 UDB 의 Partition
- DB2 Agents- CPUs for DB2 Agents- Memory for DB2 Agents- IO Channels- Communications- Storage
- 대용량 데이터에 대한 복잡한 쿼리 수행에 가장 적합한 Shared-nothing 구조를 채용- 모든 시스템 자원을 극대화할 수 있는 병렬처리 기법- 파티션간 데이터 이동을 최소화하여 병렬처리의 최대 성능을 보장- 데이터 /사용자의 증가에 따른 무한한 확장방안 제공- 시스템 확장에 따른 선형적인 성능 증가 보장- 병렬 적재 , 백업 , 복구
I/O Channels
Storage Capacity
I/O Channels
Storage Capacity
I/O Channels
Storage Capacity
I/O Channels
Storage Capacity
Table
SQLSQL
DB2 Data PartitionDB2 Data Partition
DB2 AgentsDB2 Agents
CPUCPU
Memory - BufferpoolMemory - Bufferpool
CommunicationCommunication
DB2 Data PartitionDB2 Data Partition
DB2 AgentsDB2 Agents
CPUCPU
Memory - BufferpoolMemory - Bufferpool
CommunicationCommunication
DB2 Data PartitionDB2 Data Partition
DB2 AgentsDB2 Agents
CPUCPU
Memory - BufferpoolMemory - Bufferpool
CommunicationCommunication
DB2 Data PartitionDB2 Data Partition
DB2 AgentsDB2 Agents
CPUCPU
Memory - BufferpoolMemory - Bufferpool
CommunicationCommunication
DB2 UDB 의 Parallel Architecture
1 10 20 30 40 501
10
20
30
40
50
CPUs Installed
CP
Us
of
Per
form
ance
Linear
good SMPs
Common Wintel SMPs
Best in class SMPs
DB2 DPF
SMP system performance
SMP
Partition
CPU CPU CPU CPU
Memory Memory
Data Data
Partition
SMP - Cluster
Partition
CPU CPU CPU CPU
Memory Memory
Data Data
Partition
Partition
CPU CPU CPU CPU
Memory Memory
Data Data
Partition
MPP
CPU CPU CPU CPU
Memory Memory
Data Data
Partition
Partition
H/W 에 독립적인 parallel DBMS architecture
Intelligent Optimizer
1. Cost-based Optimizer(without rules)
- Access Path 를 결정하는 Algorithm(Know-How)
- 20 년 이상의 Know-how 가 접목
- 사용자에 상관없이 동일한 성능 보장
- 질의 수행에 대한 여러 가지 고려사항 (Hint) 불필요
- Explain 을 통해 확인 가능
2. Query re-write
- Optimizer 에 의해 비효율적인 query 재작성
- SQL 튜닝 없이도 향상된 성능 보장
3. Self tuning
- 자동 runstats 수행
- Learning Optimizer (LEO) – self tuning
Plan Execution
Optimizer
Best Plan
Statistics
Actual Cardinal
ities
Estimated Cardinaliti
es
EstimatedCardinalities
ActualCardinalities
Statistical Profile
ATM /RUNSTATS
Column Group (Correlation)
Stats.
OptimizerFeedback
Warehouse
Background Process
Full 64Bit Support
0xF0000000
0xE0000000
0xD0000000
0xC0000000
0xB0000000
0xA0000000
0x90000000
0x80000000
0x70000000
0x60000000
0x50000000
0x40000000
0x30000000
0x20000000
0x10000000
0x00000000 AIX Kernel
AIX Kernel
DB2 memory segment
125MB
14 EA
32 Bit (V7, V8)
2GB
∞
.
.
.
.
.
0x90000000
0x80000000
0x70000000
0x60000000
0x50000000
0x40000000
0x30000000
0x20000000
0x10000000
0x00000000
? MB
AIX Kernel
AIX Kernel
DB2 memory segment
64 Bit (V8)
? EA
Multidimensional Clustering
- Star schema 구조에 따라 다차원 CUBE 형태로 데이터를 저장 /관리- Query 수행시 Scan 범위를 대폭 축소하여 성능 증가- 물리적으로 항상 Clustering 되어 있기 때문에 Reorg 작업 불필요
Prior to MDCClustering in one dimension onlyclustering NOT guaranteed (degrades once page free space is exhausted)
Nation
Year
Nation
Year
East
97
East NorthSouthWest
98 99 99 00
With MDCClustering guaranteed !
Smaller indexesFaster query response
Simple definition syntaxFast roll-in & roll-out
MDC
CREATE TABLE MDCTABLE ( Year INT, Nation CHAR(25), Color VARCHAR(10), ... ) ORGANIZE BY( Year, Nation, Color )
Multidimensional Clustering (cont.)
1997, Canada,
blue
1997, Mexico, yellow
1997, Mexico,
blue
1997, Canada, yellow
1998, Canada, yellow
1997, Mexico, yellow
1998, Mexico, yellow
1997, Canada, yellow
Y ear
dimension
Color
dimension
Nation
dimension
Cell for (nation, color, year)
1998, Canada, yellow
1998, Mexico, yellow
Each cellcontains one or more blocks
Multidimensional Clustering
Point1D Range
2D RangeCell
ANDingORing
MultiJoin0
10
20
30
40
50
60
70
MDC nonMDC
=+
Key from dim ension
b lock indexRids from rid index
Resulting rids to fetch
6.1
10.9
MDC nonMDC0
2
4
6
8
10
12seconds
=+
Key from dimension block index
Rids from rid index
Á ¶È ̧° á° ú ( blocks ¹ ×
rids )
6.2
21.2
MDC nonMDC0
5
10
15
20
25seconds
MDC ORingMDC ORing
MDC ANDeringMDC ANDering
SQL Query
Index #1Col1 + Col2
Index #2Col3
■■□□■□■□□■■■■■□■□□■□□□■■□□■□■□□■■■■■□■□□Index #1
■■□■□□■□■□□□■■□□■□■□■■□■□□■□■□□□■■□□■□■□Index #2
ORingORing ■■□■■□■□■■■■■■□■■□■□■■■■□□■□■□□■■■■■■■■□
ANDingANDing ■■□□□□■□□□□□■■□□□□■□□□□□■□■□□□■□□□□□□□■□
■■□□■□■□□■■■■■□■□□■□□□□□■□■□□■■■■■□■□□■□
■■□■□□■□■□□□■■□□■□■□■■□□■□■□□□■■□□■□■□■■
DB2
Index #1
Index #2
- 하나의 테이블에 복수의 인덱스가 존재하는 경우 복수의 인덱스를 모두 사용- 인덱스를 Bitmap 화하여 Anding, Oring 의 기법으로 통합- 사용자의 개입 없이 Optimizer 에 의해 자동으로 수행- 인덱스 사용의 효율성 향상
Dynamic Bitmap Index
- 쿼리 성능 향상을 위해서 필요한 데이터만으로 MQT 를 생성- 디자인 어드바이저를 통해 MQT 권장- DB2 Optimizer 는 쿼리를 분석하여 필요에 따라서 자동으로 MQT 를 통해 처리- Cube views
xx
SQL Query
DB2 Optimizer
MQTMQT
Query Rewrit
e
Table A
Table B
Table C
Table D
Materialized Query Table
Flat schema, Star schema, Snow-flake Schema 등 다양한 모델링 기법 지원DB2 Intelligent Optimizer 는 다양한 모델링 형태를 인식하고 그에 적합한 Access
plan 을 Cost 를 기반으로 작성
FactFact
【 Snow-flake schema 】
【 Star schema 】
【 Flat schema 】
다양한 Modeling 기법
Query administration
최고경영자 Batch 작업
DB2
OLAP 분석가 일반사용자
DB2 Governor
30% 15% 10% 5%
4321
쿼리가 DBMS 에 요청되기 전 사전 예측
통제 !
실행 중인 쿼리에 대한 자원 통제 !
Query PatrollerQuery Patroller
6. Case Study : KT EDW
구축 경과
프로젝트 착수 : 2003. 11. 25
장비도입 및 검수 : 2003. 12. 30
정보 요구사항 분석 : 2003. 11.25 ~ 12.31(1.5 개월 )
EDW 모델링 설계 : 2004. 1.9 ~ 4.28 (4 개월 )
프로그램 구현 : 2004.4.29 ~ 7.20 (3 개월 )
EDW 단위시험 : 2004.7.21 ~ 9.23 (2 개월 )
통합시험 : 2004.9.24 ~ 10.24(1 개월 )
완제품시험 /시스템시험 /성능시험 : 2004.10.25 ~ 11.26 (1 개월 )
EDW 추진 실무위원회 개최 : 2004.11.23
EDW 본위원회 개최 : 2004.11.26
EDW 업무전환 : 2004.11.29
정보센터 6 층
L4 스위치Alteon 184
LPAR(Logical Partition) extra memory 4GB
SAN 스위치SNFC S48
백업장비StorageTek 9310
디스크 어레이HDS 9980V
- 물리적 용량 : 15.5TB- Raid-5 구성- 사용자 용량 : 10.7TB- Cache Size : 24GB- FC Ports : 16 ea
통합콘솔
기간계
시스템
방화벽
인터넷
Gigabit 스위치 Cisco 6506
LPAR(Logical Partition) extra memory 12GB
4 Way16GB
8 Way16GB
4 Way8GB
표준관리ROLAP WEB SVRIBM X440
ROLAPIBM X440
16 Way64GB
8 Way64GB
App 서버 1IBM P690+
App 서버 2IBM P690+
실시간6 Way
16GB
EDWWAS
3 Way
16GB표준 /품질WAS
2 Way
8GB
Molap & Report4 Way
32GB
시스템 관리2 Way
16GB
보안2 Way
4GB
시스템관리 콘솔IBM X440
사용자
기존 마트
-물리적 용량 : 17.8TB- Raid-1+0 구성- 사용자 용량 : 8.2TB- Cache Size : 32GB- FC Ports : 32 ea
디스크 어레이 HDS 9980V
- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea
- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea
- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea
- 물리적 용량 : 27.8TB- Raid-1+0 구성- 사용자 용량 : 13.7TB- Cache Size : 32GB- FC Ports : 32 ea
수집 서버 (IBM P690+)
통합 /요약 서버 ( IBM P690+)
Gigabit 스위치16 Way64GB
24 Way96GB
24 Way96GB
24 Way96GB
24 Way96GB
16 Way64GB
Gigabit 스위치
HA
CMP
HA
CMP
HA
CMP
전사 통합 데이터베이스
범 례 Fibre Channel
Gigabit Ethernet 기존운영 장비
구성내용 설명
표준 /품질DB
3 Way
16GB
보안2 Way
4GB
100TBHitachi디스크
3대x440(IBM)NT 서버
8대p690(IBM)UNIX 서버
H/W 구성
Mart System
Mart Appl.UDB ClientTWS Agent
UNIX
Legacy System
Legacy Appl.MQ( 일부 )
TWS Agent( 일부 )
OS
개발자 PCData
StageClientER-Win
Rational Rose
WSAD
PVCS Client
UDB Client
Windows
사용자 PC
Web BrowserReportNet
ClientWindows
PC 환경PC 환경
시스템 관리
OpenView /iAgent
TAM 콘솔
TWS Mster
Tivoli Master
Networker Master
AIX 5L
보안 서버 2
WebSEAL
LDAP
OpenView / iAgent
AMOS Agent
Networker Agent
AIX 5L
MOLAP / REPORT 서버
보안 서버 1
WebSEAL
LDAP
DB2 UDB
Networker
AgentAIX 5L
EDW WAS 품질관리
표준 / 품질 AP
OpenVie/iAgent
Tivoli Agent
AMOS Agent
DB2 UDB
Networker Agent
AIX 5L
실시간 서버표준 / 품질
표준 / 품질 AP실시간조회 AP
WebSphere
OpenView /iAgent
Tivoli AgentAMOS, TWS
AgentNetworker Agent
AIX 5L
WebSphere
OpenView/iAgent
Tivoli Agent
AMOS Agent
AIX 5L
Networker Agent
IBM http Server IBM http Server
ROLAP 서버MSTR Server
OpenView Agent
Tivoli Agent
MQ Client
DB2 UDB ClientWindows2003Ser
ver
시스템 관리
TBSM
MS SQL
DB2 UDB Client
Windows2000Ser
ver
NT AP 서버NT AP 서버
IIS
표준화 관리
MetaStage
OpenView Agent
Tivoli Agent
DB2 UDB ClientWindows2003
Server
IIS
관리자 PC
Query Patroller Admin
Health CenterQualityStage
Designer
Web Browser
Data StageClient
TEC Console
TWS Console
TBSM Console
Windows
DB2 UDB Cient
DB2 UDB
OpenView /
iAgentAMOS Agent
Networker Agent
Information Integrator
OpenView/iAgent
Tivoli Agent
AMOS Agent
AIX 5L
DB2 UDB
SQL*NET
PowerPlay / Report Net
Tivoli Agent
AMOS Agent
AIX 5L
TWS Agent
Networker Agent
OpenView / iAgent
DB2 UDB Client
통합 / 요약
DB2 UDB (DPF)
OpenView /iAgent
Tivoli Agent
TWS Agent
AMOS Agent
AIX 5L
통합 / 요약
DB2 UDB (DPF)
OpenView /iAgent
Tivoli Agent
TWS Agent
AMOS Agent
AIX 5L
통합 / 요약 통합 / 요약
UDB (DPF)
OpenView /iAgent
Tivoli Agent
TWS Agent
AMOS Agent
AIX 5L
Data Stage Parallel
Data Stage Parallel
수집서버 수집서버EDW 서버
EDW 서버
DB2 UDB (DPF)
OpenView /iAgent
Tivoli Agent
TWS Agent
AMOS Agent
AIX 5L
Networker Agent Networker Agent Networker AgentNetworker Agent
Data Stage XE
MQ
Integrity
SyncSort
DB2 UDB (DPF)
Data Stage XE
MQ
Integrity
SyncSort
DB2 UDB (DPF)
OpenView /iAgent
Tivoli Agent
TWS Agent
AMOS Agent
AIX 5L
OpenView /iAgent
Tivoli Agent
TWS Agent
AMOS Agent
AIX 5L
Networker Agent Networker Agent
DB2 UDB
•TWS• Job Scheduler
•SyncSort• Sorting
•DataStage XE / PX• ETT
• MOLAP
• DBMS
소프트웨어
•DB2 UDB
•Powerplay
제품명
•ReportNet• Reporting
•MSTR• ROLAP
•WebSphere / IBM http Server
• WAS / Web Server
•MetaStage• MDR
•QualityStage• Cleansing
소프트웨어 제품명
•Enterprise Miner• Mining
•Erwin Data Modeler• CASE(EDW)
•Networker• 백업관리
•iAgent for Unix• 시스템성능관리
•HP Open View• 시스템장애관리
소프트웨어 제품명
•TAM• EAM
•TBSM• 시스템통합관리
•MQ• 전송 미들웨어
•ROSE• 객체지향 CASE
•AMOS• 서버보안
소프트웨어 제품명
S/W 구성
Ⅱ. 사업 수행 내역
전사통합 모델 구축으로 원천발생 데이터와 최종 사용자 사이의 정보 Hub 가 구축 되어 , 데이터 정합성 보장 , 중간저장소 단일화 , 전사적 관점의 정보제공 가능
정보제공정보제공
ETT 처리ETT 처리
데이터관리데이터관리
시스템 구조시스템 구조
-정보제공의 적시성 , 유연성 및 확장성 미흡
-마트별 별도 운영으로 인한 데이터 처리 및 저장 제공에 대한 비효율적 운영
-전사적 표준 부재로 인한 데이터관리 최적화의 한계
-정보 Hub 인프라 구축을 통한 정보제공의 적시성 , 유연성 및 확장성 강화
-통합 관리를 통한 운영의 비효율적 요인 최소화
-전사적 데이터 표준 및 품질관리를 통한 데이터관리 최적화 기반 확보
정보시스템의 변경된 구조
Ⅱ. 사업 수행 내역정보제공 인프라 개선
Ⅱ. 사업 수행 내역프로세스 개선
Current Model after Project
집계
고객 관점
조직 관점
상품 관점
계약 관점
SoR (System of Record)
통합영역수집영역
다차원데이터
마트 I/F
요약영역
데이터표준화
통합DB (EDW)
데이터정제
집계가공
TDWM9개 주제영역
요약가공
요약가공
DW 추출영역
마트제공영역
MOLAP ROLAP
본사 /본부부서-전사 경영전략 정보-매출분석정보-6σ표준 /품질분석
사업부서 /지사-기관별 매출실적-서비스 이용내역-고객민원정보
RM/AM 직원 (Biz 마케팅본부 )-관리고객분석-관리시장정보-다양한 통계정보
표준 / 품질 Web 정형 화면
표준데이터 품질정보
주소 / 건물 기준정보 현행화 구축표준 데이터 set 현행화
표준데이터표준데이터관리시스템
품질관리시스템
업무관계자
계약
상품
이벤트
경영방침
……
Query & Reporting
데이터 마트
IBISICID
PMISNetIS
상품
상호접속통화호
요약
RASABMBSC
경영
구매 BISIT-BSC월추정매출
정액제
원천시스템
상품
경영
시설
고객 고객File/DB
상품File/DB
경영File/DB
시설File/DB
45%
25%
17%
0%13%FACT 1FACT 2FACT 3FACT 4Di m Al l
FACT 1 Table
Record 수 : 23,102,691,624
File Size :4,805,359,857,792 (4.8 TB)
DB Size :4,658,835,750,912 (4.6 TB)
FACT 2 Table
Record 수 : 12,463,529,688
File Size :2,555,023,586,040 (2.5T B)
DB Size :2,602,058,121,216 (2.6 TB)
FACT 3 Table
Record 수 : 9,307,532,736
File Size :2,298,960,585,792 (2.3 TB)
DB Size :1,753,433,505,792 (1.7 TB)
FACT 4 Table
Record 수 : 14,370,182,640
File Size :1,379,537,533,440 (1.4 TB)
DB Size :1,391,611,871,232 (1.4 TB)
Data 정보
Test 내용 고객의 예상시간 시작시간 종료시간 소요시간
Fact table Load 18 시 18 시 11 분 02초
21 시 00 분 26초
2시 49 분 24초
데이터 추가 및 정재 6시 23 시 09 분 29초
23 시 32 분 27초
0시 22 분 58초
4개의 Fact Table 12 개월 증식 6시 23 시 40 분 42초
0시 18 분 32초
0시 37 분 50초
Table 구조 변경 및 Column 변경 0.5 시 0시 23 분 56초
0시 26 분 37초
0시 02 분 41초
일별 Summary Table 생성 8시 0시 35 분 20초
1시 56 분 59초
1시 21 분 39초
Fact Table 에 대한 정형질의 (100 user)
24 시 9시 27 분 23초
10 시 10 분 57초
0시 43 분 34초
Fact Table 에 대한 비 정형질의 (10 user)
72 시 예상시간 10 시 00 분 00초
고객별 /월별 Summary Table 생성 8시 7시 25 분 24초
8시 25 분 57초
1시 00 분 33초
차원별 /월별 Summary Table 생성 36 시 1시 43 분 20초
6시 50 분 53초
5 시 07 분 33초
정형질의 (500 user) 36 시 19 시 33 분 27초
2시 08 분 25초
6시 34 분 58초
사전 테스트 결과
Feel free to contact me at: [email protected]