ricc update meet34
DESCRIPTION
第 34 回インターネット技術第 163 委員会研究会 (ITRC meet34) の RICC 分科会で発表した「RICC update meet34」の資料です。meet33 に参加できなかったので一年分の研究進捗について報告しております。つまるところ、既に発表した資料を切ったり貼ったりしたもの、ということです。TRANSCRIPT
Cyber Media CenterOsaka University
柏崎 礼生
RICC Update meet34
2013/10/30 ITRC meet34
2012.11.2 1st RICC workshop @Saga University
2012.11.20 ITRC meet32 @いわき
2013.5.7 2nd RICC workshop @Kanazawa university
2013.5.23 ITRC meet33 @うめきた
2013.9.6 3rd RICC workshop @Hokkaido University with Cloud Week 2013
資金 big budgets
科学研究費助成事業不採択
先進的通信アプリケーション 開発推進事業不採択
不採択
燃えたよ、
燃え尽きた、
真っ白にな…
。
完
DR Disaster Recovery
1978
Sun Information Systems
mainframe hot site
‘80-’90
Realtime Processing
POS point of sales
’90-’00
the Internet
2001.9.11 September 11 attacks
2003.8.14 Northeast blackout of 2003
in Japan
2011.3.11 The aftermath of the 2011
Tohoku earthquake and tsunami
BCP Business Continuity Plan
館林市 Tatebayashi City
群馬 Gunmma prefecture
DR Disaster Recovery
2つで 十分ですよ?
学際大規模情報基盤 共同利用・共同研究拠点
国立情報学研究所
Kitami Institute of Technology
University of the Ryukyus
SINET 最長
北見工大
琉球大学
Kitami Institute of Technology
University of the Ryukyus
XenServer 6.0.2
CloudStack 4.0.0
XenServer 6.0.2
CloudStack 4.0.0
problems
shared storage
≒50ms
RTT > 100ms
Storage XenMotion Live Migration
without shared storage > XenServer 6.1
VSA vSphere Storage Appliance
WIDE cloud
different translate
Distributed Storage
requirement
64 256 1024 4096 16384 65536 262144 1.04858e+06 4.1943e+06 1.67772e+07 6.71089e+07 4 16
64 256
1024 4096
16384
0
20000
40000
60000
80000
100000
120000
Kbyt
es/s
ec
File size in 2^n KBytes
Record size in 2^n Kbytes
0
20000
40000
60000
80000
100000
120000
High Random R/W Performance
POSIX準拠 interface protocl
NFS, CIFS, iSCSI
Regional InterCloud CommitteeRICC
Distcloud 広域分散仮想化環境
���"���� �$����������� ��������������� �������!���� �
Con$idential �
�� ��� %*,&.'+�#�)(-���
Global VM migration is also available by sharing "storage space" by VM host machines. Real time availability makes it possible. Actual data copy follows.
(VM operator need virtually common Ethernet segment and fat pipe for memory copy)
TOYAMA site
OSAKA site
TOKYO site before Migration
Copy to DR-sites
Copy to DR-sites
live migration of VM between distributed areas
real time and active-active features seem to be just a simple "shared storage". Live migration is also possible between DR sites
(it requires common subnet and fat pipe for memory copy, of course)
after Migration
Copy to DR-sites
�� ������"����������� ���� ������������������������ ��
Con$idential �
�������#')$*%(�!�����+&�
Front-end servers aggregate client requests (READ / WRITE) so that, lots of back-end servers can handle user data in parallel & distributed manner. Both of performance & storage space are scalable, depends on # of servers.
front-end (access server)
Access Gateway (via NFS, CIFS or similar)
clients
back-end (core server)
WRITE req. write blocks�
read blocks�
READ req. �
scalable performance & scalable storage size
by parallel & distributing processing technology
Fileblock block block
block block block
block block block
Hash
consistent hash
node (core servers)
�� ������"����������� ���� ������������������������ ��
Con$idential �
�������#'+$,%(�!�-)*&�
1. assign a new unique ID for any updated block (to ensure consistency). 2. make replication in local site (for quick ACK) and update meta data.
3. make replication in global distributed environment (for actual data copies).
back-end (multi-sites)
a file, consisted from many blocks�
multiplicity in multi-location, makes each user data,
redundant in local, at first, 3 distributed copies, at last.
(2) create 2 copies in local for each user data, write META data, ant returns ACK
(1)�(1')� (3-a)�
(3-a)�
(3-a) make a copy in different location
right after ACK.�
(3-b) remove one of 2 local blocks,
in a future.
(3-b)�(1) assign a new unique ID
for any updated block, so that, ID ensures the consistency
Most important ! the key for "distributed replication" �
NFS CIFS iSCSI
redundancy = 3
r = 2ACK
r = 1
r = 0
write
redundancy = 3
ACK
r = 2 e = 0
r = 1 e = 0
r = 0 e = 1
r = -1 e = 2
external
10Gbps
Cisco UCS
Hypervisor
VM
1/4U server x4
Ĉō®ƌ|� -{UÆďÆŎ�! ĀďU�¸
! ±Ê©UƇƦ±T8cƏëƁäfð� ! Ĉō���¢-sTSINET4fð�
! |u-�il�ŗU®ƌ|� -{fð� ! ħʸTŵ�U|� -{Į¶fĽƍD ! ®ƌ|� -{T1EXAGE / Storage2fē�
! ®ƌ|� -{UĖŖÞTN9OĀď(ŧąfÆĚ
����¢-sz��� � Copyright © 2012 Yoshiaki Kitaguchi, All right reserved.� �� �
n�[5OBJ�:ws��.2=G;33K0?� �*Z�z_�Z�X|�
�ĥ� ŴƘ�
¯Ø�Ĉæ�
��
RICCT<AcĔÐQDOĈōÆďÆŎfç]c�
ÆďÆŎUśåĽà/Ľƍ¨0�
Copyright © 2012 Yoshiaki Kitaguchi, All right reserved.�
�ĥ�Ï�
Ĉæ�Ï�
�Ĺ�Ï �
ăóÏŌřß�
éîö�Ï�
SINET4 �
SINET4UL2VPN, L3VPNx-�|fð�D Ɓä¶f10GbpsPśå�
825km�
829km�
316km�
417km�274km�
223km�
440km�
RICC¢-sz��� � �� �
広島大学 金沢大学
国立情報学研究所
VMM: 仮想計算機モニタ
CS: コアサーバHS: ヒントサーバAS: アクセスサーバ
AS AS
VMM VMM
CS CS CS CS CS CSHS HS
CS CS CSHS
L3VPN
L3VPN
L2VPN
L2VPN
L2VPN
L2VPN
L3VPN
EXAGE-LAN
EXAGE-LAN
管理LAN 管理LANMIGRATION-LAN
EXAGE-LAN
MIGRATION-LAN
L3VPN
L2VPN
L2VPN
iozone -aceI a: full automatic mode
c: Include close() in the timing calculations e: Include flush (fsync,fflush) in the timing calculations
I: Use DIRECT IO if possible for all file operations.
write
64 256 1024 4096 16384 65536 262144 1.04858e+06 4.1943e+06 1.67772e+07 6.71089e+07 4 16
64 256
1024 4096
16384
0
20000
40000
60000
80000
100000
120000
Kbyt
es/s
ec
File size in 2^n KBytes
Record size in 2^n Kbytes
0
20000
40000
60000
80000
100000
120000
64 256 1024 4096 16384 65536 262144 1.04858e+06 4.1943e+06 1.67772e+07 6.71089e+07 4
16
64
256
1024
4096
16384
File size in 2^n KBytes
Record size in 2^n Kbytes
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
write rewrite read reread
random read random write bkwd read
stride read fwrite freadlegend
record rewrite
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
0
20
40
60
80
100
120
10MB 100MB 1GB 10GB
Thro
ughp
ut (M
B/s
ec)
File size
従来方式 Exage/Storage
広域対応 Exage/Storage
SINET4 Hiroshima University EXAGE L3VPN
SINET4 Kanazawa University EXAGE L3VPN
SINET4 NII EXAGE L3VPNSINET4 NII EXAGE L3VPN
SINET4 Hiroshima University EXAGE L3VPN
SINET4 Kanazawa University EXAGE L3VPN
SINET4 NII EXAGE L3VPNSINET4 NII EXAGE L3VPN
SC2013 2013/11/17~22 @Colorado Convention Center
中川郁夫 Ikuo Nakagawa @Osaka Univ, INTEC Inc.
市川昊平 Kouhei Ichikawa@NAIST
We have been developing a widely distributed cluster storage system and evaluating the storage along with various applications. The main advantage of our storage is its very fast random I/O performance, even though it provides a POSIX compatible file system interface.
eutyklyxc_fpxylruzm_iwuqnly� g`skprÊ_mpxylruzmdwpllapywlatny�
Widely DistributedCluster Storageon Ultra High
Speed Networks
Applicationson Distributed
Cluster Storage
Long Distance Live Migrationfor Disaster Recovery
File Sharing between inter-cloud environment
Content Delivery Platformover inter-cloud environment
Internet
Live Migration
VM
Cluster Storage Delivery Platform
• Sharing global unique file system on the distributed cluster storage
• Accessing nearest site based on file replication algorithm
• Long Distance Live Migration with distributed cluster storage
• Transparent Accessibility during or after live migration
• Deliver large volume data based onthe distributed cluster storage
• Replicate to many sites, automatically• Works as cache service, as well
• Long Distance: Sharing data across geographically dispersed locations • Multi-sites: Replicating data over three different locations • All Active: Simultaneous accessing from multiple locations
We have successfully performed a long distance live migration experiment. We have migrated VMs using our storage without significant performance degradation of read/write operations
¹À�°Á»¨��¥�
もし途絶時間が 無視可能な時間で マイグレーション できたなら…
VMの所在に頓着 しなくてもいい
Available suppliesFrequency
xcores
time
`
VMの所在に頓着 してもいい
課金は?
おもしろくない…
ユーザUsers
クラウド事業者Cloud Service Provider仮想化サーバ
Virtualization Servers
仮想マシンVirtualized Machines (VMs)
interface
4 cores 8GB memory 40GB storage
ユーザUsers
クラウド事業者Cloud Service Provider仮想化サーバ
Virtualization Servers
仮想マシンVirtualized Machines (VMs)
4 cores 8GB memory 40GB storage
サービスIT services
Imaginary demand
Freq
uenc
y
timecores
Real demand
Freq
uenc
y
timecores
Available supplies
Freq
uenc
y
timecores
timecores
Frequency Imaginary
resource
≒
ユーザがバカであればあるほど の見積もり誤りが大きいほど
儲けが大きい
Real demand timecores
Real demand
Freq
uenc
y
timecores
Real demand
Freq
uenc
y
timecores
Real demand
Freq
uenc
y
timecores
Real demand
Freq
uenc
y
timecores
Real demandFr
eque
ncy
timecores
Real demand
Freq
uenc
y
timecores
ユーザUsers
サービスIT services
構築user experience
ユーザは複数のサービスを構築する。 サービスはユーザにエクスペリエンスを提供する。 エクスペリエンスは、サービスが要求する単位時間あたりのリソース量に対する、実際に提供されたリソース量の比によって表現される。
ユーザUsers
サービスIT services
仮想マシンVirtualized Machines (VMs)
リソース 要求
リソース 提供
ユーザは複数の仮想マシン(VM)を確保し、VM上で複数のサービスが動作する。 サービスはVMにリソースを要求し、VMはサービスにリソースを提供する。
Frequencyx
cores
Per day periodicity
time (sec)
time (sec)
Frequencyx
cores
Per week periodicity
Per year periodicity
time (day)
Frequencyx
cores
time (week)
Frequencyx
cores
仮想マシンVirtualized Machines (VMs)
仮想化サーバVirtualization Servers
要求提供
リソース 要求
リソース 提供
仮想化サーバ上で複数のVMが動作する。 VMは仮想化サーバにリソースを要求し、仮想化サーバはVMにリソースを提供する。 VMが要求するリソース量はVMが持つ複数のサービスが要求するリソース量の累計。
拠点Datacenter
拠点は複数の仮想化サーバを保有する。 仮想化サーバは拠点に電力を要求し、拠点は仮想化サーバに電力を提供する他、仮想化サーバのON/OFFの管理 (メンテナンス)、および仮想化サーバの増強を施す。
仮想化サーバVirtualization Servers
電力 要求
電力提供 メンテ命令 増強
拠点Datacenter
電力供給Power Supplyer
電力要求電力提供 課金
電力供給は複数の拠点に対して電力を供給し、課金する。 拠点は電力供給に電力を要求し、電力使用量を支払う。要求する電力量は仮想化サーバが要求する電力量の累計である。
電力 要求
電力提供 メンテ命令 増強
使用料金
管理サービスAdministration Service
リソース情報提供 リソース情報提供
マイグレーション
マイグレーシ
ョン命令 マイグレーション命令
VM作成・変更削除・移動要求
VM作成・変更削除・移動要求
VM作成・変更削除・移動要求
課金
拠点Datacenter
拠点Datacenter
仮想化サーバVirtualization Servers
仮想マシンVirtualized Machines (VMs)
仮想化サーバVirtualization Servers
仮想マシンVirtualized Machines (VMs)
サービスIT services
サービスIT services
ユーザUsers
電力
使用料金
電力
使用料金電力供給
メンテナンス命令増強
電力供給メンテナンス命令
増強
リソース要求
リソース要求
リソース要求
リソース提供
リソース要求
リソース提供
リソース提供
リソース提供
電力要求 電力要求
エクスペリエンス
サービス構築
電力供給Power Supplyer
cash back
implementation of simulator
ユーザUsers
Array
拠点Datacenter
仮想マシンVirtualized Machines (VMs)
仮想化サーバVirtualization Servers
Frequency
timecores
サービスIT services
Frequencyx
cores
time (msec)
Require
Supply
user experience
Frequencyx
cores
Per day periodicity
time (msec)×Per week periodicity
time (day)
Frequencyx
cores
×Per year periodicity
time (week)
Frequencyx
cores
strategy of migration
拠点Datacenter
仮想化サーバVirtualization Servers
Migration仮想マシンVirtualized Machines (VMs)
Frequencyx
cores
time (msec)
Require
Supply
worsen UX
Available supplies
Freq
uenc
y
cores
仮想化サーバVirtualization Servers
仮想マシンVirtualized Machines (VMs)
Migration
仮想化サーバが ダウンする時は 事前に
マイグレーション
リソースの潤沢な 仮想化サーバに 動的に
マイグレーション
仮想化サーバVirtualization Servers
Maintainance Mode
IOTS2013 2013/12/12~13
@広島大学東広島キャンパス
Future Works
科学研究費助成事業
Big Data Analysis
go to next stage
伸縮自在なデータセンターを実現する インタークラウド資源管理システム
高野了成@産総研
ビッグデータ時代の科学研究技術: データ指向型研究を支えるマッシュアップ技術
村田健史@NICT