Скороходов АлександрСистемный инженер-консультант
Построение катастрофоустойчивых и распределённых ЦОД
Решаемые задачи и элементы архитектуры
25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.
Распределённые ЦОДЦели создания
• Катастрофоустойчивость • Непрерывность обработки• Мобильность приложений• Миграция систем• Наращивание производительности/ёмкости• Распределённые сервисы• Географически-локализованные сервисы
КатастрофоустойчивостьТочка восстановления и время восстановления
Время
Моменткатастрофы
Последняя резервная копия или пригодные данные
Системы восстановлены и работоспособны
Время восстановления
Точка восстановления(Recovery point objective - RPO)
Меньше RPO/RTO• Больше $$$• Репликация • «Горячий резерв»
Больше RPO/RTO• Меньше $$$• Резервирование на ленту• «Холодный резерв»
«Нулевые» RPO/RTO – система непрерывной доступности
Развитие кластеризации для защиты от сбоя сайта целиком Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД Некоторые приложения поддерживают кластеризацию через L3 сеть
HeartbeatPrivate LAN
Public LAN VIP Cluster
Cluster ANode 2
Cluster ANode 1
Непрерывность бизнесаГеографически распределённые отказоустойчивые кластеры
Мобильность виртуальных сервисов между разнесёнными сайтами Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN Основа для управления облачной нагрузкой и её миграции между «облаками»
DC 1 DC 2
Core Network
ESX-A source ESX-B target
DCI LAN extension
Cisco-VMware With EMC & NetApp Validated Design
& Certification for Virtualized Workload
Mobility
Мобильность виртуальных сервисовПеремещение VM между ЦОД
Влияние расстоянияЗадержка (latency)
Скорость света в вакууме ~300,000 км/сСкорость света в оптоволокне: ~200,000 км/сЗадержка сигнала: ~5 мкс/км, RTT ~10 мкс/кмДля сравнения:
Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс Среднее время доступа на SSD диске < 0.1 мс Максимальная задержка, допускаемая VMWare для vMotion: 5 мс
RTT (10 мс начиная с vSphere 5.1)
Распределённые ЦОДКлассификация по расстоянию
Расстояние – ключевой факторБлиже:
Выше производительность Синхронная репликация Проще коммуникации
Дальше: Катастрофоусточивость Распределение сервисов
Компромисс!
Кампус1–2 km
Метро50-80 km
Региональное(extended
Metro)200-400km Основной
ЦОДРезервный
ЦОД
Катастрофо-устойчивый
ЦОД
Гео
Распределённые ЦОДТехнологические элементы
Связь сетей передачи данных L2/L3 смежность Мониторинг(heartbit)/синхронизация в кластере Репликация по IP Подключение к транспортной сети
Связь сетей хранения данных Доступ к удаленным СХД/лентам Репликация массивов по FC
Оптимальный путь трафика
Связь сетей хранения данных
Ограничено оптикой и BB_Credit
Влияние расстоянияВарианты объединения Fibre Channel SAN
Темное ВолокноCWDMDWDM
SONET/SDH
ЦОД Кампус Метро Регион СтранаРасстояние
Sync
Sync (1,2,4Gbps)
Sync (1,2Gbps + subrate)
Async (WAN,1/10Gbps)FCIP
Ограничено оптикой и BB_Credit
Ограничено BB_Credit
Опт
ика
IP
Sync (1,2,4,10Gbps per λ)
Sync (Metro Eth)
Async
Земля
Влияние расстоянияЗадержка (latency) и Fibre Channel
Буферные кредиты (BB_Credit) согласовываются между каждой парой соединённых устройств в фабрикеОдин буфер под каждый FC фрейм независимо от размера фреймаFC фреймы буферизуются промежуточными коммутаторамиТрафик на каждом соединении управляется получением фреймов Receiver Ready (R_RDY), передающая сторона может послать только определённое (BB_Credits) число фреймов прежде, чем приостановит передачу
FC Receive Buffers
Traffic Flow
BB_CreditFlow Control
FC Receive Buffers
2-8 BB_Credit 16-255 BB_Credit 2-8 BB_Credit
BB_CreditFlow Control
BB_CreditFlow Control
• BB_Credits нужны, чтобы «заполнить» соединение фреймами FC• Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2
Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps• Если BB_Credits не хватает для данного расстояния – снижается произодительность,
соединение простаивает• Число BB_Credits определяется оборудованием и его настройками
16 Km
1 Gbps FC
4 Gbps FC~½ km per Frame
~2 km per Frame
2 Gbps FC ~1 km per Frame
8 Gbps FC~¼ km per Frame
BB_Credits и расстояние
Влияние расстоянияЗадержка (latency) и Fibre Channel
FCoE для связи SAN между ЦОД?Да! C Nexus 7000/7000 и модулями F2E
Поддерживаемые расстояния для FCoEтранспорта:
Nexus 5500: до 3 км
Nexus 5600: до 20 км
Nexus 7000 с F2/F2E картами: до 80 км с DWDM SFP+
Использование отдельных соединений для LAN и SAN трафика
До 80 кмNexus 7000
Nexus 7000
Storage VDC
Storage VDC
Storage VDC
Storage VDC
FCIP: Fibre Channel over IP
Соединение «точка-точка» (туннель) между двумя FCIP устройствамиИспользуется TCP – могут использоваться механизмы оптимизации (WAAS)Создаётся едингая FC фабрика (общий FSPF домен)Транспорт – IP сеть, в том числе и на большие расстояния
FCIP: IETF стандарт для связи Fibre Channel SAN через IP (RFCs 3821 и 3643)
FC SANFC SANIP Network
FCIP Tunnel
Расширение SAN и Inter-VSAN Routing (IVR)
Сбой на «транзитной» VSAN_20(оборудование или кабель) не нарушит трафик в VSAN_10 или VSAN_30Работает с любым транспортом (FC, SONET/SDH, DWDM/CWDM, FCIP)Нужно, если данные VSANиспользуются для локальной обработки
VSAN_5 - Site 1 Host FabricVSAN_10 - Site 1 Replication FabricVSAN_20 - Inter-site SAN Extension FabricVSAN_30 - Site 2 Replication Fabric
Site 2
Site 1 LocalVSAN_5
TransitVSAN_20
(IVR)
ReplicationVSAN_10
ReplicationVSAN_30
Синхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на обеих сторонах (zero RPO)
«Метро»расстоянияАсинхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на основном (локальном) диске, в то время как его коприрование на удалённый массив продолжается
Неограниченные расстояния
11
1213
14
11
13
12
SynchronousData Replication
AsynchronousData Replication
Расширение SANСинхронная и асинхронная репликация
SCSI протокол (FC) требует два round trip на операцию Вносимая задержка операции 20μs/км, 100 км = 2 мс В зависимости от приложения синхронную репликацию, как правило ограничивают 50-100 км I/O Acceleration «убирает» один round-trip
1
2
1
2Local Storage Array Remote Storage Array
250 μs : Rec_Ready ?
250 μs : Wait for response?
250 μs : Send data
250 μs : Wait for Ack?
50 км 1ms
Расширение SANСинхронная репликация
DC 1 DC 2
Core Network
Virtual Center
ESX-A source ESX-B target
L2 extension for vMotion Network
Target
Volumes
Initiator
Доступ к СХД и связь ЦОДВариант 1 – разделяемая СХД
Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Повышение произодительности с использованием Write Acceleration на
Cisco MDS
Доступ к СХД и связь ЦОДРазделяемая СХД – использование Cisco IO Acceleration
Работа ускорения ввода/вывода
Ускорение синхронной репликации и резервирования на ленту: аналогичнные подходыНа работу с лентой дополнительно влияют особенности физического носителя и ограничения буферизацииWrite Acceleration имитирует только Transfer Ready, Tape Acceleration имитирует Command Status
WRITEXFER_RDY
XFER_RDY
Write Acceleration (WA)
Reduction in I/O Latency ~equal to one round trip time (RTT)
STATUS
WAWA
DATA
WRITE-1XFER_RDY
XFER_RDY
STATUS
DATA
Tape Acceleration (TA)
TATA
STATUSWRITE-2
XFER_RDYDATA
STATUSXFER_RDY
STATUS
WRITE-1
WRITE-2
WRT file mark
WRT file mark
WRT fm stsWRT fm sts
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html
Core Network
DC 1 DC 2
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
Доступ к СХД и связь ЦОДВариант 2 - NetApp FlexCache (Active/Cache)
TempCache 1
?
4
Readdata3data
2Read
2
FlexCache не работает как отложенный кеш записи FlexCache подтверждает операцию только после подтверждения от СХД
data 1Write3
2Write
4ACK
ACKdata
data
ЦОД BЦОД A
Fibre ChannelDistributed Virtual Volume
Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам
Непрерыная синхронизация
Запись защищается на обоих сайтах
Чтение – с кеша VPLEX или местного тома
Synchronous Latency
Доступ к СХД и связь ЦОДВариант 3 - EMC VPLEX Metro (Active/Active)
http://www.cisco.com/en/US/docs/solutions/Enterprise/Data Center/DCI/4.0/ EMC/dciEmc.html
Core Network
Virtual Center
L2 extension for vMotion Network
ESX-A source ESX-B target
VPLEX Virtual Layer
DC 1 DC 2
Initiator
Initiator
TargetVPLEXEngine
EMC VMAX VPLEX
Engine
EMC CLARiiON
Target
F
From
the
Hos
t
F
From the
Storage
LUNv LUNv
Synchronous Latency requiments ~100 kms max
Доступ к СХД и связь ЦОДВариант 3 - EMC VPLEX Metro (Active/Active)
Связь сетей передачи данных
Влияние расстоянияПередача данных
Стандартные интерфейсы 10Гбит/с: 10GBASE-LR – до 10 км 10GBASE-ER – до 40 км 10GBASE-ZR – до 80 км
Стандартные интерфейсы 40Гбит/с 40GBASE-LR4 – до 10 км
Стандартные интерфейсы 100Гбит/с 100GBASE-LR4 – до 10 км 100GBASE-ER4 – до 40 км
DWDM – до 1000+ км при использовании оптического усиления, не ограничено при использовании регенерацииЧерез сеть (IP, MPLS…) - без ограничений
Связь сетей ЦОД != растягивание VLAN !Много задач, требующих растягивания подсетей:
Отказоустойчивые кластеры Миграция виртуальных машин
- но это не значит, что вы всегда обязаны растягивать VLAN: Кластеризация на L3 Растягивание подсетей без растягивания VLAN (LISP) Катастрофоустойчивые ЦОДы – связь на L2 снижает степень
изоляции
В любом случае, не забывайте про: Маршрутизацию между ЦОД Связь ЦОД с внешним миром – Интернетом или корпоративной
магистралью
Ethernet
VSS & vPC, FabricPath? Multi-Chassis EtherChannel для связи пары ЦОД FabricPath для связи многих сайтов – обсуждение далее По тёмной оптике или xWDM “Технологии LAN"
IP
OTV Внедрение на CE Подходит для корпоративных внедрений Малая зависимость от транспорта – требуется только IP сеть «Маршрутизация по MAC адресам»
Растягивание VLANВарианты технологий
Транспорт Критерии применения
MPLS
EoMPLS & A-VPLS & H-VPLS Внедрение на PE Масштабирование и multi-tenancy Возможно поверх GRE Апробированный вариант, хорошо подходит SP
Подробнее – в следующих выступлениях
Оптимальный путьВ чём именно проблема?
Layer 3 Core
Access
Agg
Access
Agg
10.1.1.0/24 advertised into L3Backup should main site go down
10.1.1.0/25 & 10.1.1.128/25 advertised into L3DC A is the primary entry point
Node A
ESX ESXVirtual Machine Virtual Machine
VMwarevCenter
Data Center 1 Data Center 2
Оптимальный путьХотелось бы так...
Access
Agg
Access
Agg
Node A
ESX ESXVirtual Machine
VMwarevCenter
Data Center 1 Data Center 2
Layer 3 Core
Исходящий трафикЛокализация FHRP
Входящий трафикGSLB
— Выбор сайта с помощью DNSRoute Health Injection (RHI)
— Анонс /32 маршрутов на активные сервисыLocator/ID Separation Protocol – LISP-VM
— Маршрутизация до сервиса
Подробнее – в следующих сессиях
Оптимизация пути трафика
Типы ЦОД и выбор подходов
Распределённые ЦОДКампус – до нескольких км
• Типичный сценарий – несколько ЦОД в комплексе зданий или на территории предприятия
• Катастрофоустойчивость: минимальна• Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4• Связь SAN: оптоволокно -LW• Оптимизация пути: не нужна• Рассмотривать как часть единого модульного ЦОД
Распределённые ЦОД«Метро» – несколько десятков (до 60-100) км
• Типичный сценарий – «резервный ЦОД» в пределах города или «метро-области»
• Катастрофоустойчивость: частично• Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости
- IP+OTV или MPLS/VPLS• Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP• Оптимизация пути: по возможности• При наличии возможности – использование «тёмного волокна» для
LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion
Распределённые ЦОД«Регион» – до несколько сот (300-400) км
• Типичный сценарий – «резервный ЦОД» в другом городе в пределах региона
• Катастрофоустойчивость: значительная• Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)• Связь SAN: FCIP, DWDM (при наличии)• Оптимизация пути: желательна• Может использоваться для ряда «метрокластерных» технологий
(Vmotion). Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами
Распределённые ЦОД«Гео» – многие сотни и тысячи км
• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе страны
• Катастрофоустойчивость: высокая• Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера• Связь SAN: FCIP – если требует технология кластера• Оптимизация пути: необходима• Асинхронная репликация, «log shipping» или иные средства
катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – только если требует технология геокластера
Пример: собственные ЦОД CiscoMetro-Virtual DC (MVDC)
Непрерывность обработки, катастрофоустойчивость и оптимальное использование
DC1(Texas)
DC2(Texas)
“Disaster Recovery (DR)”Катастрофоустойчивый удалённый ЦОД (RTP)
“Operational Continuity”Единая пара ЦОД
с локальной отказоустойчивостью
Метро-разнесение (в пределах 50 оптических миль) Размещение непродуктивных приложений
Автоматическая смена функций при катастрофес помощью сервисных профилей Cisco UCS
Георазнесение (> 200 миль)
http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf
Data Center InterconnectДополнительная информация
http://www.cisco.com/go/dci
CiscoRu Cisco CiscoRussia
Ждем ваших сообщений с хештегом#CiscoConnectRu
Пожалуйста, используйте код для оценки доклада4418Ваше мнение очень важно для нас.
Спасибо
Скороходов АлександрPhone: +7(495)789-8615E-mail: [email protected]
25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.