Download - Построение катастрофоустойчивых и распределённых ЦОД

Скороходов АлександрСистемный инженер-консультант

[email protected]

Построение катастрофоустойчивых и распределённых ЦОД

Решаемые задачи и элементы архитектуры

25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.

Распределённые ЦОДЦели создания

• Катастрофоустойчивость • Непрерывность обработки• Мобильность приложений• Миграция систем• Наращивание производительности/ёмкости• Распределённые сервисы• Географически-локализованные сервисы

КатастрофоустойчивостьТочка восстановления и время восстановления

Время

Моменткатастрофы

Последняя резервная копия или пригодные данные

Системы восстановлены и работоспособны

Время восстановления

Точка восстановления(Recovery point objective - RPO)

Меньше RPO/RTO• Больше $$$• Репликация • «Горячий резерв»

Больше RPO/RTO• Меньше $$$• Резервирование на ленту• «Холодный резерв»

«Нулевые» RPO/RTO – система непрерывной доступности

Развитие кластеризации для защиты от сбоя сайта целиком Кластерные системы типично требуют “растягивания” L2 VLAN между ЦОД Некоторые приложения поддерживают кластеризацию через L3 сеть

HeartbeatPrivate LAN

Public LAN VIP Cluster

Cluster ANode 2

Cluster ANode 1

Непрерывность бизнесаГеографически распределённые отказоустойчивые кластеры

Мобильность виртуальных сервисов между разнесёнными сайтами Требование «растягивания» VLAN и обеспечения непрерывного доступа к LUN Основа для управления облачной нагрузкой и её миграции между «облаками»

DC 1 DC 2

Core Network

ESX-A source ESX-B target

DCI LAN extension

Cisco-VMware With EMC & NetApp Validated Design

& Certification for Virtualized Workload

Mobility

Мобильность виртуальных сервисовПеремещение VM между ЦОД

Влияние расстоянияЗадержка (latency)

Скорость света в вакууме ~300,000 км/сСкорость света в оптоволокне: ~200,000 км/сЗадержка сигнала: ~5 мкс/км, RTT ~10 мкс/кмДля сравнения:

Среднее время доступа на (быстром) шпиндельном диске ~2-3 мс Среднее время доступа на SSD диске < 0.1 мс Максимальная задержка, допускаемая VMWare для vMotion: 5 мс

RTT (10 мс начиная с vSphere 5.1)

Распределённые ЦОДКлассификация по расстоянию

Расстояние – ключевой факторБлиже:

Выше производительность Синхронная репликация Проще коммуникации

Дальше: Катастрофоусточивость Распределение сервисов

Компромисс!

Кампус1–2 km

Метро50-80 km

Региональное(extended

Metro)200-400km Основной

ЦОДРезервный

ЦОД

Катастрофо-устойчивый

ЦОД

Гео

Распределённые ЦОДТехнологические элементы

Связь сетей передачи данных L2/L3 смежность Мониторинг(heartbit)/синхронизация в кластере Репликация по IP Подключение к транспортной сети

Связь сетей хранения данных Доступ к удаленным СХД/лентам Репликация массивов по FC

Оптимальный путь трафика

Связь сетей хранения данных

Ограничено оптикой и BB_Credit

Влияние расстоянияВарианты объединения Fibre Channel SAN

Темное ВолокноCWDMDWDM

SONET/SDH

ЦОД Кампус Метро Регион СтранаРасстояние

Sync

Sync (1,2,4Gbps)

Sync (1,2Gbps + subrate)

Async (WAN,1/10Gbps)FCIP

Ограничено оптикой и BB_Credit

Ограничено BB_Credit

Опт

ика

IP

Sync (1,2,4,10Gbps per λ)

Sync (Metro Eth)

Async

Земля

Влияние расстоянияЗадержка (latency) и Fibre Channel

Буферные кредиты (BB_Credit) согласовываются между каждой парой соединённых устройств в фабрикеОдин буфер под каждый FC фрейм независимо от размера фреймаFC фреймы буферизуются промежуточными коммутаторамиТрафик на каждом соединении управляется получением фреймов Receiver Ready (R_RDY), передающая сторона может послать только определённое (BB_Credits) число фреймов прежде, чем приостановит передачу

FC Receive Buffers

Traffic Flow

BB_CreditFlow Control

FC Receive Buffers

2-8 BB_Credit 16-255 BB_Credit 2-8 BB_Credit



• BB_Credits нужны, чтобы «заполнить» соединение фреймами FC• Полный (2112 байт) FC фрейм имеет «длину» примерно 2 км на 1 Gbps, 1 км на 2

Gbps,1/2 км на 4 Gbps, 1/4 км на 8 Gbps, 1/8 км на 16 Gbps• Если BB_Credits не хватает для данного расстояния – снижается произодительность,

соединение простаивает• Число BB_Credits определяется оборудованием и его настройками

16 Km

1 Gbps FC

4 Gbps FC~½ km per Frame

~2 km per Frame

2 Gbps FC ~1 km per Frame

8 Gbps FC~¼ km per Frame

BB_Credits и расстояние

Влияние расстоянияЗадержка (latency) и Fibre Channel

FCoE для связи SAN между ЦОД?Да! C Nexus 7000/7000 и модулями F2E

Поддерживаемые расстояния для FCoEтранспорта:

Nexus 5500: до 3 км

Nexus 5600: до 20 км

Nexus 7000 с F2/F2E картами: до 80 км с DWDM SFP+

Использование отдельных соединений для LAN и SAN трафика

До 80 кмNexus 7000

Nexus 7000

Storage VDC

Storage VDC

Storage VDC

Storage VDC

FCIP: Fibre Channel over IP

Соединение «точка-точка» (туннель) между двумя FCIP устройствамиИспользуется TCP – могут использоваться механизмы оптимизации (WAAS)Создаётся едингая FC фабрика (общий FSPF домен)Транспорт – IP сеть, в том числе и на большие расстояния

FCIP: IETF стандарт для связи Fibre Channel SAN через IP (RFCs 3821 и 3643)

FC SANFC SANIP Network

FCIP Tunnel

Расширение SAN и Inter-VSAN Routing (IVR)

Сбой на «транзитной» VSAN_20(оборудование или кабель) не нарушит трафик в VSAN_10 или VSAN_30Работает с любым транспортом (FC, SONET/SDH, DWDM/CWDM, FCIP)Нужно, если данные VSANиспользуются для локальной обработки

VSAN_5 - Site 1 Host FabricVSAN_10 - Site 1 Replication FabricVSAN_20 - Inter-site SAN Extension FabricVSAN_30 - Site 2 Replication Fabric

Site 2

Site 1 LocalVSAN_5

TransitVSAN_20

(IVR)

ReplicationVSAN_10

ReplicationVSAN_30

Синхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на обеих сторонах (zero RPO)

«Метро»расстоянияАсинхронная репликация данных: Приложение получает подтверждение I/O после его выполнения на основном (локальном) диске, в то время как его коприрование на удалённый массив продолжается

Неограниченные расстояния

11

1213

14

11

13

12

SynchronousData Replication

AsynchronousData Replication

Расширение SANСинхронная и асинхронная репликация

SCSI протокол (FC) требует два round trip на операцию Вносимая задержка операции 20μs/км, 100 км = 2 мс В зависимости от приложения синхронную репликацию, как правило ограничивают 50-100 км I/O Acceleration «убирает» один round-trip

1

2

1

2Local Storage Array Remote Storage Array

250 μs : Rec_Ready ?

250 μs : Wait for response?

250 μs : Send data

250 μs : Wait for Ack?

50 км 1ms

Расширение SANСинхронная репликация

DC 1 DC 2

Core Network

Virtual Center


L2 extension for vMotion Network

Target

Volumes

Initiator

Доступ к СХД и связь ЦОДВариант 1 – разделяемая СХД

Core Network

DC 1 DC 2

Virtual Center



Повышение произодительности с использованием Write Acceleration на

Cisco MDS

Доступ к СХД и связь ЦОДРазделяемая СХД – использование Cisco IO Acceleration

Работа ускорения ввода/вывода

Ускорение синхронной репликации и резервирования на ленту: аналогичнные подходыНа работу с лентой дополнительно влияют особенности физического носителя и ограничения буферизацииWrite Acceleration имитирует только Transfer Ready, Tape Acceleration имитирует Command Status

WRITEXFER_RDY

XFER_RDY

Write Acceleration (WA)

Reduction in I/O Latency ~equal to one round trip time (RTT)

STATUS

WAWA

DATA

WRITE-1XFER_RDY

XFER_RDY

STATUS

DATA

Tape Acceleration (TA)

TATA

STATUSWRITE-2

XFER_RDYDATA

STATUSXFER_RDY

STATUS

WRITE-1

WRITE-2

WRT file mark

WRT file mark

WRT fm stsWRT fm sts

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data_Center/DCI/4.0/Netapp/dciNetapp.html

Core Network

DC 1 DC 2

Virtual Center



Доступ к СХД и связь ЦОДВариант 2 - NetApp FlexCache (Active/Cache)

TempCache 1

?

4

Readdata3data

2Read

2

FlexCache не работает как отложенный кеш записи FlexCache подтверждает операцию только после подтверждения от СХД

data 1Write3

2Write

4ACK

ACKdata

data

ЦОД BЦОД A

Fibre ChannelDistributed Virtual Volume

Хосты на обеих сторонах одновременно имеют доступ к распределённым виртуальным томам

Непрерыная синхронизация

Запись защищается на обоих сайтах

Чтение – с кеша VPLEX или местного тома

Synchronous Latency

Доступ к СХД и связь ЦОДВариант 3 - EMC VPLEX Metro (Active/Active)

http://www.cisco.com/en/US/docs/solutions/Enterprise/Data Center/DCI/4.0/ EMC/dciEmc.html

Core Network

Virtual Center



VPLEX Virtual Layer

DC 1 DC 2

Initiator

Initiator

TargetVPLEXEngine

EMC VMAX VPLEX

Engine

EMC CLARiiON

Target

F

From

the

Hos

t

F

From the

Storage

LUNv LUNv

Synchronous Latency requiments ~100 kms max

Доступ к СХД и связь ЦОДВариант 3 - EMC VPLEX Metro (Active/Active)

Связь сетей передачи данных

Влияние расстоянияПередача данных

Стандартные интерфейсы 10Гбит/с: 10GBASE-LR – до 10 км 10GBASE-ER – до 40 км 10GBASE-ZR – до 80 км

Стандартные интерфейсы 40Гбит/с 40GBASE-LR4 – до 10 км

Стандартные интерфейсы 100Гбит/с 100GBASE-LR4 – до 10 км 100GBASE-ER4 – до 40 км

DWDM – до 1000+ км при использовании оптического усиления, не ограничено при использовании регенерацииЧерез сеть (IP, MPLS…) - без ограничений

Связь сетей ЦОД != растягивание VLAN !Много задач, требующих растягивания подсетей:

Отказоустойчивые кластеры Миграция виртуальных машин

- но это не значит, что вы всегда обязаны растягивать VLAN: Кластеризация на L3 Растягивание подсетей без растягивания VLAN (LISP) Катастрофоустойчивые ЦОДы – связь на L2 снижает степень

изоляции

В любом случае, не забывайте про: Маршрутизацию между ЦОД Связь ЦОД с внешним миром – Интернетом или корпоративной

магистралью

Ethernet

VSS & vPC, FabricPath? Multi-Chassis EtherChannel для связи пары ЦОД FabricPath для связи многих сайтов – обсуждение далее По тёмной оптике или xWDM “Технологии LAN"

IP

OTV Внедрение на CE Подходит для корпоративных внедрений Малая зависимость от транспорта – требуется только IP сеть «Маршрутизация по MAC адресам»

Растягивание VLANВарианты технологий

Транспорт Критерии применения

MPLS

EoMPLS & A-VPLS & H-VPLS Внедрение на PE Масштабирование и multi-tenancy Возможно поверх GRE Апробированный вариант, хорошо подходит SP

Подробнее – в следующих выступлениях

Оптимальный путьВ чём именно проблема?

Layer 3 Core

Access

Agg

Access

Agg

10.1.1.0/24 advertised into L3Backup should main site go down

10.1.1.0/25 & 10.1.1.128/25 advertised into L3DC A is the primary entry point

Node A

ESX ESXVirtual Machine Virtual Machine

VMwarevCenter

Data Center 1 Data Center 2

Оптимальный путьХотелось бы так...

Access

Agg

Access

Agg

Node A

ESX ESXVirtual Machine

VMwarevCenter

Data Center 1 Data Center 2

Layer 3 Core

Исходящий трафикЛокализация FHRP

Входящий трафикGSLB

— Выбор сайта с помощью DNSRoute Health Injection (RHI)

— Анонс /32 маршрутов на активные сервисыLocator/ID Separation Protocol – LISP-VM

— Маршрутизация до сервиса

Подробнее – в следующих сессиях

Оптимизация пути трафика

Типы ЦОД и выбор подходов

Распределённые ЦОДКампус – до нескольких км

• Типичный сценарий – несколько ЦОД в комплексе зданий или на территории предприятия

• Катастрофоустойчивость: минимальна• Связь LAN: оптоволокно 10GBASE-LR/40GBASE-LR4/100GBASE-LR4• Связь SAN: оптоволокно -LW• Оптимизация пути: не нужна• Рассмотривать как часть единого модульного ЦОД

Распределённые ЦОД«Метро» – несколько десятков (до 60-100) км

• Типичный сценарий – «резервный ЦОД» в пределах города или «метро-области»

• Катастрофоустойчивость: частично• Связь LAN: оптоволокно 10GBASE-ER/ZR / DWDM, при необходимости

- IP+OTV или MPLS/VPLS• Связь SAN: оптоволокно CWDM/DWDM, при необходимости - FCIP• Оптимизация пути: по возможности• При наличии возможности – использование «тёмного волокна» для

LAN и SAN, синхронная репликация, технологии метрокластеров, Vmotion

Распределённые ЦОД«Регион» – до несколько сот (300-400) км

• Типичный сценарий – «резервный ЦОД» в другом городе в пределах региона

• Катастрофоустойчивость: значительная• Связь LAN: IP+OTV или MPLS/VPLS, DWDM (при наличии)• Связь SAN: FCIP, DWDM (при наличии)• Оптимизация пути: желательна• Может использоваться для ряда «метрокластерных» технологий

(Vmotion). Асинхронная репликация или синхронная с ограничениями и дополнительными инструментами

Распределённые ЦОД«Гео» – многие сотни и тысячи км

• Типичный сценарий – ЦОД на случай катастрофы (DR) в другом регионе страны

• Катастрофоустойчивость: высокая• Связь LAN: IP+OTV или MPLS/VPLS - если требует технология кластера• Связь SAN: FCIP – если требует технология кластера• Оптимизация пути: необходима• Асинхронная репликация, «log shipping» или иные средства

катастрофоустойчивости. Высокое время восстановления (часы и более). Непосредственная связь между ЦОД – только если требует технология геокластера

Пример: собственные ЦОД CiscoMetro-Virtual DC (MVDC)

Непрерывность обработки, катастрофоустойчивость и оптимальное использование

DC1(Texas)

DC2(Texas)

“Disaster Recovery (DR)”Катастрофоустойчивый удалённый ЦОД (RTP)

“Operational Continuity”Единая пара ЦОД

с локальной отказоустойчивостью

Метро-разнесение (в пределах 50 оптических миль) Размещение непродуктивных приложений

Автоматическая смена функций при катастрофес помощью сервисных профилей Cisco UCS

Георазнесение (> 200 миль)

http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf

http://www.cisco.com/web/about/ciscoitatwork/data_center/docs/Cisco_IT_Raleigh_Dual_Purpose_Data_Center_Case_Study.pdf

Data Center InterconnectДополнительная информация

http://www.cisco.com/go/dci

CiscoRu Cisco CiscoRussia

Ждем ваших сообщений с хештегом#CiscoConnectRu

Пожалуйста, используйте код для оценки доклада4418Ваше мнение очень важно для нас.

Спасибо

Скороходов АлександрPhone: +7(495)789-8615E-mail: [email protected]

25.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.

Download - Построение катастрофоустойчивых и распределённых ЦОД

Top Related