high performance computing - принципы проектирования сети
TRANSCRIPT
High Performance ComputingПринципы проектирования сети[email protected]
Вертикали ЦОД
2
High Performance Computing (HPC)
3
High Performance Computing кластер состоит из набора соединенных между собой компьютерных систем, которые работают сообща, таким образом можно считать, что это
единая система.
Требования к НРС
4
• Системная задержка
• Примеры:
o End-to-end задержка 10 GbE 2.3 микросекунд
o Порты 10/40/100 GbE без переподписки
• Общая производительность системы для обработки трафика сейчас и в будущем
• Примеры:
o Емкость коммутационной фабрики (в Tbps) для обработки трафика
o Большая пропускная способность на слот для будущего роста
• Отказоустойчивость системы для максимизации время работы
• Примеры:
o Избыточные модули для управления, коммутации и питания
o Компоненты с горячей заменой
o Бесшовная отказоустойчивость и обновления ПО
Задержка Емкость Надежность
Вызов 1. Что такое задержка?
5
• Задержка = P + N + S + I + AP- P = Время передачи – отправка битов по проводу- N = Обработка пакета сетевым железом – коммутация, маршрутизация- S = Время сериализации – отправка битов «в провод»- I = Время обработки прерывания – прием пакета на сервере- AP = Время обработки сообщения приложением
• Обмен данными между двумя системами:- ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2
• Категоризация задержки:- Расстояние: Р- Инфраструктура: I, N, S- Приложение: АР
Вызов 1. Как победить задержку?Анализ
6
User space
Kernel Context switch Socketbuffer TCP/IP stack
NIC buffers
Программа Программа Программа Программа
Сервер 1 Сервер 2UDP пакеты отбрасываются здесь, когда память ограничена
Обмен данными между двумя системами:ЗАДЕРЖКА = AP1+I1+S1+N1+P+N2+S2+I2+AP2
AP1
S2
N2PN1
S1
I1 I2
AP2
Вызов 1. Как победить задержку?Классификация
7
User space
Kernel Context switch Socketbuffer TCP/IP stack
NIC buffers
Программа Программа Программа Программа
Сервер 1 Сервер 2
AP1
S2
N2PN1
S1
I1 I2
AP2
РАССТОЯНИЕ
ИНФРАСТРУКТУРА
ПРИЛОЖЕНИЕ
Вызов 1. Как победить задержку?Методы
8
• 1000 байт на скорости 1Гб/с- 1000км = 10.1мс- 100км = 1.2мс- 10км = 303μс- 1км = 213μс- 0км = 203μс
• Задержка при отправке 500 байтового пакета. Добавляется каждым коммутатором.
- 10Мб/с = 566μс- 100Мб/с = 56μс- 1Гб/с = 5.7μс- 10Гб/с = 0.57μс• Общая лучшая практика- Правильный выбор провайдера оптической связи- Выбор более скоростного интерфейса для быстрой сериализации- Сократить кол-во уровней в сети для быстрой передачи (Растягивать L2, Уменьшать L3)- Оптимальный выбор сетевого оборудования (cut-through коммутаторы)- Создать план для обработки microbursts- Управлять DROP и DISCARD, чтобы уменьшить JITTER
Вызов 1. Как победить задержку?Выбор пути.
9
Путь Расстояние Задержка
Москва-Киев 850км 4,25мс
Москва-Киев 999км 4,99мс
Значительные различия в задержках у различных операторов
- Зависит от маршрута
- Кол-во сетевых НОР
- Наличие необходимой пропускной способности
Технология, используемая операторами связи сильно отличается по показателям задержки, особенно во время пика трафика
- DWDM предпочтительней MPLS
- Рассмотреть использование высокоскоростной WAN технологии, например растянутые VLAN
Вызов 1. Как победить задержку?Топология
10
ЦОД 3
ЦОД 1
ЦОД 2
Топологические нюансыo Растянутый VLAN = WAN
коммутация на уровне 2o Создает единую сетьo Может использоваться для
геокластеризации и удобства получения multicast трафика
o Одни коммутаторы лучше других. Все зависит от качества исполнения Spanning Tree
o Использовать traffic shaping на управления microbursts
o Использовать одни и те же физические каналы для маршрутизируемых VLAN
Вызов 1. Как победить задержку?Железо
11
40G 40G
10G10G10G10G10G10G
Узел 1 Узел 1Узел 1
Узел 1
Чип 1 Чип 2
Шасси коммутатора
Store & forward
Cut-through
Вызов 1. Как победить задержку?Железо
12
Вызов 1. Как победить задержку?Железо
13
Общая практика Не использовать гипервизор. Никогда Использовать ОС с лучшим TCP стеком – Linux/Solaris/Windows Использовать самые быстрые процессоры
ОС заточены по умолчанию на пропускную. Перенастроить для минимализации задержки Перенастроить TCP/IP стек или обходить его – TCP offload / bypass Никогда не запускать Х сервер
Выключить iptables, ip6tables, yum-tables, sendmail, Bluetooth, cups, irda, atd, autofs, hidd, kudzu, smmbfs
Диск I/O Тонировать файловую систему. XFS для больших файлов. EXT3 среднее арифметичное Можно смотреть в сторону OCFS32, HSF2, BTRFS LINUX runlevel По умолчанию установить RUN LEVEL 3 Тонировать QoS / Scheduling Тонировать сетевой стек Тонировать уровень приложений
Вызов 1. Как победить задержку?NIC
14
Kernel TCP/IP User space TCP/IP Bypass TCP/IP
1G Linux 48μS RTT10G Linux 16μS RTT
OpenOnLoad10μS RTT
OFED2μS RTT
Общие правила для тонировки NICo Будьте избирательны в выборе NIC. Есть большая разница в
характеристиках задержки и DROP, которые зависят от железа и драйвера.
o Проанализируйте сетевой стек
o Тонировать NIC драйвер
o Тонировать TCP/IP стек
o Обмен – уменьшая latency, Вы грузите CPU
Требования к НРС
15
• Системная задержка
• Примеры:
o End-to-end задержка 10 GbE 2.3 микросекунд
o Порты 10/40/100 GbE без переподписки
• Общая производительность системы для обработки трафика сейчас и в будущем
• Примеры:
o Емкость коммутационной фабрики (в Tbps) для обработки трафика
o Большая пропускная способность на слот для будущего роста
• Отказоустойчивость системы для максимизации время работы
• Примеры:
o Избыточные модули для управления, коммутации и питания
o Компоненты с горячей заменой
o Бесшовная отказоустойчивость и обновления ПО
Задержка Емкость Надежность
Вызов 2. Емкость.Устарелая архитектура
16
Вызов 2 – Емкость.Современная архитектура
17
Требования к НРС
18
• Системная задержка
• Примеры:
o End-to-end задержка 10 GbE 2.3 микросекунд
o Порты 10/40/100 GbE без переподписки
• Общая производительность системы для обработки трафика сейчас и в будущем
• Примеры:
o Емкость коммутационной фабрики (в Tbps) для обработки трафика
o Большая пропускная способность на слот для будущего роста
• Отказоустойчивость системы для максимизации время работы
• Примеры:
o Избыточные модули для управления, коммутации и питания
o Компоненты с горячей заменой
o Бесшовная отказоустойчивость и обновления ПО
Задержка Емкость Надежность
Вызов 3. Надежность.Аппаратная надежность.
19
Возможность горячей замены любого из компонентов
Питаниеo Отказоустойчивость по схеме N+1 или N+N
Охлаждениеo Отказоустойчивость по схеме N+1 или N+N
Коммутацияo Отказоустойчивость фабрик модулей по схеме N+1
Управление o Отказоустойчивость управляющих модулей по схеме N+1
Вызов 3. Надежность. Топология
20
ЦОД 2
SW #2SW #1
SW “D”SW “A” SW “B” SW “C”
MLAG
50% TCP50% TCP
EAPSG.8032
MLAG
MLAGSTACK
Dual-homing
Вызов 3. Надежность.Операционная система
21
Принципы на практике. Что есть на рынке
22
4x40G Ports48x10G Ports
32x40G Ports(104x10G Ports)
48x40G Ports216x10G Ports440x1G Ports fiber768x1G Ports copper
32x100G Ports192x40G Ports768x10G Ports384x1G Ports
Summit X670
Top-of-RackSummit X770
Top-of-Rack
BlackDiamond 8800
End-of-Row BlackDiamond X8
End-of-Row
Серия Summit X670
Summit® X670V-48x– 48 портов GbE/10 GbE
– Один модуль расширения для VIM4-40G-4X:
• 4 порта 40 GbE
• 16 портов 10 GbE с разветвителями
• 64 порта 10 GbE в коммутаторе
• SummitStack™-V320 используя 4 порта
40 GbE
– Стеккирование SummitStack-V используя
два порта 10 GbE
Summit X670-48x– 48 портов 1 GbE/10 GbE
– Стеккирование SummitStack-V используя
два порта 10 GbE ports
23
Двунаправленные блоки вентиляторовБлоки питания AC/DC с горячей заменой
Х670 Высокоскоростное стекирование – 320Гб/с
24
Summit X670V
Summit X650
Summit X460/480
Summit X460/480
Summit X670
Up
to 8 u
nits
Summit® X670V
Summit X650
Summit X650
Summit X480
Summit X670V
Up
to 8 u
nits
Серия Summit X770
25
32 Ports of QSFP+ 40GbE !!!Up to 104 ports 10GbE !!!
Summit X770-32q Switch Hardware
26
32-port QSFP+ Ports of 40GbE
Redundant AC/DC Power Supplies (always ships with 2 PSUs)
2 x mini BNC connectors (75Ω)1588 Output: 1PPS & 10MHz
OOB Management Ethernet
Console Port
Stack Member Number
4+1 FansFront-to-Back or Back-to-
Front (always ships with 5)
USB Port
© 2013 Extreme Networks, Inc. All rights reserved.
BlackDiamond 8800: Расширяемая архитектура
Page 27
Единственный производитель со всеми вариантами решений в одном шасси
Ниже TCO: 8500-модули можно использовать в системах 8800/8900
NEW
Коммутац. комната
Агрегация/Ядро
ЦОД
NEW
© 2013 Extreme Networks, Inc. All rights reserved.
8800 systemToday
MSM48c
DC: 10G8Xc
Core: 10G4Xc
Core: G48Xc
Core: G24Xc
Access: G48Tc (POE FRU)
SmallMedium Large
8500-series(for small deployments)
8800 c-series(for medium deployments)
8900-series(for large deployments)
8500-MSM24* MSM48c* 8900-MSM128*
DC: 10G8Xc DC: 8900-10G24X-c
Core: 10G4Xc DC: 8900-G96T-c
Core: G48Xc DC/Core: 8900-10G8X-xl
Access: 8500-G24X-e Core: G24Xc DC/Core: 8900-G48X-xl
Access: 8500-G48T-e (POE FRU) Access: G48Tc (POE FRU) DC/Core: 8900-G48T-xl
Все карты совместимы между собой
*Все управляющие модули поддерживают карты расширения GE or 10GE
Защита инвестиций:
1000 оптических портов на стойку? Да!
© 2013 Extreme Networks, Inc. All rights reserved.
BlackDiamond X8
29
Физические характеристики• 19-inch rack size, 14.5RU, 30” depth• 8 I/O slots – Horizontal• 2 MM slots - Horizontal• 4 Fabric slots – Rear Vertical• 5 Fan trays – Rear Vertical • 8 PSU slots
Производительность• Скорость коммутации 20+ Tbps • 1.28 Tbps на каждый слот• 192 x 40 GbE или 768 x 10 GbE
Надежность• 3+1 модулей коммутации, 960 Gbps на
слот в случае аварии одного fabric модуля (24 интерфейса 40 GbE неблокируемой коммутации)
• Два управляющий модуля• 4+1 блоков вентиляторов• Резервирование электропитания N+1
BlackDiamond® X8
14.5 RU
30”
17.25”
© 2013 Extreme Networks, Inc. All rights reserved.
12-Port 40GbE QSFP+ Module
48-Port 10GbE SFP+ Module
24-Port 40GbE QSFP+ Module
12-Port 40GbE-XL QSFP+ Module
48-Port 100/1000/10000MbE RJ45 Module
4-Port 100GbE-XL CFP2 Module
New
New
New
BlackDiamond X8
© 2013 Extreme Networks, Inc. All rights reserved.
BlackDiamond® X8 Шасси
31
8 I/O Module Slots(Horizontal)
8 PSU Slots
Dual Management Module Slots
5 Fan Tray Slots(Vertical)
8 AC Power Input Sockets
4 Fabric Module Slots
Front View
Rear ViewWith Fan Trays
Rear View4 Fan Trays Removed
Пример НРС для нефтяной компании
32
o HPC cluster is based on three main components:- Cluster servers with 10G NICs. Vendors – HP, IBM & DELL- High performance storage with 10G & 40G. Vendors DDN & Panasas- Networks switches with 10G & 40G. Vendors – Extreme Networkso Requirements for platforms- Storage must support both Infiniband for legacy connectivity and Ethernet- Server platform Intel/Linux & 7200TB storage- 10G/40G Etherneto Purpose of HPC- Must support a connectivity of large storage subsystems- To be used for seismic data processing
Пример. Топология
33
HP Cluster Servers
Extreme Networks
BLACK DIAMOND X8 DDN Storage Servers
LAN
3rd party network vendor
10G
228 ports
10G
16 ports
40G
128 ports
ПримерНРС для нефтяной компании
34
• Почему Ethernet
Компании запросили решение на Ethernet потому что: a. Ethernet может передавать 40G, но IB может 40G и 56G b. Ethernet дешевле и проще найти экспертов. Низкий CAPEX c. Ethernet дешевле в поддержке. Низкий OPEX d. У Ethernet есть 100G e. За Ethernet стоят тяжеловесные производители сетевого
оборудования