Пакетное ядро мобильного оператора: asr5k, поиски...

26
Пакетное ядро мобильного оператора: ASR5k, поиск и устранение неисправностей Владимир Суконкин Подразделение фокусной технической поддержки сервис- провайдеров GSP EMEAR FTS [email protected] 24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.

Upload: cisco-russia

Post on 14-Jul-2015

126 views

Category:

Technology


7 download

TRANSCRIPT

Page 1: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Пакетное ядро мобильного оператора: ASR5k, поиск и устранение неисправностей

Владимир СуконкинПодразделение фокусной технической поддержки сервис-провайдеровGSP EMEAR [email protected]

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.

Page 2: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Содержание

• Общие идеи по траблшутингу

• Инструменты отладки (Logging / Debugging)

• Что собрать при открытии сервисного запроса

• Примеры

Page 3: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Идеи по траблшутингу

Page 4: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Идеи по траблшутингуЛокализация проблемы

Абонент - Control plane— Attach failures— TAU, смена RAT, HO failures— Проблемы с установкой или модификацией dedicated bearers— Неуспешное согласование параметров QoS

Абонент - User plane— Bandwidth issues; проблема с применением согласованного QoS— Packet drops— Billing/Charging (CDRs, Gx, Gy) issues

Интерфейс— Congestion— GTP Echo timeouts, Restart counter, …— Connectivity to Diameter peer host

Page 5: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Идеи по траблшутингу

Локализация проблемы (продолжение)

Какой сетевой элемент? Какой reference point?

— Сопоставить с рекомендованной 3GPP 23.401 процедурой— Понять задачи и функционал каждого сетевого элемента

Нарисовать схему call-flow (согласно отснятым трассировкам), сравнить с ожидаемым call-flow

— Необходимо запастись трассировками во всех релевантных references-point— По-возможности, выяснить состояние абонента(ов) перед началом проблемы

Page 6: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Идеи по траблшутингу

Опредилить pattern (шаблон) Кого проблема затрагивает, кого не затрагивает

— Определенный eNodeB?— Определенный UE производитель/модель?— Географический регион?— APN?— Home subscribers / Roaming subscribers?— Time of day? (ЧНН?)— Определенные процедуры/сценарии (bearers, QoS, HO scenarios)— Специфично для архитектуры ASR5k: Particular PSCs? Sessmgrs? Linecards / NPU

paths? Когда проблема проявилась впервые?

— Day One / new config?— Какие изменения?— При расширении сети/увеличении нагрузки?

Page 7: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Идеи по траблшутингу

Выявить отличия Рабочий / не рабочий сценарии – с минимальными отличиями Получение «рабочего» трейса может быть так же полезно, как и получение

«нерабочего»— Рассмотреть возможность воспроизведения рабочего сценария в лаборатории

Page 8: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Logging / debugging methods

Page 9: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Если доступен, то это лучший вариант для получения (почти) полного представления о активности абонента – как для control, так и для user plane

Настройки по умолчанию практически полностью подходят для анализа control plane Требуется включение дополнительных опций

для user plane

Do’s• Использовать “multi-call trace” в соотв,

ситуациях.• Если возможно, указывать IMSI.• При использовании “next-call”,

ограничивать тип звонка (“monitor subscriber type pgw next-call”)

• Включать все релевантные протоколы• Для траблшутинга user plane (проблемы с

ECS etc.), использовать опцию “19” и “x” (hexdump)

Cons / Ограничения:• Требует, что бы проблема была

воспроизводимой или ожидаемой (дляконкретного IMSI или других критериев)

• “monitor subscriber next-call” может не работать если сценарий звонка включает несколько сессий – на combo box или по дизайну (напр. dedicated bearers)

• Может не захватить первые несколько пакетов в случае PTMSI attach или HO

• На combo box, пакет будет отображен в трейсе несколько раз (например S5 SGW egress и S5 PGW ingress)

• При декодировании нескольких протоколов из одного стэка (e.g. S1AP and NAS on S1MME), пакеты будут отображаться дважды.

• Higher->Lower протоколы на выход• Lower->Higher протоколы на вход• Нижележащий уровень может показывать

зашифрованный пакет• Показывает пакеты, а не события связанные с

обработкой в программном обеспечении.

Monitor Subscriber

Page 10: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Может быть полезен, когда проблема касается всего интерфейса (а не определенных абонентов).

Do’s• Добавлять протоколы по одному,

производя оценку объема генерируемых сообщений и нагрузки на систему.

• Включать только те протоколы, которые реально нужны.

• Необходима крайняя осторожность при использовании на оборудовании, находящимся в коммерческой эксплуатации

Cons / Ограничения• Может генерировать большой объем

вывода.• В зависимости от активности абонента

может оказаться полезен для определенных control plane протоколов, но не применим для user plane

• Показывает пакеты, но не показывает события, связанные с обработкой в программном обеспечении.

Monitor Protocol

Page 11: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Позволяет выборочно включать вывод логов по 250 компонентам

Можно изменять уровень verbosity от 1 (critical) до 7 (debug)

Default уровень 2 (error) для всех компонент

Каждый компонент имеет свой диапазон event IDs; каждый ID это уникальный тип ошибки с определенным severity иформатом соощения.

Два типа:• Active logging

— Включается для конкретной CLI (SSH session)— Включается в режиме Exec CLI— Вывод направляется непосредственно в CLI сессию

• Runtime logging— Включается в режиме конфигурации— Вывод отправляется на сислог сервер и так же

отображется в “show logs”

Возможно, единственная опция для анализа событий, связаннных с работой программного обеспечения (в отличии от сбора и отображения input/output пакетов)

Cons / Ограничения• Может сгенерировать большое количество

вывода

Do’s• Всегда, всегда иметь действующий сислог

сервер• Знать, какой компонент вам нужен• Часто, так же необходимо включать и

“sessmgr”• Будьте осторожны с verbosity выше чем

“unusual”• Возможно “logging filter active facility all level

debug”… только в лаборатории!• Настройте уровень логирования “critical” для

компонент, которые вы не хотите видеть• Отключите логирование для определенных

event IDs или диапазона event IDs, которые вы не хотите видеть

• Используйте “show logging” , что бы увидеть что именно сейчас включено

Active или Runtime Logging

Page 12: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Включается в режиме конфигурации local context configuration отдельно для абонента

Позволяет запись событий и сообщений по конкретному абоненту на сислог сервер

Комбинация “monitor subscriber”, и “logging filter runtime …” для конкретного абонента:

[local]sim-lte# show configuration | grep logginglogging display event-verbosity fulllogging display pdu-verbosity 5logging display pdu-data hex-asciilogging monitor msid 123456001000000[local]sim-lte#

Cons / Ограничения• Может генерировать большое количетсво

вывода, если включен для user-plane • Теже ограничения, что и для “monitor

subscriber” в части идентификации абонента (e.g. PTIMSI attach и HO)

Do’s• Рекомендуем использовать данную опцию –

она почему-то используется редко• Включать для user-plane только при острой

необходимости• Убедиться, что сислог сервер доступен и

функционирует

Logging Monitor”

Page 13: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Общепринятое назначение: Счетчики отображают текущий статус (напр.

кол-во attached абонентов ) Статистика показывает исторические

данные (напр. кол-во Attach request, полученных с момента загрузки устройства или c момента обнуления счетчиков )

Доступна большинства протоколов… show egtpc statistics show mme-service statistics …

… а так же внутренняя статистика/счетчики для программного обеспечения: show session disconnect-reasons show session progress show apn statistics …

Many stats are available as bulkstats and can help getting the big picture over time

Много статистики доступно в формате bulkstat и может помочь получить более глобальную картину во времени

Do’s Собирайте последовательно несколько

выводов для того, что получить приращение счетчиков

Собирайте команды с временными метками — Это позволит произвести корреляцию между

несколькими выводами одной и той же команды, или между выводами команды и пакетной трассой

Stats/Counters

Page 14: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Показывает текущее состояние абонента с точки зрения ASR5k

Может требоваться как однократный вывод, так и несколько последовательных

Полезные команды: show subscriber full show subscriber mme-only/sgw-

only/pgw-only full show active-charging session full show mme-service session full show mme-service db record imsi

Do’s Собирайте последовательно несколько

выводов, что бы получить приращения счетчиков

Собирайте выводы с временными метками Используйте ключевые опции “mme-only”/”sgw-

only”/”pgw-only” для вывода “show subscriber”— Они не только фильтруют лишний вывод, но и

добавляют дополнительную информацию, специфичную для каждой опции

Иногда полезно использовать опцию “show subscriber debug-info”

“Show subscriber” …

Page 15: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Требуются в случе если: Когда есть сомнения в том, что ASR5k

«наблюдает» в сети В случае, если пакеты приходят

поврежденными Когда “monitor subscriber” не работает

(PTMSI etc.)

Некоторые заказчики имеют постоянные захват трафика на всех интерфейсах

Обычно для control-planе трафика

Может потребоваться захват пакетных трасс на нескольких интерфейсах одновременно

Do’s Убедитесь, что время на ASR5k и

внешнем анализаторе (устройтсве для захвата) засинхронизировано

External traces

Page 16: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Что необходимо подготовить для открытия сервисного запроса в Cisco TAC

Page 17: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Подготовка к открытию SR

• Какие платформы, компоненты, версии ПО подвержены (или не подвержены) сбою?

• Какие версии программного обеспечения используются?• На каком участке сети произошла авария?• Когда она была зафиксирована в первый раз?• Происходит ли она периодически и если да, то как часто?• Работала ли ранее применяемая конфигурация или это новая

инсталляция или изменение существующего дизайна?• Какие изменения на сети происходили непосредственно до аварии

(в аппаратной или программной конфигурации, версиях ПО, количестве трафика и т.п)?

• Если проблема является воспроизводимой, предоставьте, пожалуйста, соответствующие инструкции по ее воспроизведению.

• Как сбой повлиял на сетевые сервисы и клиентов, имеют ли место финансовые потери?

• Какие действия по диагностике и устранению аварийной ситуации предпринимались до открытия сервисного запроса?

Page 18: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Описание проблемы

• Какие платформы, компоненты, версии ПО подвержены (или не подвержены) сбою?

• Какие версии программного обеспечения используются?• На каком участке сети произошла авария?• Когда она была зафиксирована в первый раз?• Происходит ли она периодически и если да, то как часто?• Работала ли ранее применяемая конфигурация или это новая

инсталляция или изменение существующего дизайна?• Какие изменения на сети происходили непосредственно до аварии

(в аппаратной или программной конфигурации, версиях ПО, количестве трафика и т.п)?

• Если проблема является воспроизводимой, предоставьте, пожалуйста, соответствующие инструкции по ее воспроизведению.

• Как сбой повлиял на сетевые сервисы и клиентов, имеют ли место финансовые потери?

• Какие действия по диагностике и устранению аварийной ситуации предпринимались до открытия сервисного запроса?

Page 19: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

SSD

• Одним из основных и наиболее полезных источников информации является вывод команды “show support details “:

show support details <to location and filename>

[file: ]{ /flash | /pcmcia1 | /hd }[ /directory]/file_nametftp://{ host[ :port# ] }[ /directory ]/file_name[ ftp: | sftp: ]//[ username[ :password ]@ ] { host }[ :port# ][ /directory ]/file_name

• Всегда собирайте “show support details” (SSD) до и после каких-либо изменений конфигурации и любых плановых профилактических работ (Maintenance Window (MW)).

• При наблюдении проблемы соберите несколько файлов SSD в различные интервалы времени, что бы дать возможность инженерам поддержки и разработчикам сравнить показания требуемых счетчиков на временном интервале.

• Так же необходимо приложить SSD, снятое на стабильно работающей системе, до того, как появилась проблема.

Page 20: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Crash файл

• Необходимо проверить наличие crash файла, в случае если он есть –приложить его при открытии сервисного запроса. Проверить наличие crash файла можно следующей командой:

[local]# sho crash listWednesday November 19 16:46:36 AST 2014== ==== ======= ========== =========== ================# Time Process Card/CPU/ SW HW_SER_NUM

PID VERSION SMC / Crash Card== ==== ======= ========== =========== ================

1 2014-Jul-22+05:25:53 sessmgr 04/0/10474 15.0(55300) SAD1738018N/SAD170300J0.........36 2014-Nov-19+16:23:57 mmemgr 01/0/04683 16.3(57726) SAD1738018N/SAD170300GK37 2014-Nov-19+16:24:26 sessmgr 05/0/09044 16.3(57726) SAD1738018N/SAD170400KP38 2014-Nov-19+16:42:45 mmemgr 01/0/21301 16.3(57726) SAD1738018N/SAD170300GK39 2014-Nov-19+16:45:27 mmemgr 01/0/05127 16.3(57726) SAD1738018N/SAD170300GK

Page 21: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Crash файл (продолжение)

• Можно посмотреть информацию по конкретному крэшу:

[local]# sho crash number 6Thursday November 20 04:04:54 AST 2014********************* CRASH #06 ***********************SW Version : 16.3(57726)Similar Crash Count : 34Time of First Crash : 2014-Nov-19+16:21:22Fatal Signal 11: Segmentation fault

PC: [07ac136b/X] mmemgr_get_MMEENodeBAssoc()Faulty address: 0xcSignal from: kernelSignal detail: address not mapped to objectProcess: card=1 cpu=0 arch=X pid=21526 cpu=~23% argv0=mmemgrCrash time: 2014-Nov-19+16:05:37 UTCRecent errno: 11 Resource temporarily unavailableStack (131071@0xfffb2000, probably truncated):

[07ac136b/X] mmemgr_get_MMEENodeBAssoc() sp=0xfffb2048[07ac247c/X] mmemgr_process_mme_enodeb_assoc() sp=0xfffb21f8

Page 22: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Case Study

Page 23: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Case Study: Diameter flaps

• Кратковременные провалы трафика и рост ошибок на Gx в короткие интервалы времени

Page 24: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Case Study: Diameter flaps (продолжение)

Flap@00:27 duration 0.8sec

2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.164] [snmp 22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 184 (DiameterPeerDown) context Ga_Gy_Gxipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.164] [diamproxy 119111 error] [1/0/4528 <diamproxy:1> diamproxy.c:3550] [software internal system syslog] ALA-PCRF1: Connection closed at state OPEN DWR pending 02014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.967] [snmp 22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 185 (DiameterPeerUp) context Ga_Gy_Gxipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com2014-10-23T00:27:40+06:00 172.13.21.5 evlogd: [local-60sec40.967] [snmp 22002 info] [1/0/4528 <diamproxy:1> trap_api.c:670] [software internal system syslog] Internal trap notification 1036 (DiameterCapabilitiesExchangeSuccess) context Ga_Gy_Gx ipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com

Flap@10:07 duration 0.7sec

2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.142] [snmp 22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 184 (DiameterPeerDown) context Ga_Gy_Gxipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com2014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.142] [diamproxy 119111 error] [1/0/4528 <diamproxy:1> diamproxy.c:3550] [software internal system syslog] ALA-PCRF1: Connection closed at state OPEN DWR pending 02014-10-23T10:07:28+06:00 172.13.21.5 evlogd: [local-60sec28.856] [snmp 22002 info] [1/0/4528 <diamproxy:1> trap_api.c:690] [software internal system syslog] Internal trap notification 185 (DiameterPeerUp) context Ga_Gy_Gxipaddr 172.13.15.15 end point name SHM-ASR5K-ALA-PCRF1.xyz-cell.com

Flap@11:47 duration 0.9sec….

Page 25: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

Case Study: Diameter flaps (продолжение)

• Проблема наблюдается в моменты перераспределения большей части трафика с одной LAG группы на другую

• Проблема не наблюдается на узле, где установлен PCRF

Предложения по дальнейшим действиям?

Page 26: Пакетное ядро мобильного оператора: ASR5k, поиски устранение неисправностей

CiscoRu Cisco CiscoRussia

Ждем ваших сообщений с хештегом#CiscoConnectRu

Пожалуйста, используйте код для оценки доклада

1143

Ваше мнение очень важно для нас

Спасибо за внимание!

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.