Систематизированный подход к поиску и устранению...

21
Систематизированный подход к поиску и устранению неисправностей Ильина-Сидорова Ирина © 2014 Cisco and/or its affiliates. All rights reserved. 24.11.2014

Upload: cisco-russia

Post on 05-Jul-2015

137 views

Category:

Technology


1 download

DESCRIPTION

Систематизированный подход к поиску и устранению неисправностей

TRANSCRIPT

Page 1: Систематизированный подход к поиску и устранению неисправностей

Систематизированный подход к поиску и устранению неисправностей

Ильина-Сидорова Ирина

© 2014 Cisco and/or its affiliates. All rights reserved.24.11.2014

Page 2: Систематизированный подход к поиску и устранению неисправностей

Систематизированный подход к поиску и устранению неисправностей

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.

• Зачем это нужно?• Что влияет на выбор метода решения?• Почему TAC ведёт себя так?• Определение проблемы и триггера• Workaround, solution, root cause• Что делать, если норма неизвестна?• Небольшая игра• Вопросы

2

Page 3: Систематизированный подход к поиску и устранению неисправностей

Какие варианты у нас есть? Опыт Случайный поиск Принцип пяти «почему» Анализ по Kepner-Tregoe Полная замена сбойной системы

© 2014 Cisco and/or its affiliates. All rights reserved.24.11.2014

Зачем нам нужен какой-то специальный подход?

3

Page 4: Систематизированный подход к поиску и устранению неисправностей

Что влияет на выбор метода решения?

Наши знания

Срочность

Важность

Стоимость

Природа проблемы

5 Whys и KTPA – ключ к успеху, особенно если применяются опытным инженером

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 4

Page 5: Систематизированный подход к поиску и устранению неисправностей

Почему TAC ведёт себя так?

• Все инженеры TAC проходят KT-тренинг• Все инженеры TAC обязаны поддерживать определённый формат

записей• Всегда существует вероятность передачи кейса другому инженеру• При привлечении инженеров верхнего уровня или разработчиков,

выполнение требований KT-анализа обязательно

• Это действительно работает!

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 5

Page 6: Систематизированный подход к поиску и устранению неисправностей

Фазы поиска и устранения неисправности

• Обнаружение• Изоляция проблемы

• Идентификация• Описание проблемы• Описание не-проблемы

• Решение• Выработка теорий о возможных причинах• Проверка возможных причин• Окончательное решение

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 6

Page 7: Систематизированный подход к поиску и устранению неисправностей

• Проблема – отклонение от нормы• Выяснение полного и точного описания проблемы – первый шаг на пути

её решения• Какое поведение системы является отклонением, а какое – следствием?• Значения «по умолчанию» у каждого свои• 5 Whys помогают выявить потенциальные отклонения и следствия

отклонений

© 2014 Cisco and/or its affiliates. All rights reserved. 724.11.2014

Изоляция проблемы

Page 8: Систематизированный подход к поиску и устранению неисправностей

Параметры описания проблемы

• Kepner-Tregoe Problem Analysis позволяет очертить рамки проявления проблемы: Что? Где? Когда? Что ещё?

• Присутствует/Отсутствует отклонение• Важная часть анализа – выявление паттерна• Зная паттерн, пробуем установить триггер• Любая дополнительная информация важна• Не пытаемся сразу предполагать причину!

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 8

Page 9: Систематизированный подход к поиску и устранению неисправностей

Проверка возможных причин

• В рамках мысленного эксперимента• С уточнением описания проблемы• Важный вопрос: где проблема могла бы проявиться, но НЕ проявляется?• Упор на выработку пути решения• Ресурсоёмкость проверки имеет значение• Последний этап проверки может совмещаться с применением

временного решения• Не принимаем причину в качестве наиболее вероятной без проверки

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 9

Page 10: Систематизированный подход к поиску и устранению неисправностей

Алгоритм анализа проблемы

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 10

Анализ решения

Анализ внесённых изменений Анализ первопричин

Подтверждение истинной причины

Проверка предположений Наблюдение Попытка применения решения

Проверка возможных причин

Мысленный эксперимент Выделение наиболее вероятной причины

Идентифицируем потенциальные причины

Знания Опыт Найденные различия Найденные изменения

Описываем проблему

Выделение симптомов Уточнение, в чём именно проблема

Page 11: Систематизированный подход к поиску и устранению неисправностей

• В качестве результата могут выступать: временное решение - workaround устранение отклонения - solution анализ первопричины проблемы – root cause analysis

• Любая теория требует проверки• Решение должно быть применимо в реальной ситуации• Решение не должно привносить новые нежелательные отклонения

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 11

Workaround, Solution, Root Cause

Page 12: Систематизированный подход к поиску и устранению неисправностей

Временное решение - Workaround

• Не устраняет отклонение, однако минимизирует возможность его негативного влияния

• Далеко не всегда затрагивает первопричину проблемы• Может быть окончательным• Может ухудшать решение, однако положительный эффект от его

применения перевешивает

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 12

Page 13: Систематизированный подход к поиску и устранению неисправностей

Решение - Solution

• Решение проблемы – устраняет нежелательное отклонение, либо делает невозможным его негативное влияние

• Решением проблемы является восстановление работоспособности в полном объёме

• Решение проблемы не всегда возможно

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 13

Page 14: Систематизированный подход к поиску и устранению неисправностей

Первопричина проблемы - Root Cause

• Фактор, изменив который, мы решим проблему• Не всегда может быть установлена• Нахождение первопричины не обязательно для решения проблемы,

однако желательно в большинстве случаев

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 14

Page 15: Систематизированный подход к поиску и устранению неисправностей

Что делать, если норма неизвестна?

• Типичная ситуация для новых инсталляций• Необходимо чётко обозначить желаемый результат• Результат должен быть практически достижим• В случае зацикливания – переопределяем желаемый результат

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 15

Page 16: Систематизированный подход к поиску и устранению неисправностей

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 16

Небольшая игра

Page 17: Систематизированный подход к поиску и устранению неисправностей

Первичное описание проблемы

• Два сервера взаимодействуют с использованием протокола https• Административный интерфейс серверов – командная строка (cli) и gui• Один из серверов доступен пользователям по https• Второй находится за межсетевым экраном• Пользователи получают данные со второго сервера, обработанные

первым сервером, заходя на первый сервер по https• Сегодня пользователи не могут получить необходимые им данные• К концу рабочего дня необходимо сформировать отчёты, используя

недостающие данные

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 17

Page 18: Систематизированный подход к поиску и устранению неисправностей

Симптомы и доступная информация

Лог-файлы с обоих серверовОписание административного доступа к обоим серверамОписание попытки подключиться к обоим серверам по httpsОписание поведения клиентаКонфигурация межсетевого экранаЛог-файл с межсетевого экранаОтдел безопасности запрещает любые незащищённые соединения к серверам (весь персонал отдела на конференции до понедельника)В компании используется внутренний CA для выпуска сертификатов для защиты https-соединений, сертификаты доступны, выпуском управляет отдел безопасностиВремя на серверах синхронизируется посредством протокола NTP (и оно известно)

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 18

Page 19: Систематизированный подход к поиску и устранению неисправностей

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 19

Server

#1Server

#2

Page 20: Систематизированный подход к поиску и устранению неисправностей

Решение

Проблема:Что: сервер №2, НЕ сервер№1Где: в подсистеме сертификатов, GUI access, HTTPS; НЕ cliКогда: c 08.11.2014 постоянно; НЕ ранееЧто ещё: выписать новый сертификат невозможно до понедельника; проблему необходимо решить до конца текущего дня.

Workaround:Откатить время на сервере№2, используя CLI, до момента, когда старый сертификат окажется действительным. Добиться успешной инициализации GUI.Сгенерировать временный сертификат самостоятельно. Загрузить его на сервер№2.Вернуть время к текущим значениям. Убедиться в успешной синхронизации по NTP.Загрузить временный сертификат в trusted list сервера№1.Удостовериться в успешной работе сервисов.

Решение:Подать заявку на генерацию нового сертификата.Получить новый сертификат, применить его на сервере №2.Удалить временный сертификат с обоих серверов. Проверить успешную работу сервисов.

Первопричина:Вовремя не обновлён сертификат на сервере №2 по причине отсутствия соответствующей внутренней политики. Необходимо разработать внутренние нормативные документы.

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved. 20

Page 21: Систематизированный подход к поиску и устранению неисправностей

CiscoRu Cisco CiscoRussia

Ждем ваших сообщений с хештегом#CiscoConnectRu

Пожалуйста, заполните анкеты Используйте код для оценки доклада

4927

Ваше мнение очень важно для нас

Спасибо за внимание!

24.11.2014 © 2014 Cisco and/or its affiliates. All rights reserved.