守る - cybozu.com 運用の裏側

22
守る cybozu.com 運用の裏側 山本泰宇 @ymmt2005

Upload: cybozucommunity

Post on 14-Jun-2015

556 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 守る - cybozu.com 運用の裏側

守る cybozu.com 運用の裏側

山本泰宇 @ymmt2005

Page 2: 守る - cybozu.com 運用の裏側

今回技術の難しい話は

しません

Page 3: 守る - cybozu.com 運用の裏側

こんな疑問ありませんか?

ファーストサーバーのような事故は起きる?

ISMS/ISO27001 認証あれば安心?

サービスレベルって何?

トラブル発生時は誰がどう対応するの?

Page 4: 守る - cybozu.com 運用の裏側

運用とは

システムなどが正常に稼動し続けられるような状態を維持すること。異常の兆候がないか状態の監視したり、最新版のソフトウェアに入れ替える等の保守作業、老朽化した設備の更新、障害に備えたデータなどの保全、障害時の復旧作業などが含まれる。

via e-words

Page 5: 守る - cybozu.com 運用の裏側

運用=商品

•月500円 = Officeの値段 月500円 = Office + 運用の値段

•「運用の説明」 = 「商品の説明」

•「運用障害」 = 「商品の不具合」

•「運用への投資」 = 「商品価値増大」

cybozu.comの「商品の一部」

Page 6: 守る - cybozu.com 運用の裏側

月500円に含まれるもの

サイボウズ

Office

1GBのディ

スクスペース

運用サービス

•障害監視、性能監視、

チューニング、バージョン

アップ、OS・ミドルウェア

の保守、バックアップ、古

い機材の更新、etc.

ここを 解説

Page 7: 守る - cybozu.com 運用の裏側

ここからの内容

•前提としていること 原理と原則

• サービスレベル 目標

•自動監視システム等 手段

•平時・緊急時の運用体制 体制

•本当にやっているのか? 保証

Page 8: 守る - cybozu.com 運用の裏側

原理

•人はミスをする

•機械は壊れる

• ソフトウェアにはバグがある

山本の公理

•俗にいう「ヒヤリ・ハット」

•重大:軽微:ニアミス = 1:29:300

ハインリッヒの法則

Page 9: 守る - cybozu.com 運用の裏側

原則 •顧客データの保護 > サービス再開 > 原因究明 データ優先

•開発者は運用環境にアクセスできません

•開発用に、別データセンターを運営

開発者を 信用しない

•通常運用は完全自動化

•手動操作履歴はすべてログ保存

オペレーターを 信用しない

•利用する範囲で安定運用ができるか評価

•バックアップデータに正常アクセスできることを定期確認

ソフトウェアを 信用しない

•安定運用に支障があるものは、リリースを拒否

•リリース後に発覚したものは即時の改修を要求

社長のいうこと 無茶を通さない

Page 10: 守る - cybozu.com 運用の裏側

略して

頑固一徹

Page 11: 守る - cybozu.com 運用の裏側

サービスレベル目標

項目 目標

稼働率 99.9%

応答時間 4秒以内

利用開始まで 3分以内

復旧時間 単純障害は無停止 (VMホスト障害は10分)

ログ保存期間 オンラインで1年間

Page 12: 守る - cybozu.com 運用の裏側

目標なくして 運用なし!

Page 13: 守る - cybozu.com 運用の裏側

目標なくして運用なし!

• 各目標値を測定して、

• 自動監視・有人監視体制を構築、

• 性能監視してチューニングしています

稼働目標があるから

• 落ちていても気づかない

• 性能が低下しても改善しない

• 予算・人員もつかない

目標がなければ

Page 14: 守る - cybozu.com 運用の裏側

監視システム

データセンター

• 外形アクセス監視 • バックグランド処理監視 • リアルタイムアクセスログ監視 • ストレージ監視 • プロセス監視 • リソース使用率監視 • etc.

24時間有人監視センター

オペレーター

Page 15: 守る - cybozu.com 運用の裏側

目標→測定→公開

cybozu.com Webサイトで公開しています https://www.cybozu.com/jp/service/slo/availability.html

6月30日のうるう秒トラブル

Page 16: 守る - cybozu.com 運用の裏側

Square ストレージシステム

Page 17: 守る - cybozu.com 運用の裏側

Squareの秘密

• 独立したバックアップ専用サーバー

• 東日本DCからレプリカの操作は不可

誤操作の

防止

• リストア結果が正常か毎日自動チェック 自動

ベリファイ

• リストアボリュームで事前にリハーサル

• 分離されているので運用環境に影響なし リハーサル

Page 18: 守る - cybozu.com 運用の裏側

オペレーションルール

3カ条

極力自動化

作業しない勇気

自作ツール禁止

作業ミス対策

操作ログの自動保存

臨時バックアップ

事前リハーサル

Page 19: 守る - cybozu.com 運用の裏側

ISMS/ISO27001

意味するところ

•規則が決まっている

•規則通り作業している

意味しないところ • 運用レベルが高いか否か • 中身を確認することが重要!

効果

•規則を決めてドキュメントにする文化

•規則通り作業する文化

Page 20: 守る - cybozu.com 運用の裏側

サイボウズ固有のISMS運用

• ITILや非機能要求グレードを参考に設定

具体的な目標値

• 手順ミス防止を、自動化でさらに追及

オペレーター「も」信用しない

• セキュリティ問題を全社で一元管理する体制を整備

CSIRT (Computer Security Incident Response Team)

• 稼働率目標・結果やストレージの情報を公開

• 各テナント別稼働率なども今後の公開を予定

情報公開

Page 21: 守る - cybozu.com 運用の裏側

まとめ

cybozu.com 運用チームは頑固一徹

目標なくして運用なし!

認証≠高品質、中身が重要です

Page 22: 守る - cybozu.com 運用の裏側

Questions?