AWS、S3の大惨事の原因を公開―ヒューマンエラーが発端だった

Mixed race person watching light column in cloud of blocks

AWSのS3クラウドストレージが4時間にわたってダウンした件は、当然ながら、強い批判を浴びた。AWSは検証レポートを発表し、この事件について原因と経過を詳しく説明した。技術的情報と将来に向けての防止策も含まれている。

直接の原因は、やや平凡な理由だが、ヒューマンエラーだった。あるエンジニア―ここではジョー（仮名）と呼んでおく―が間違ったコマンドを入力してしまったということだ。ジョーはあるサブシステムをシャットダウンするつもりだった。それ自体は日常行われるオペレーションだった。しかし月曜日、バージニア州北部データセンターではルーチンワークが大変な問題を引き起こした。

ジョーは正規の特権ユーザーであるため、システムをシャットダウンするコマンドを入力する資格があった。ただしこの作業はAmazonが「確立された手順書（established playbook）」に従ったもので、ここではS3サブシステムの少数のサーバーを停止することが意図されていた。ところがジョーは誤って多数のサーバーを停止するコマンドを入力してしまった。

素人の表現でいえば、地獄のような騒ぎが持ち上がった。

Amazonはもっと技術的な表現をしているが、問題のエラーはカスケードしてバージニア州北部データセンター全体に影響を与えることになった。ジョーのエラーは決定的に重要なサブシステムを停止してしまい、センターのデータ保存能力の大きな部分を失わせた。システムは再起動を余儀なくされたが、この間S3はリクエストを処理することができなくなった。AWS自身のダッシュボードも機能を失い（これはかなり恥ずかしい事態だ）、S3の稼働状態を確認できなくなった。

そして外部の世界も影響を感じ始めた。一般ユーザーはお気に入りのサイトが開かなかったり、アプリが異常な動作をしたりするのに気づいた。

昼頃、AWSはサービスの復旧に全力を上げていたが、なにぶんシステムの規模が大きすぎた。AWSは何年にもわたってダウンしたことがなく、従って全システムの再起動を行ったこともなかった。S3はいわば自分自身の成功の犠牲になった。再起動をかけるとシステムは安全性のチェックとメタデータの整合性の確認を始めた。ところがこれは予想外に時間を必要とした。

こうしたヒューマンエラーによる事故の再発を防ぐためにAWSでは運営手順に変更を加えるという。レポートによれば「この〔事故の原因となった〕ツールに修正を加え、作動速度を遅くし安全策を追加した。〔停止要求に対し〕配下の最小限のレベルにおけるサブシステムのみを停止させるようにした」という。これでジョーのような慌て者が同様のミスをするのは防げるだろう。

しかしAWSでは、もっと根本的にS3のサブシステムの構成の見直しも行っている。サブシステムをセル（cell）と呼ばれるさらに多数の区画に分割し、一挙に大量のサーバーが停止されないようにするという。これは過去にも試みられたことがあったはずだ。ともかくS3のサブシステムは許容可能な時間で再起動するには大きすぎた。

AWSのレポートは謝罪と改善の約束で締めくくられている。単純なヒューマンエラーで始まったものの、影響が連鎖反応で急速にデータセンター全体に拡大して大事故となった。AWSのシステムがこの種の深刻なエラーを想定せず、したがってそのカスケードを防ぐ機能が組み込まれていなかったのが惨事の根本的な原因だったようだ。

画像： Colin Anderson/Getty Images

[原文へ]

（翻訳：滑川海彦@Facebook Google+）

AWS、S3の大惨事の原因を公開―ヒューマンエラーが発端だった

Trending Articles

DENON DTR-80P 音は出るようになったけど・・・

人気占い師・Sakkoが占う！今日のアナタの運勢と、ラッキーカラーは・・・

クラスター環境における仮想マシンの自動開始アクションについて

天達武史が結婚した嫁画像は？出身高校や大学は？本名や年収って？

前進あるのみ　第４９話

SQL Server の手動アンインストール手順

エメループを使ってバトルフロンティア用のポケモンを揃える～導入編～

男性を切りつけた男、殺人未遂で逮捕、和歌山市

【ディズニーランドパリ】日本にないオススメアトラクション13選【ウォルトディズニースタジオ】

返信先: クレジットカード決済エラーKG8

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？

【最新】関東関根組組織図 2018

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

[1080p]回復術士のやり直し 11 完全《回復》ver.

生野が生んだスーパースター文政　現在、男道（刑務所）にて修行（服役）中㉙

2014年4月11日号　岐阜信用金庫（4月1日付）

ロト7第11回　超足し算法で一等当選数字だった!

渡辺輝(きらり)のWiki(高校&陸上成績)プロフや彼氏事情は?大学は梅田夏季 ‏と一緒?

【傍聴記録】織田愛彦

Get-WindowsUpdateLog で WindowsUpdate.log の出力に失敗する場合