KDDIが288万人に影響したiPhoneのメール障害で謝罪会見、サーバー移行時のトラブルが原因に

このエントリーをはてなブックマークに追加



KDDIが4月16日~19日にかけてiPhoneで発生したメール障害について釈明会見を行いました。



Eメールリアルタイム受信システムの障害について


まずはサービス影響の概要。障害は全部で3回発生し、最も影響が大きかったのは4月16日8時8分~13時29分にかけて発生した「最大288万人がEメールのリアルタイム受信を利用できない」という事態。


障害の概要。Eメールのリアルタイム受信システムのバージョンアップ時に、ユーザー認証サーバーのマスターとレプリカとの間にユーザー情報の不一致が発生した結果、ユーザー認証サーバーが両系ともダウン。復旧後も一部のメールBOXサーバーで高負荷が続いたというもの。

フィーチャーフォンやAndroidへの影響は無く、iPhone向けに構築したEメールリアルタイム受信システムのみが障害を起こした形となります。


障害の発生原因。新機能提供を目的としたサーバー環境のバージョンアップを行う際、サービスに影響が出ないよう現在と同構成の新環境を事前に構築し、切り替えるはずが……


手順書ミスによるコマンド誤りの結果、現行サーバーのレプリカが新サーバーのマスターと誤って接続されてしまい、現行サーバーのマスターとレプリカの間で一部のユーザー情報が不一致となり、第1の障害である「最大200人のユーザーが4/16 00:35~01:41にかけてEメールを利用できない状況」が発生。


そして第1の障害を解消し、作業を続行したところ、新プロキシサーバーへの切り替え過程でタイムアウトエラーが発生。現行設備への切り戻しを行っている最中に新ユーザー認証サーバーのレプリカの片系がハードウェア障害でダウン。

さらに残った片系も過負荷でダウンし、Eメールのリアルタイム受信が不可能に。これが第2の障害「最大288万人のユーザーが4/16 08:08~13:29にかけてEメールを利用できない状況」です。


第2の障害はメールBOXサーバーの再起動で対処したものの、再起動手順上の問題と中継サーバーに滞留した受信メールによって、62台中24台のサーバーの高負荷状態が継続。

加えてサービス復旧に伴う端末からのアクセス急増でメールの送受信が利用しづらい状況となったのが第3の障害「最大127万人のユーザーが4/16 13:29~4/19 02:54にかけてEメールのリアルタイム受信を利用しづらい状況」となります。


また、この障害によって端末とサーバー間の同期ができず、端末上の連絡先情報が見えなくなるという事態も発生していました。


KDDIでは今回の原因をサーバーバージョンアップ時の事前検証試験不足やハードウェア障害(片系)および二重障害時の対策準備不足、メールBOXサーバー再起動手順の考慮不足と断定。


二重障害時でも十分なメールサーバーおよびストレージの増強対策、負荷対策(8月末)を除くすべての対策を5月末までに終了させる予定としています。


KDDIの謝罪文は以下。メール周りのトラブルはユーザーの生活に非常に大きく影響するものであるため、一日も早い対策の完了に期待したいところです。

この度は、作業手順書記載ミスを契機として、Eメールリアルタイム 送受信システムの障害を発生させた上、復旧に長時間を要してしまい、お客さまに多大なるご迷惑をおかけしたことを深くお詫びいたします。

作業実施に際してのミスを撲滅し、対象設備のみならず周辺設備まで 含めたシステム全体の事前検証を徹底すると同時に、障害が発生した 場合の復旧を迅速化し、お客さまに安心して弊社通信サービスをご利 用いただけますよう全力で取り組んで参ります。



・関連記事
KDDIが「HTC One J HTL22」を2013年夏モデルとして発売か | BUZZAP!(バザップ!)

ソフトバンクが2013年夏モデルを5月7日に発表へ、NTTドコモやKDDIも発表間近 | BUZZAP!(バザップ!)

KDDIがJ:COM獲得でCATVシェア5割に、いったい何が期待できるのか | BUZZAP!(バザップ!)

KDDIがiPhone 5向けLTE基地局を下り最大112.5Mbpsに増速へ | BUZZAP!(バザップ!)

このエントリーをはてなブックマークに追加