ドコモ大規模通信障害のべ1290万人に影響、3Gは29時間以上利用しづらい状況に



ドコモが10月14日に発生した全国規模の通信障害に対し、現時点での対応状況について記者会見を実施します。詳細は以下から。

金子恭之総務相が11月10日の閣議後の記者会見で、ドコモの10月14日に発生した全国規模の通信障害で、音声通話で460万人、データ通信では830万人以上に影響が出たと推計されるとの報告を同社から受けたことを明らかにしました。

登壇者はNTTドコモの常務執行役員でネットワーク本部長の小林宏氏です。重大事故として総務省に報告したことを受け、その内容に基づいての記者会見となります。


調査分析で明らかになったことを中心に、発生した事象や原因、今後の取り組みについての説明とのこと。


通信障害の全体像として、影響時間や規模につきとりまとめた結果を報告。


まず携帯電話の仕組みについて。携帯電話端末が今どこにあるのかという位置情報は非常に重要。位置登録によって所在エリアを把握し、効率的に端末を呼び出せるようになります。この手続きが完了した時点で通信が可能となりますが、今回この位置登録に関連した障害が発生したため、結果的に多くのユーザーに通信障害が発生しました。


通信障害の概要。「利用できない状況」は全国で2時間20分継続し、100万人に影響した。タクシー決済サービスや自動販売機などで利用されるIoT端末に関わる工事に伴い発生した大量の位置登録信号に対処するための位置登録規制によるもの。「利用しづらい状況」は29時間6分継続し、音声は約460万人、データ通信は約830万人以上に影響した。これは大量の位置登録信号がネットワーク全体に波及したことによるもの。


利用できない状況と利用しづらい状況を道路に例えた説明です。利用できない状況は「通行止め」でまったく通れません。今回の事象では位置登録という手続きを完全に止めたところ。利用しづらい状況は「混雑時の車線規制」にあたり、車線に入りにくかったり進みにくくなります。


通信障害の影響規模について。横軸は時系列を示し、上下は4G、5Gと3G通信で分かれています。利用できない状況は左側真ん中のグレーの部分。順次規制を行い、全国では18分間、5県を除き位置登録規制が掛かりました。このグレーの部分の総数が100万人とのこと。ピンクの部分は利用しづらい状況。


この事象がどのように起きたのか、なぜ発生したのかについての説明。その後の分析について見えてきた原因などについても。


通信障害はIoT端末の位置登録を管理するサーバーの切り替え工事の際に発生しました。旧設備から新設備へ切り替えた際に、海外にローミングアウトして使われているIoT端末の一部で位置登録できない不具合が発生。これはソフトウェアの仕様の考慮漏れが原因(原因1)。不具合を受けた旧設備への切り戻しの際を行った際、切り戻し手順の認識の齟齬によりIoT端末から大量の位置登録信号が発生するという事象が起こりました。この齟齬は手順は定めていたものの、内容を落とし込む過程での確認不足で発生しました(原因2)。


IoT端末からの大量の位置登録信号により信号輻輳が発生。これにより信号交換機を共用している一般の携帯電話やスマホに影響が波及しました。これは信号交換機の位置登録リソース(メモリ)を使い切ってしまったため(原因3)。


利用しづらい状況が長期化した原因について。大量に発生したIoT端末の位置登録に関する信号をIoT端末に限定して規制しようとしたもののできず、4G全体の位置登録規制をするしかなかったため一般ユーザーにも影響が及びました(原因4)。また事前準備の不足により切り戻しを段階的に行う際に準備をしていたため、復旧作業を早期に着手できなかった(原因5)とのこと。


情報発信の仕方にも問題があったとの認識。14日20時頃からの回復に関する情報で混乱を招いてしまいました(原因6)。これまでは通信障害の原因の故障が解消したり全面規制が緩和されたことを回復と伝えていました。ですが利用しづらい状況が続いていることから、ユーザー目線では回復とは呼べないため大いに反省しているとしています。


再発防止に向けた取り組みについて。


ここまでの4種類、6点の原因に対してそれぞれの再発防止策を今年の暮れから年明けに掛けて、また次の工事の際に実施するとのこと。


◆質疑応答
質疑応答の登壇者は左からNTTドコモの執行役員でネットワーク開発部長の音洋行氏、同常務執行役員でネットワーク本部長の小林宏氏、同サービス運営部長の引馬章裕氏です。


フリーランス 石川:
データと音声の影響人数が特定されたが、どのように特定したのか。

ドコモ:
100万人の利用できないユーザーの比較対象は通常稼働時の位置登録しているユーザーを、今回100%位置登録規制時の差分の最大値から推計した。位置登録が終わらないと通信できないため、これを利用した。

利用しづらいユーザーは29時間強の間の音声通話のコール数と通常稼働時のコール数の差分から算出。データ通信についてはこの期間の位置登録数の差分。今回は4Gの位置登録から外れた方、位置登録数の下がった部分の数の最大値から算出した。


日刊工業新聞社 斉藤:
再発防止策について。前回記者会見時は完了時期を10月末としていたが、今回は11月から12月となっている。当初見込みから遅れるということか?その理由は?再発防止の追加策を打たなければいけなくなったのか?

ドコモ:
前回会見で10月末までに処理能力等の対策をすると言った。平行して今回の事象の分析をしてきた中で6つの課題が明らかになってきた。原因が判明したので、その対策が最適だと考えて改めてスケジューリングをした。

斉藤:
再発防止策だが、今回の障害の原因分析で組織的な問題はどこまで分析したか?協力会社との役割分担やコミュニケーション不足があるのでは?ドコモの指揮系統の見直しや人の意識の問題などはどうか。

ドコモ:
社外の方との連携で作業をしてきたが、その中で切り戻し手順の事前確認はしたものの詳細まで確認できていなかったのが課題。

細部までしっかり確認すべきで意識が足りなかったのはおっしゃるとおりだ。再度意識を醸成することはもとより、仕組みの中で再発させないよう歯止めを掛けていきたい。

ケータイWatch 関口:
データ通信は830万以上というが、最大人数はもう少し時間を掛ければ算出できるのか。

ドコモ:
830万人以上としているが、推計方法に記載したように通常稼働時と事象発生時の位置登録数の差分の最大値から求めている。これが830万人だったのでそう算出している。

この数は徐々に減っていくが、3Gに移行したり4Gに戻ったりした人など、若干の人数の入れ替えがあったと考えており、全体では830万人以上いただろう。下回らないだろうということでこの言い方になっている。

関口:
若干とのことで、1000万人以上になるといったような規模感にはならないとのことか。

ドコモ:
個人個人のデータが分からないため明確に計算できない。スマホはパケット通信は位置登録をすると普段から少しずつ通信しているので、それが継続すると位置登録は継続する。一度登録されればそこまで状態は変化しないため、大きな差はないと考える。人の入れ替わりをゼロとは言えないので、「以上」という表現としている。

関口:
再発防止について。切り替え工事の手順で、切り戻し時に徐々にやるといったことはできないのか。今後どのような対策を考えているか。

ドコモ:
当初は切り替え、切り戻し両方で分割する手順を予定していた。社外のメンバーとの連携作業の中で、分割にの仕方の齟齬があった。ドコモの想定とは違う偏った分割や信号の出し方に実際はなっていた。

もともと分割する予定だったし、当初予定の分割方法であればネットワークの処理能力としては大丈夫だったことは再度確認している。その手順ができていればちゃんと進んだと思っている。

NHK 岡谷:
影響範囲について、まったく利用ができなかった100万人と利用しづらかった音声460万人とデータ830万人には重複があるのか。

ドコモ:
利用できなかった100万人と利用しづらかった音声460万人とデータ830万人の関係性だが、100万人は共に利用しづらい人の数にも含まれている。音声とデータは重複はあると思っているが、データ上で確認できず、どの程度重複しているかは調べられない。単純な足し算はできない。

岡谷:
重なっているが1290万人というのがのべで考えて最大の影響数とみていいのか。

ドコモ:
単純に足し算することはできない。どちらもできない人もいるし、どちらかだけ利用しづらかった人もいるはず。重複分はこちらのデータからは算出困難のため別々に出している。

フリーランス 石野:
大本の障害発生の原因となったローミングについて。そもそも新設備への移行時にローミングだけを切り戻すことはできなかったのか。

ドコモ:
ローミングの問題は発生時に開発が分析し、その場での対応が難しいため切り戻し判断をした。今回は部分的に旧設備に戻す形がとれなかったため、全体を切り戻す手順になっている。

石野:
ドコモ側で、緊急通報ができなかったりタクシー決済ができなかったといった実害を掴んでいるか。

ドコモ:
緊急速報やタクシー決済の規模感だが、緊急通報について明確に何コールという把握できるデータはない。今回は一部の古い端末で緊急通報ができなかった事象はあり得るため、影響があったと認識している。

タクシー決済などの決済についてもパケット通信できなかった時間があるため、影響が出ていると思っている。本件には現在法人営業部門が個々の顧客に説明し、対応している。個別の内容はご容赦いただきたい。

石野:
ドコモに上がってきている声は現在確認中ということか。

ドコモ:
法人から問い合わせは来ており、対応は個々に相談している。各社の事情があるのでスケジュールなどはそれぞれになる。

フリーランス 小山:
障害発生前のIoT端末と一般携帯電話の信号交換機の位置登録リソースが共有されていたのは業界の一般標準的な仕様か、ドコモの特殊な設計か?

ドコモ:
業界標準化は個々の事業者によるため分からないが、IoTは通常契約とほぼ同じ形のため同一のネットワークに収容されるケースが多いと考えている。今回もIoTに特化したサービスを追加する形でネットワークを構築しているが、輻輳した部分に関しては既存の端末、スマホと共有する構成を取っている。

今回は特定のルートを輻輳することになっており、リソース枯渇を招いた。対策に示したようにメモリをIoTとその他に分けることでこの影響は排除できると考えている。

小山:
現在は旧設備で稼働していると思うが、新設備への移行はいつ頃になるのか。

ドコモ:
新設備への移行は再度工事をするつもり。対策で示したソフトウェアの開発の時間があるので、それが完了した後に導入試験をし、手順の適正性も確認した後に実施する。22年1月下旬が最も遅いスケジュールだが、来年春には再度工事を実施したい。

日経BP 金子:
再発防止について。対外的な公示について、現状のHPへの掲載や報道への告知も含め、どの程度タイムラグがあり、それにどの程度問題意識を持っているのか。今回電話問い合わせをしたが、広報にはHPに出るまで待てと言われた。

ドコモ:
HP掲載のタイムラグは、ネットワークのメンバーとしては事象に対する措置を実施している。障害の起因する部分が解消した、規制等の措置を緩和したという状況を会議を開いて共有している。そこに広報のメンバーも入っていて措置や故障の状況などを確認しているものの、お客様の体感
については、伝え方を体制の中で一緒に考えている。

どういう書きぶりかどういう数値を示すかなどの検討などを行うだけユーザーに知らせる時間が遅くなる。回復した場合には何時時点で回復したとさかのぼる形で対応しており、タイムラグは発生してしまう。

金子:
迅速、高頻度化については現状と変わらないのか。

ドコモ:
適正性の議論をしているが、やはり不正確な状況は出せない。状況が変わらなくても何時間もHP更新をしないのはユーザーからは「どうなっているのか」となる。同じ状況だとしても一定頻度で情報を提示していく形を考えている。迅速化に関しては適切な表現を考える必要はあるが、事前準備のテンプレートを多数作成して検討時間を減らし、対応の迅速化を図ろうとしている。

金子:
HPに「通信状況のお知らせ」というページがあるが、地域ごとのステータスの表記に「ご利用いただけない」と「ご利用しづらい」といった混乱が見られる。この辺りは見直すのか。

ドコモ:
都道府県別のお知らせでは表現が混在していることは認識。例示の「通行止め」と「車線規制」、「通常走行できる」といったような状況に対して細かくステータスを分けて理解してもらえるように改善したい。

朝日新聞 山本:
影響人数について。スマホやガラケー以外にもタクシー端末、自販機やタスポなどの端末があると思うが、影響した端末の内訳は分かるか?

ドコモ:
人数という表記をしているが、位置登録できていた契約回線数という形で見ているので、100万人の中にIoT端末も含まれていると考えている。個々人が特定できないように、その端末がスマホなのかIoT端末なのかは分からない。

山本:
3Gの回復の遅れについて。4G、5Gが回復した15日の5時5分の段階で3Gの何端末に影響が残っていたのか。またなぜ3Gの回復が遅れたのか。

ドコモ:
3Gの回復が遅れたのは、4Gのユーザーが3Gに移行し、通常より多く位置登録したのが原因。4Gが回復して戻っていく中で3Gのつながりにくい状況が回復していった。5時5分の段階の数は不明。

山本:
4G、5Gの回復を優先して3Gを遅らせた訳ではないという認識でよいか。

ドコモ:
戻さなければならない回線数が多かったので4G、5Gの復旧を優先していた。3Gを意図的に遅らせたわけではなく、ネットワーク全体を早急に復旧させるための措置だった。

共同通信 中島:
100万人というのは音声、データ共に使えなかったということか。

ドコモ:
位置登録の後に通信という手続きとなっており、登録できないと通信ができない。この100万人は位置登録ができなかったため、圏外という状況で通信できなくなった。

中島:
石川や和歌山などの5県については除くとした理由は?

ドコモ:
この5県に関しては措置の仕方によって除かれた。位置登録の措置は東日本と西日本に分けてある一定の方向からやっている。西日本なら西から東に向かって制御を掛けている。

西日本で西からやってきた中で最後の5県の対策をする前に位置登録規制の効果が出てネットワークの輻輳が収まった。そのため少し規制を掛けながら回復させるために規制緩和を進めていった。西からやってきた措置の仕方の順番によって、日本の真ん中の5県には100%規制を掛けずに済んだ。

中島:
この5県ではまったく使えない人はいなかったということか。

ドコモ:
位置登録規制100%にならなかったため、まったく使えないということにはならなかった。

日本経済新聞 平岡:
再発防止のためのソフトウェアの導入や位置登録処理リソースの分離、ネットワーク設備の見直しや増強などをすると思うが、対策費用の規模感は?また障害を受けた設備投資の方針の変更などは?

ドコモ:
実際の費用についてはご容赦ください。しっかり開発し、試験をしていく。今年度の事業計画の中で実施していくつもりだ。設備投資などの方針については、今回の開発をしたということで変えずに事業遂行する予定だ。

フリーランス 山口:
利用しづらい状況が29時間を超えたことで、契約約款から一部から返金の対象になるのではないかとの声もあるが、返金対象となるか。他社ではポイントやデータ容量配布などしているが、ユーザーへの何らかの補償はあるか。

ドコモ:
契約約款では24時間停止すると返金対象となるが、2時間20分以外は通信は利用しづらいができる状態と認識しているため、当たらないと判断している。ポイントなどでの対応も今のところは考えていない。

セキュリティネクスト 竹山:
利用できない状態はまったく利用できず、利用しづらいは利用できる人とできない人が混在し、入れ替わっていたということか。

ドコモ:
利用できない状態は「通行止め」でまったく通信できない。利用しづらい状態の使い勝手は、音声通話なら何回かに一回失敗する。パケット通信ならスピードが遅くなってしまい、画面が出てくるまで時間が掛かったり真っ白なままになったりする。

竹山:
対策として一般ユーザーとIoT端末のリソースの分離で影響範囲をとどめるとのことだが、IoT端末では止められないケースも増えると思われるが、IoT端末の中でサービス品質を分けていくことは考えているか。

ドコモ:
一般ユーザーとIoT端末の区別について、まずはIoT端末と一般ユーザーとIoT端末をしっかり分けることでまずは対応していく。今後の5G時代の中で多種多様な端末が出てくることを考慮しながら検討を進めていく。

竹山:
現状は分けていないのか。

ドコモ:
現状は一様な制御となっている。

日経BP 堀越:
原因の2で、切り戻しの意識の齟齬とあった。関係事業者のコンセンサスが足りなかったということか。制御信号含めて多様なトラフィックパターンを持つIoT端末が出てくると思うが、今回と同じようなリスクは?5G時代の本格化に向けた将来の見通しは。

ドコモ:
切り戻し手順の認識の齟齬は、端末の種類でどうのという話ではなく、ネットワーク側の制御の仕方をどうするかで齟齬があった。今後多様な端末がたくさん出てくることを考えると、まさに注意していく必要がある。IoT端末にも種類が多くあるため、市場での運用状況も踏まえ、SLAを分割する対応も引き続き検討していきたい。

・関連記事
ドコモ大規模通信障害で記者会見、200万ユーザーの音声通話、データ通信に影響で3G復旧は見通し立たず | Buzzap!

【速報】ドコモ通信障害で重大事故に該当か、音声通話・データ通信両方アウトでahamoやMVNOに影響も | Buzzap!

【速報】「iPhone 12 mini実質1円」「回線契約なしでも割引」iPhone SE一括1円に続くドコモ、au、ソフトバンクのバトル続行 | Buzzap!

ドコモがNTTコミュニケーションズとNTTコムウェアを子会社化、3社での新ブランド「ドコモビジネス」も立ち上げへ | Buzzap!

楽天モバイル「圏外になった」と報告多数、au回線提供終了でエリアが縮小し自宅や駅、会社、店舗、道路などで使えず全国規模の混乱に | Buzzap!


フォローして最新情報を手に入れよう

モバイルに関連した楽天商品(PR)