パソコン工房のお得なキャンペーン
デル株式会社
毎日の生活に役立つ!面白い!『こんな便利な商品があったのか!!』特集
  
パソコン工房のお得なキャンペーン
デル株式会社
毎日の生活に役立つ!面白い!『こんな便利な商品があったのか!!』特集
 

ドコモで通信障害発生 繰り返される大規模障害

 

スポンサーリンク

 
ドコモで通信障害発生 繰り返される大規模障害

ドコモが再び障害を起こしている。みずほ、ドコモともに最近頻発している。
ドコモについてのまとめはこちら。

原因

2月1日にドコモで大規模な障害が発生した。主にデータ通信が利用不可になったが、一部では音声通話にも影響した。18,000人に影響があった。
もちろんドコモ網を使うMVNO各社も例外ではなく、止まっている。障害は半日ほどで終息している。

原因は事前にアナウンスされていたIPV6のモード変更によるものだった。

事前の発表によれば、5ヶ月も試行期間を設定して十分な準備期間を持っていたようだ。

IoT機器の増加や5Gの普及に伴いIPv4アドレスが世界的に不足するなか、ドコモは枯渇の心配がないIPv6アドレス化への対応を進めてまいりました。
これまでドコモは、お客さまの端末にIPv4アドレスとIPv6アドレスの双方を割り当てる「IPv4/IPv6デュアルスタック方式」を採用してきましたが、通信の宛先がIPv4アドレスの場合には変換して接続するNAT64/DNS64方式および464XLAT方式という手法を採用することで本方式を実現しました。

また、2021年7月から12月にかけては、アプリケーションやコンテンツの開発者向けに動作確認のための試験環境を提供し、本方式にてお客さまの通信が問題なく行われることや、ドコモが提供するアプリケーションが問題なく動作することを確認しています。

この変更で障害が減り運用が楽になる、というものだった。蓋を開けたらこの変更で障害が発生している。
ドコモの技術力は地に落ちたな、と言わざるを得ない。

なぜ発生したか

IPv6のモードの変更で一時的にサーバ負荷が上がり、おそらくこれを輻輳と判断して、端末に通信を制御する処理が要求されたのだろう。
ほぼ同じ内容しかないが、ドコモが公式ページに掲載している。

ドコモ 障害 202202

ドコモ 障害 202202 出典:ドコモ

輻輳とは

輻輳とは一般では聞き慣れない言葉だが、通信業界ではよく使われる。
伝統的なPSTN網、つまりアナログ電話網ではすべての通話を保証するにはコストがかかりすぎるので、一定の通話ができないことを織り込んで設計されていた。設計の指標となるものは呼損率という数値で表されるが、通話が多くなるとシステムが処理しきれなくなる。通信する回線が足りないとかシステム内の管理リソースが足りないといったたぐいの制限だ。
この時、システムダウンを回避するため、システムは新たな通話を受け付けず、すべて発信者には通話中の音を聞かせる。(あるいは繋げられない旨のアナウンスが流れる)

輻輳状態になると優先度の高い通話も通話しにくくなるので、その手前で一般の通話を規制し、優先度の高い通話のみが使えるようにする。大規模な災害が発生したときにも電話が集中して繋がりにくくなるが、あの状態だ。
大規模災害でもなくてもシステムが指示すれば、容易に輻輳が起きる。それが発生したのだろう。

何が真の原因か

複雑化するシステム、それを全ては理解できないエンジニア、簡単に予算を絞る上層部。

これらが集まって、昨今の頻発する障害は起きているのかもしれない。巨大かつ複雑なシステムを1人が全て理解するのはもはや無理だ。分割して数人で分担するしかないが、それさえも十分では無いのだろう。

結局はどうなるか分からない作業を事前検証が十分でないまま、一か八かで実施する。
本番システムと全く同じ試験環境はどこにもない。ある程度の準備はできてもそれ以上は想像と経験だけになってしまう。
この辺りにITがいまだに泥臭い職業である原因があると思う。

こういうように、実在しないけど果敢に突入する理由がある作業に対して、属人的な経験、勘ではなく定量的に評価できる方法が確立すればAIの支援でIT作業の生産性は驚くほど上がるように思う。いつできるようになるのだろうか。

(Visited 139 times, 1 visits today)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です