【モバイルSUICA】6月24日の障害は手順書ミス　人為的ミスが減らないインフラ作業

投稿：2023年7月2日

IT業界ニュース

故障、トラブル

【モバイルSUICA】6月24日の障害は手順書ミス　人為的ミスが減らないインフラ作業

6月24日にモバイルSUICAのチャージができないなど一部機能が使えない障害が発生して、多くのユーザに影響が出た。
どうしてこういうことが減らないのか考えてみる。
IT業界に関するニュースのまとめはこちら。

IrvineのもっとPC自作日記

IT業界ニュース

🕒️2019年1月2日

IT業界に関するニュースを聞いて、思ったことを書いている。

開催中のセール、キャンペーン情報

障害の内容

24日午前0時半からモバイルSUICAの残高チャージ、グリーン券購入ができない障害が発生した。復旧は13時間後の午後1時だった。
一時は駅の窓口でもクレジットカードを使えない状況になった。

障害の原因

日経によれば、屋内の電源工事の際に計画と異なるブレーカを切ってしまい、モバイルSUICAを制御するサーバの電源を切ってしまったためだった。

なぜ誤ったブレーカを切ったかといえば、操作手順書に誤りがあったためだった。
手順書が間違っているのだからそれを信じて作業する作業員に何の落ち度もない。

モバイルSUICA　障害　JR東日本 230624 出典:日経

サーバ電源が落ちたことで、ハードウェア故障、データ不整合が発生した。
原因を調べる中で故障した機器やデータの不整合を確認し、そのため13時間弱もの復旧に時間を要した様だ。

ミスが減らないインフラ工事

ソフトウェアの不具合が減らないのは、ソフトウェアに問題がないことを証明する方法がないからだ。結局テストを行って、その範囲では問題がない、と証明するしかない。
このためテストの範囲外、例えば条件を変えるような場合に未テストのパターンがあればそこで問題となって現れる。
近年ではテストの自動化、テストファーストなどいろいろな取り組みがあるが、ソースコードに問題がない証明をする方法がないのでその点は何も変わっていない。

一方でインフラ工事は、組み合わせたものの結節点に弱点があることが多い。
組み合わせたパーツ、例えばサーバ、OS、ミドルウェアそれぞれはテストされているが、くっつけた状態でのテストはインフラ提供者の責任で行う必要がある。
ここでも上と同じく、条件に漏れがあれば、そのパターンで問題が発生する可能性がある。

そのうえで、インフラの場合は何らかの操作を行う際に手順書をそろえることが多い。
手順書はシステムそれぞれでカスタマイズされることが多く、同様の操作が他のシステムにもあるとは限らない。
カスタマイズされるので新規のミスが入り込む余地が多くあり、手順書を十分テストしなかったとしたら、そこには潜在的な問題が多くありそうだ。

網羅的に問題の検出する仕組みを検討する必要があるが当面は難しい。手順にまつわる問題はまだまだ続きそうだ。

Irvine

JR東日本

PC自作

チャージできない

著者プロフィール

irvine

　ソフトウェア設計、ストレージ設計を経てクラウドにかかわる仕事をしている、東京郊外在住のエンジニア。
　仕事でUS,UK,SGなどの国とかかわる。
　自作PC、スマホ、タブレット、AV機器好き。ドラクエウォークはルーチンワーク。Linuxやストレージ、IT業界の動向は興味を持っている。
　新しい機器、サービスに興味あり。年数回のレビュー（自腹購入、ご依頼）と発表されて興味があるものの新製品机上レビューをやっている。
　2022年はJAPANNEXT様のアンバサダーを務めました。