スポンサーリンク
みずほ銀行が今年に入ってから何度も障害を起こし。その都度ユーザに迷惑をかけている。
なぜこんなに続くのか、今回は考えてみる。
ニュースで見聞きしたのは、だいたいこういう物だった。
6月のものだが、みずほ銀行が出している調査報告が公開されている。
ここには原因分析と今後の対応方針が書かれているので読んでみた。
4つが挙げられている。
自分が思うに、カリスマ的なリーダがいれば企業風土も変わっただろう。そういう存在もなく、
皆が受け身になって自分の守備範囲だけをみて、他者の問題は我関せず。そういう事だろう。
なんと、ニュースでこんな情報が流れている。
データを格納するハードディスクが経年劣化して、システム障害に至ったというのだ。
ニュースに書かれている情報を引用する。
データセンターのハードディスクが稼働から6年経って劣化していたことに気付かず、
故障したことが原因だと明らかにしました。
ハードディスクは消耗品だ。ついでに言えばSSDとて消耗品だ。
経年劣化でシステム障害とは、日本を代表するメガバンクらしからぬ失態。こんなお粗末な原因で
何度も障害を起こしているのでは、預金を引き揚げられても文句を言えないだろう。信用は落ちた、といえる。
HDDやSSDは故障予知が難しい。難しい中でも先人たちはSMARTという予知用の統計情報取得プロトコルを作った。
起動時間、故障したセクタ数、など情報をみることができる。経年劣化を知ることができる。
これらを見て、長期間使った、故障したセクタ数が多くなり過ぎた、など経験に基づいて交換時期を考えてきた。
最近ならそれらの知見をAIにして、自動的に交換指示を出せるようになっているかもしれない。
予測が難しいので、より完全性を得るためRAIDというものが考えられた。冗長構成。1つ壊れても
もう一つがあれば大丈夫。同時に故障する確率は限りなく小さい。
なのに、明らかに故障を示す予兆を無視していてはこのような事態になっても仕方ない。
ストレージが壊れれば単に書きこめないだけではなく、システム停止に至る。
電源が壊れても、CPUが壊れても同じだ。なのにストレージだけはなぜか平気と思われている節がある。
みずほ銀行の幹部は金融庁の監督下のもとで運用実行をどうするか今一度考える必要がある。
構築したベンダに丸投げするのではなく、自社内にリーダシップをとれる人材を育成、あるいは採用し、
他人事ではなく自社のこと、そしてユーザのこととして障害を解決できる体制を作ることが急務であろう。
PR