スポンサーリンク
mineoの全域障害があった後でいろいろ考えたが、先日mineoから
障害原因が発表されていた。それを見て、思ったこと。
顧客満足度の高いMVNO事業者 mineoのまとめはこちら。
前回の記事はこちら。
原因はサーバの処理が輻輳したためとのこと。
輻輳の原因はお客様情報を管理するサーバとPGWとの接続が切れ、大量の再接続要求が発生し、
お客様情報管理サーバが輻輳しダウンしたようだ。
仕事柄、この手の話しは設計に問題があったのだろうと思われる。
つまり、なんらかの原因ですべてのユーザとmineoとの接続(ここではセッションと呼ぶか)
が切断された場合、大量の再接続要求が発行されてしまう可能性を見落としたのではないだろうか。
この手の大量の端末と1か所で賄われる集中サーバとの関係では、必ず起きうる問題だ。
起きうるので、例えば端末からの接続要求を集中しないようにずらして発行する仕組みとか、
今回のmineoの対策用に一定量の要求が来たら読み捨てるような仕組みが必要だ。
つまり、インフラを設計したエンジニアのミスではないか?と疑問が残る。
なお、この対策方法なら輻輳の再発はあり得ないので、上出来な対策と思う。
こういう障害が起きた場合、頭にはSLAという単語がよぎる。
SLA、Service Level Agreementとはサービスについて提供側と利用者の間で合意される契約だ。
IT業界で有名なところでは、amazonが提供するAWSというクラウドサービスと思う。
このサービス、利用できない時間があると、利用できなかった証明をすることで
停止した時間分のサービス料を返金してくれる契約だ。(もちろん、例外もある)
契約内容によるが、例えば1時間単位で返金してくれる契約であれば、
1時間未満は切り捨てになるとはいえ、1時間単位で月額料金を均等に割って返金申請ができる。
mineoのサービスがどうだっけかな?とふと思った。mineoでは契約約款として下記にまとまっている。
最初にあるmineo通信サービス契約約款の第10章 損害賠償に書かれている。
第 54 条 当社は、mineo通信サービスを提供すべき場合において、当社の責めに帰すべき理由によりその提供をしなかったときは、そのmineo通信サービスが全く利用できない状態(その契約に係る電気通信設備によるすべての通信に著しい支障が生じ、全く利用できない状態と同程度の状態となる場合を含みます。以下この条において同じとします。)にあることを当社が認知した時刻から起算して、24 時間以上その状態が連続したときに限り、その契約者の損害を賠償します。
つまり、mineoが障害を認識してさらに24時間以上経ても解決しない場合は、
損害を賠償すると書かれている。
今回の障害のように半日もたたずに復旧する場合(多くの場合はこれに該当すると思うが)、
mineoは賠償をしなくていい契約だ。これはIT業界では一般的なルールだ。
今回の件でもしかしたらmineoサポートに対して怒鳴り込んだり、返金を要求した人がいるかもしれない。
でも上記のように契約約款に書かれている。そして、契約約款に対して合意をしないと
回線契約ができていないはずだ。
提供側はこうしてリスクを回避する。
利用者側はそれを理解して使っていく必要がある。
PR