ストレージのメモリ故障でスタンバイ切り替え失敗かー
こういうの切り替わらないのはインフラあるあるだよね
東証、システム障害で謝罪 詳細な経緯説明、当面は「人的監視」で対応 https://t.co/k2F2sHQzQN
— 新津孝太 (@nytsukouta) October 1, 2020
ネットの反応
コメント読むと人が障害を監視するみたいに勘違いしてる人いるけど、人的監視は、トラブルが発生した際に、もし自動で切り替わらなかったら人が手動実行して即時対応するって事ですよね。
今回のメモリ故障もメモリ故障のログもしくはメモリ故障で停止するプロセスのログを監視する仕組みは入ってたと思うよ。そんな基本をこの規模のシステムが組み込めていないわけがない。
原因が判明するまで当面の間、共有ディスク装置の動作状況や切り替えについて人的監視を強化することで対応する
原因が判明するまで当面の間
原因は判明するのだろうか。
判明する可能性はあるのだろうか。
この手の基幹向けハードは切り替えの設定一つ作るにも相当複雑な設計と知識が求められる。
HPの初代Superdomeの担当をしてたことがありますが、CEさんと膝を詰めてパラメータを煮詰めても予想外の動きをすることが多々あった。経験則から、数年も経ってしまえば、もろもろの理由で切り替えテストの結果も役に立たないケースが多いです。
やはり、カオスエンジニアリングのように定期的に小規模な障害を起こして、大惨事を防ぐような取り組みが効果的だと思います。
「人的監視」にした場合、「今回の障害をどのように回避(対外的にトラブル無状態)に出来るのか?」の説明をして欲しいです。
また、「人的監視」の場合は、監視している「人」のスキルに「監視結果」が左右されるはずですので、解決策にはなっていないはずですが・・・
バックアップの2号機がスムーズに稼働しないとは、ダブルトラブルですね。
東証の信用問題にもなるので、富士通の責任は重大ですね。
トラブルの早期解消に向かって、頑張って下さい。
端的に二重のミスが発生した。回復にあきらかに時間のかかりすぎでは?。さらに此から、東証一部上場基準が500億関連問題、いろいろなシステム対策、検討されているのでは?
今回は、さらにハード面の脆弱性を露呈が問題です。必要な部分は設備投資対策と、関連会社が問題であれば他社に検討がよいのではないのでしようか?。
ディスク障害であれば、監視システムでリアルタイムに検知できます。
メモリ障害もなんらかのアラートが上がる筈ですが、自動監視の設定をしていなかったか、仕組み上出来なかった可能性がありますね。
いずれにしても、冗長構成をとっておきながら、切り替わりが機能しなかった事は基幹システムでは致命的です。切り替え試験を怠ったのでしょうか。
システムダウンさせて、異常な取引が行われいないことを願う。
富士通には予測出来ない事態とすれば、システムを組む能力が、脆弱になっているのだと思う。
デジタル庁は、この脆弱状態を官民一体で正さなければならないのに、2年後では遅すぎる。