事故 話題

【東証システム障害】日本取引所、売買停止の原因は「共有ディスクのメモリ故障」

1: 2020/10/01(木) 18:01:10.45
東証システム障害の発端は共有ディスク装置のメモリ故障、東京証券取引所 宮原社長らが会見で経緯を説明

https://live2.nicovideo.jp/watch/lv328335496

・10/1(木)7:04に共有ディスク装置1号機のメモリ故障が発生
・1号機故障時に2号機へ切り替わらず、相場情報配信業務や売買監視業務に異常が発生

【画像】報道配布資料
no title

午後4:39 ・ 2020年10月1日
https://twitter.com/nico_nico_news/status/1311571524113952768
------
■日本取引所、売買停止「ハードの故障」

日本取引所グループ(8697)の広報・IR部は1日、同日の東京証券取引所の全銘柄の売買停止の原因について「ハード(設備)の故障」であると明らかにした。

10月1日時点でシステムの更新作業などが「あったとは認識していない」という。

2020/10/1 12:14
https://www.nikkei.com/article/DGXLASFL01HEY_R01C20A0000000/
-----
■東証、システム障害の原因「機器故障」と説明

東京証券取引所の広報担当者は1日、同日のシステム障害の原因について「機器の故障」と説明した。株価などの相場情報を配信する部分になんらかの故障が発生した可能性がある。今のところソフトウエアには不具合は見つかっていないという。

2020/10/1 13:21
https://www.nikkei.com/article/DGXMZO64462740R01C20A0I00000/

★1が立った時間 2020/10/01(木) 12:44:02.37
前スレ
https://asahi.5ch.net/test/read.cgi/newsplus/1601539851/
https://twitter.com/5chan_nel (5ch newer account)

引用元: ・【東証システム障害】日本取引所、売買停止の原因は「共有ディスクのメモリ故障」 ★6 [ばーど★]

123: 2020/10/01(木) 18:09:43.07
>>1
>> ・10/1(木)7:04に共有ディスク装置1号機のメモリ故障が発生
>> ・1号機故障時に2号機へ切り替わらず、相場情報配信業務や売買監視業務に異常が発生

1号機故障時に2号機へ切り替わらず・・・ダメじゃん!!

フェイルセーフ (fail safe) とは
なんらかの装置・システムにおいて、誤操作・誤動作による障害が発生した場合、常に安全に制御すること。

156: 2020/10/01(木) 18:11:03.14
>>123
航空業、鉄道業など
それは半世紀以上前からやってます
IT業界だけ送れてんのよ

159: 2020/10/01(木) 18:11:20.12
>>123
クラスタ的なシステムで現実には切り替わりがスムーズに行かないことは日常茶飯事
導入時には当然テストするが、なかなか定期的な切り替えテストができない

280: 2020/10/01(木) 18:16:39.45
>>159
テストじゃ綺麗な切り替えしか出来ないから実運用の切り替えケースなんて全部カバー仕切れないんだよな
システム屋ならこういう事例はまああるよねとしか

307: 2020/10/01(木) 18:17:52.05
>>280
故障させてテストすることもできんし
ハードウェアは1から0に綺麗に死ぬわけでもないから現実は厳しい

366: 2020/10/01(木) 18:20:23.72
>>307
そういうこと
今回も多分そうだろうけど中途半端に死ぬってのが一番厄介
ソフトウェアでもサービスは生きてるけど無応答でクラスタソフトが正常に動作しないとか、この手のはよくある

380: 2020/10/01(木) 18:20:48.87
>>280
停電した時に、やればいいだけじゃね?
予備電源の保守点検の時に同時に。

やってないなら、ただの手抜きじゃん。

445: 2020/10/01(木) 18:23:22.56
>>380
単純に金の問題
なんでもかんでもやったらコストにはねる
そういう意味でも障害テストは難しい
どうしても通り一編になる

328: 2020/10/01(木) 18:18:44.64
>>159
フェイルオーバしない原因なんて殆どがSIミスかバグだろうw

398: 2020/10/01(木) 18:21:35.99
>>328
割合で言えばそっちが多いだろうね

572: 2020/10/01(木) 18:28:29.42
>>328
中途半端に死んでて切り替わらないとかよくある

658: 2020/10/01(木) 18:31:54.19
>>572
半死だから切り替わらないとかがおかしいんだっつうの。ハートビートくらい自分で実装しろよ。

696: 2020/10/01(木) 18:33:34.23
>>572
今回はストレージで中途半端に動いていた感じなんだろうな

ストレージ側でリクエストは受け入れるけど、データ送信に物凄く時間が掛かるとかありそう
妙な遅延が発生していてサーバー側が処理待ちでハングアップ状態に見えて原因が掴めないとかやってそう

265: 2020/10/01(木) 18:15:44.18
>>1
しかしどうして中国の建国記念日で世界中で中国への抗議行動が起きている日にメモリが故障すんだろうね?

269: 2020/10/01(木) 18:15:55.36
>>1
メモリは故障で、切り替えもできなかったということだろう
二つが重なったということか?、信用のないシステムならメーカーを変えろよ

313: 2020/10/01(木) 18:17:58.64
>>269
ディスクのバッファとしてのメモリが故障で、共有ディスク同士で整合性が保たれなくなって停止という可能性もある
停止したとかならどっちが壊れているかわかるけど、吐き出す数値や結果が異なるだと
どっちが正しいくてどっちが間違ってるかわからんから、全体を停止させるしかない

770: 2020/10/01(木) 18:36:41.71
二号機に切り替わらなかったって>>1にはっきり書いてあるし
そこが根本的にまずかった部分であることには変わりないな

894: 2020/10/01(木) 18:42:30.37
>>770
ストレージ自体も冗長化されているよ
壊れやすいディスク部分は交換可能
ホットスワップも出来る
今回はストレージコントローラーのメモリ
普通は滅多に壊れない

941: 2020/10/01(木) 18:45:13.01
>>894
いや壊れるよ
頻度的には普通のメモリと変わらない

877: 2020/10/01(木) 18:41:59.13
>>1号機故障時に2号機へ切り替わらず
もうホントあるあるだわ

2: 2020/10/01(木) 18:01:19.03
おきのどくですが
ぼうけんのしょ1ばんは
きえてしまいました。





-事故, 話題

© 2020 ずわいまとめ〆〆 Powered by AFFINGER5