あしかがメモ

勉強したことのメモ等を書きます

RAIDから壊れたディスクを取り出す際にUbuntuが起動しない場合

サーバーのバックアップ用にRAID6でRAIDを組んであったのですが、1枚に故障が出てしまったようで交換することになりました。
しかし、サーバーを一旦落としてからマウント解除せず、そのままHDDを入れ替えて再起動をかけたところUbuntuが立ち上がらなくなりました。また、NFS共有していたもう一つのサーバーも一緒にお亡くなりになってしまいました。
その時の作業メモとして記事を残しておきます。もし間違っていることが書いてあればコメントにてお願いします。

回避方法

今回のような事象を防ぐにはまずRAIDをアンマウントするべきでした。故障したHDDは

sudo mdadm --detail /dev/md0 

RAIDの様子を見てみたところ、removedになっていたので大丈夫だろうと軽く考えてしまい、アンマウントせずにシャットダウン後HDDを変えてしまいました。

また、RAID用パーテーションをHDD上に作らず、デバイスに直接RAIDを構築していたのも原因の一つではないかと考えています。
ArchWikiによると、

(パーティションを作らずに) 生のディスク上に直接 RAID を作成することも可能ですが、故障したディスクを交換するときに問題が起こることがあるのであまり推奨されません

RAID - ArchWiki
とあるので、RAIDはパーテーション上に作った方が良いはずです。(一応RAID構築は業者さんがやったはずなのですが…)