Simple 1500シリーズ The虎舞竜 ~vCenterとの突然の別れ・・・からのぉ~再インストールすら出来ない!~
どうも、皆様ごきげんよう。庵ちゃんです。
テレビで今年は、「カメムシの大量発生年」というニュースを見ました。
カメムシ…奴らは数ミリの隙間さえあれば、家屋に忍び込んで、
頼んでもいないのに衣類や洗濯物にもくっつき、人々を恐怖のどん底に陥れる悪魔です。
かくいう私も、今年の初め頃、タオルで体をふきながら、ふと鏡を見ていたら、二の腕あたりに黒い斑点のような物体がくっついていました。
あまりにもデカいカメムシ。。。俺じゃなくても見逃さないね。
人間、驚きすぎると逆に冷静になるといいますが、
私は、冷静にソイツをつまむと床に置き、そのままドライヤーの高温で炙り続けるという謎の行動にでました。
その時の自分の思考は今でも思い出せませんが、恐怖だけははっきりと思い出せます。
なんで、あんな害ばかり齎す虫がこの世に存在するんだ…
というわけで、今回は、
構築したvCenter Serverが突然の別れ・・・そして、再構築すらできなくなってしまった事象について、ご紹介します。
私は…vCenterに嫌われている
自慢ではありませんが、私が作ったvCenterは何故かよく壊れますし、壊されます。
1つのプロジェクトでvCenterを入れなおした回数は、最高で4回です。
普通にしてりゃ壊れないはずのvCenterが何でこんな壊れるのか、はなはだ謎ですが、きっと私は、vCenterに嫌われているのでしょう。
私は、こんなにも愛してるのに!
さて、今回vCenterが壊れたのは本当に突然のことです。
構築して1週間ぐらいが経ち、1度vCenterを再起動したときのことでした。
ワイ「さーて、vCenterがそろそろあがってきたかな~URLポチー」
ワイ「お、いつものあれか。もうちょい待つかー」
そして5分後…
ワイ「もうええやろ。URLポチー」
ワイ「・・・・ファッ?」
さらに10分後
ワイ「(F5ひたすら連打)」
ワイ「・・・・」
ワイ「あああああああああああああああああああああああああああああ!!!」
というわけで、vCenterが逝きました。
え?
なんで?
俺、再起動しかしてないよね?
ちなみに、環境は、
vCenter Server Appliance 7.0 Update3e
その当時最新版でした。
致命的なバグがないか、リリースノートを再度熟読。。。やはりない。
その後、まずはVAMIの画面を確認してみました。
すると・・・
まず、サービスが全然上がってない。
vAPI EndpointとSTSのサービス起動が失敗している。
さらに、
ディスクのステータスなども正しく取れていない。
はは!これは完全に死んじまったね☆彡
なんということでしょう。
今の今まであんなにも元気だったvCenterがこうもあっさり死ぬなんて…
これが、泥沼の始まりだと、その時の私は知る由もなったのです・・・
その後、念のために確認したこと
まずは、証明書です。
vCenterでは数多の証明書が使われていますが、この証明書が期限切れになってるんじゃないかという疑念にかられ、確認するも全く問題なし。
そりゃ、1週間前にインストールしたばっかりだもんね・・・
次に、注目したのが、ストレージ領域のエラー。
このKBに沿って確認してみるも、これも問題なし。
仕方ない。
ログにも怪しいものは何出てないし、vCenter再インストールしてみるか…
と、vCenterのインストールを進めていたところ
ワイ「・・・おぺれーしょん、フェイル怒・・・やて?」
意味不明なエラーです。
ステージ1でのデプロイを無事に終え、ステージ2のセットアップを勧めようとしたところ、いきなり謎のエラーが発生。
あれ??
入力値間違ってた?
使っちゃいけない文字でも入ってた?
何度も確認しますが、入力値に間違いはなく…
前回インストール時のキャッシュが残ってるのかと思い、それも削除しますが、やはり事象は変わらず。。。
※ Users\<ユーザー名>\AppData\Roaming\ の中にありますヨ
ひ、ひどいや!
僕が何したって言うんだ!
さらに、別の人の端末も借りてリトライするも事象が変わらず。。。
その後、インストール先のホストを変えたり、家の検証環境でインストールをしてみましたが、事象が再現せず。
結果、ここまでの切り分けができました。
- ESXiホストに依存しない
- インストールを実施する端末に依存しない
- インストーラーがバグっているわけではない
つまり、この問題は「この環境固有の問題で起きている」という可能性が高い。
でも、他のWindowsマシンなどは正常に稼働しているので、仮想マシンを作成する機能に問題があるとも思えません。
改めて、vCenterのログをもっとじっくり見てみようと、vCenterにSSH接続した
思ったときのことでした。
ふと原因が、わかってしまったのです。
そ、そりゃないぜ・・・
結果から言います。
原因は、「時刻ズレ」でした。
vCenterをSSHでつないだ時、ログイン時間などが表示されるのですが、
ふと、
ワイ「ん・・・?2021年8月・・・?」
そう、なんと年が丸一年もズレているではありませんか。
んなアホな!?
と思い、急いでESXiの時間を見てみると
2021年8月・・・
Oh…1年も時間がズレとるやないの…orz
ESXiは、NTPと時刻同期をさせていたのですが、構築期間で、まだNTPとなる機器が届いていなかったため、仮で構築してもらったNTPと時刻を同期していたのですが、どうやらそちらの値が盛大にバグっていたようで、同期したESXiにバグった時間が同期されてしまったようです。
仮想マシンはVMware Tools経由で、起動時や再起動時にESXiホストと時刻同期します。
なので、仮想マシンはそのとばっちりを受け、時刻が突然1年戻されるというヤベー状態になったようです。
その後、ESXiの時間同期NTPから手動に変更し、2021年を2022年に修正したところ、故障していたvCenterが立ち上がったではありませんか!
や、やった!ク●ラが立ったー!
と思わずデータセンターで叫んでしまいました。
そのタイミングで、謎の「Operation Failed」も解消されました。
どうやら、ステージ1で展開されたApplicanceの時刻と、インストール端末の時間が大幅にズレていたことが原因だったようです。
最後に
というわけで、時刻同期の重要さが身に染みてよくわかった一件でした。
この件の一番性質の悪いところは、年だけが1年ズレてて、時刻はぴったりだったことです。
間違いさがしかよコノヤロー。
さて、その後なのですが、
結局「vCenterは再インストール」しました。
故障したと思われたvCenterはその後ちゃんと起動してくれたのですが、
メンテナンスモードに入れられなくなったり
ESXiホストの試用ライセンスが軒並み使えなくなったり
など、時刻ズレに伴う弊害がその後ポツポツとみられたためです。
皆さんも、時刻同期には十分にご注意ください。
なお、ESXi上にはADも稼働していたため、そちらも少なくない被害を受けました。(ADの時刻は超大事)
最後に…
今回の事象を切り分けるにあたり、vCenterを実に18回再インストールしました。
これは、私のVM歴10年の中でもトップクラスです!
やったね!