”うちの会社のサーバー監視方法がおかしいので改善を試みた”という記事を読んだ

きっかけははてブ

※本記事の内容は個人的に思ったことを書いているだけなので、これが正しいというわけではありません。

毎時のごとくはてブをチェックしているのですが、「うちの会社のサーバー監視方法がおかしいので改善を試みた」というwktkしてしまいそうなタイトルが上がってました。
ただし、中身を見たら恐ろしい内容でした。「監視ってなんだっけ?」って思ってしまう内容でした。

記事の内容から監視方法を引用します。

  • 15台くらいのwindowsサーバーに自PCからリモートデスクトップ接続する
  • 遠隔操作でイベントログやらHDD容量やらを目視チェックして全て台帳(紙媒体)に書き込む
  • 以上を全サーバーに行うと普通に毎朝1時間かかる。負荷がでかいので分散の為、若手を入れて10人くらいで順番にまわしている
  • 今後もサーバーが増える予定あり

追記に見事に21台に増えたということが書かれていました

自分はこの手順を見ておかしいと思いました。

私がおかしいと思ったこと

  • 台帳に書き込む
    • 紙媒体が悪いとは言いませんが、過去ログとして確認したいのであればmunin,cacti,zabbixなどいろんなOSSが存在します
    • Windowsサーバ用のツールもきっとあるでしょう。
  • この様な作業に10人も当ててるのが人件費の無駄
    • 1日1人でやっているのでしょうが、15台しかないのに1時間もかかるのはもったいないです。
    • 毎朝行なっているということは1日1回でしょうか?それは監視ではなく「管理」になると思います。
  • 監視なのにリアルタイム性がない
    • 例えば、この作業中に発生した障害であれば検知できますが、その他の時間は?
    • サービスが長時間落ちていて気づかないとユーザが離れて行きます
    • リアルタイム監視であればnagioszabbix,monなどツールがたくさんあります。
  • 記事の内容を読むと中の人は監視をする気がない
    • メールが送られてきても見ない」という意味が社会人としてどうかと思う
    • 「メールが垂れ流しになるから」→それは障害だらけか監視設定がおかしいかの2択

Twitterで50以上RTされた

なぜか記事をツイートしただけで50以上のRT、18のお気に入りをして頂きました。
私が書いた記事ではないんですがね・・・w
たぶんインフラクラスタの方がRTしてそっから拡散されてRTされたものと思います。

最後に

監視というのは365日24時間行なってやっと意味をなします。
自社で監視ができないというなら、監視を外注しましょう。
外注先にもよりますがベンチャーでも素晴らしい対応をしてくれるところもあります。
サービスをリリースするなら企業も個人も関係なく監視は必ず行いましょう