実務でサーバーの障害が発生した時のフローなどをメモしおこうかと。
行ってしまうと「ログに始まり、ログにおわる」といった感じでしょうか。
サーバーエンジニアの方の作業をみてたんですが、基本的にはプログラムの不具合の調査と一緒でとにかく徹底してログを見ていくのが大事なようです。
そこでおかしいものをみたら対象を絞り込んでいくという感じです。探偵の操作に近いかんじでしょうか。
/var/log/message
システム関連のログはディフォルトでまずここにはかれます。
障害発生時の時間帯を特定し、その時間帯で何が起きたかを調査していくことになります。普段見慣れないような記述などがあればそこに問題が起こっているかとおもいます。
さらに詳細な情報は以下のリンクを参考に。
参考リンク
使えるunixコマンド
view ファイスパス(例 /var/log/message )
書き込み権限無しで、ファイルを開くコマンドのようです。viの書き込み禁止モードのようです。
/var/log/lastlog
ログインの情報などはここにはかれます。
不審なログイン(主に不正なログイン)に対しての調査をするときに役立ちます。
ただし、ファイルは直接みてもあまり情報がわかるようにはなっていないので、以下のようなコマンドを使います。
last
実際にログインに成功したユーザーの記録が見れます。
lastb
ログインに失敗したユーザーの記録が見れます。
lastlog
全ユーザーの最終ログイン日時が見れます。引数の指定などで~日前や特定のユーザーだけなどを行うこともできます。
日経 XTECH 【 lastlog 】 ユーザーが最後にログインした日付を表示する
全体的なコマンドの紹介は下記リンクを。