システム監視のルールがほとんどないので、ちょっと勉強中です。
危険率の判定
今まで一番知りたかったことがこれなんですね。例えばシステムに負荷がかかっている場合、どのパラメーターがどれくらいの数値だったら、というのがあまりわかっていませんでした。
ただ技術書にも「アプリケーションの処理速度とリソースの使用率の関係を論理的に分析することは簡単なことではない」と書かれています。
そこで手法としては下記のような対策が取られることが多いようです。
- バッチの処理時間やWebアプリケーションの平均応答時間などアプリケーションの処理速度の指標となるデータを決めて継続的にデータを収集する
- 指標のデータに顕著な変化が現れたときに、リソース使用状況のほうに、対応する変化が表れていないか確認する
例 あるアプリケーションの応答時間が3秒以上かかるときはCPUが80%以上を超えているときが多い。