メトリクスを正確に取得するためには、その場その場にあった複数の条件の設定が必要という話
観測点と観測点との差分
メトリクスをトリガーとする場合は、
観測点と観測点をどうやって比較するかが大切なんだなと
設定していて気付きました。
そういうメトリクスの学問的なものは体系化されて
どこかの記事読めば一発で理解できたりしそうですね。。
急激な変化を知りたい
観測点は
1. [ 今 <-> 今からどれぐらい前かの観測点(10秒前) ]
2. [ 今 <-> 今からどれぐらい前かの観測点(30秒前) ]
3. [ 今 <-> 今からどれぐらい前かの観測点(60秒前) ]
このような条件で、現在の値が、急激かどうかを確認できる。
急激の閾値を決めて、現在の値が [ 過去の観測点 x n ] より何パーセント増加、減少したかで
トリガーをひくことができる。
観測点が複数あればあるほど精度は上がるが、
その分アラートを鳴らしたりする場合に時間がかかるので、
その辺の塩梅も現場で異なると思う。
継続的な変化を知りたい
1. [ 今 <-> 今からどれぐらい前かの観測点(10秒前) ]
2. [ 今からどれぐらい前かの観測点(10秒前) <-> 今からどれぐらい前かの観測点(30秒前) ]
3. [ 今からどれぐらい前かの観測点(30秒前) <-> 今からどれぐらい前かの観測点(60秒前) ]
観測点同士を常に比較し、同様の変化が [ 観測点 x n ] 継続した場合に
トリガーをひくことができる。
このようなメトリクス監視はZabbixで設定が可能。
詳しくは Zabbixでメトリクス監視する を参照頂くか
twitterで聞いてみてください。
基本的には両方必要だったりすることが多いと思います。
トラヒックが激増、激減、ディスク使用量の突然の増加、プロセス数の突然の増加、減少などなど
メトリクスの取得方法や、観測点間の関係、比較対象の条件など
本当に色々なパターンがあると思います。
メトリクスでオペレーションを楽にしたいっていうのは
インフラエンジニアであれば皆願っていることだと思うので、
このようなどうでもいい情報から、至極のノウハウなど
みんなで色々ワイワイやっていければいいなって思います。