メトリクスを正確に取得するためには、その場その場にあった複数の条件の設定が必要という話

観測点と観測点との差分

メトリクスをトリガーとする場合は、
観測点と観測点をどうやって比較するかが大切なんだなと
設定していて気付きました。

そういうメトリクスの学問的なものは体系化されて
どこかの記事読めば一発で理解できたりしそうですね。。

急激な変化を知りたい

観測点は

 1. [ 今 <-> 今からどれぐらい前かの観測点(10秒前) ]
2. [ 今 <-> 今からどれぐらい前かの観測点(30秒前) ]
3. [ 今 <-> 今からどれぐらい前かの観測点(60秒前) ]

このような条件で、現在の値が、急激かどうかを確認できる。
急激の閾値を決めて、現在の値が [ 過去の観測点 x n ] より何パーセント増加、減少したかで
トリガーをひくことができる。

観測点が複数あればあるほど精度は上がるが、
その分アラートを鳴らしたりする場合に時間がかかるので、
その辺の塩梅も現場で異なると思う。


継続的な変化を知りたい

 1. [ 今                                 <-> 今からどれぐらい前かの観測点(10秒前) ]
2. [ 今からどれぐらい前かの観測点(10秒前) <-> 今からどれぐらい前かの観測点(30秒前) ]
3. [ 今からどれぐらい前かの観測点(30秒前) <-> 今からどれぐらい前かの観測点(60秒前) ]

観測点同士を常に比較し、同様の変化が [ 観測点 x n ] 継続した場合に
トリガーをひくことができる。

このようなメトリクス監視はZabbixで設定が可能。
詳しくは Zabbixでメトリクス監視する を参照頂くか
twitterで聞いてみてください。

基本的には両方必要だったりすることが多いと思います。
トラヒックが激増、激減、ディスク使用量の突然の増加、プロセス数の突然の増加、減少などなど
メトリクスの取得方法や、観測点間の関係、比較対象の条件など
本当に色々なパターンがあると思います。

メトリクスでオペレーションを楽にしたいっていうのは
インフラエンジニアであれば皆願っていることだと思うので、
このようなどうでもいい情報から、至極のノウハウなど
みんなで色々ワイワイやっていければいいなって思います。