2026 年の五つの誤解:スクリプト green はユーザー視点可用性ではない
無人監視は一定間隔での yes/no です。梯子はなぜ壊れたかを追います。remote 構成ではサーバ側ループバックだけ緑でも外部 WS 終端が死んでいることがあり、クライアント視点のジョブを別 plist で走らせる必要があります。
cron が対話 dotfile を読む:PATH がアップグレードで変わり不定失敗。
梯子全体をタイムアウト無しでパイプ:ネットワーク分断で launchd が詰まる。
初回失敗で kill -9:split brain 復旧が難化。
ログを同期ディスクへ:state 推奨と衝突。
remote 対称性を無視:ユーザー可視パスを見逃す。
インストール未完なら先に チェックリスト を完了させます。
梯子・プローブ・合成監視の役割分担
梯子はインシデント調査、プローブは早期検知、合成監視は外向き経路です。アラート経路を文書化してPagerDuty の疲労を抑えます。
| 手法 | トリガ | 出力 | コスト |
|---|---|---|---|
| 梯子 | 人手/エスカレーション | 説明ログ | エンジニア時間 |
| 無人スクリプト | スケジュール | 終了コード | ディスク少量 |
| 合成 | 外部 | E2E 遅延 | ベンダー課金 |
自動化は有限状態機械に閉じる。
最小 bash:PATH・終了コード・timeout
/usr/local/libexec など非同期パスに置き launchd で明示環境を渡します。cron なら crontab 先頭で PATH と OPENCLAW_STATE_DIR を固定します。
#!/bin/bash set -euo pipefail LOG=/var/log/openclaw-health.log export PATH="/usr/local/bin:/opt/homebrew/bin:$PATH" timeout 60s openclaw gateway status >>"$LOG" 2>&1 || exit 2 timeout 60s openclaw channels status --probe >>"$LOG" 2>&1 || exit 2 exit 0
メモ:サブコマンドは公式に合わせ替えてください。timeout と環境明示が要点です。
トンネルと token は アップグレード記事 を参照してください。
六段階で一夜限りの cron から契約へ
CLI 絶対パスと版を plist に固定。
ログディレクトリとローテーションを決定。
healthy/自動復旧/人の三段状態機械。
連続失敗カウンタ後にだけ再起動。
remote クライアント側ジョブを時間ずらす。
終了コードをチケット項目にし 注文 の地域 SKU と結ぶ。
周期・閾値・M4 Pro のヘッドルーム
サンプリング:安定したレンタルでは 3〜5 分で十分。
連続 exit 2 が三回:人手ページの一般的な起点。
M4 Pro 64GB:夜間 cron とセッションが重なる swap 誤検知を減らす。
注意:睡眠するノートと家庭用回線では SLA を満たしにくいです。
手動梯子だけでは五分間隔のサンプリングは拡張できません。契約可能な専用 Apple Silicon と明示地域、ユニファイドメモリ段階、日〜月のレンジで運用を固定したいチームにとって、シンガポールや米東西などで Gateway を載せるなら KVMNODE の Mac mini クラウドレンタルは強い選択肢になりやすいです。