从零到一:独立开发者用 YingClaw 构建智能运维助手
李然(化名)是一个独立开发者,同时维护着 3 个 SaaS 产品和 5 台 VPS。他的日常就是——被服务器告警追着跑。
之前的状态
- 5 台 VPS(分别在阿里云、腾讯云、AWS Lightsail)
- 每天收到约 20 条监控告警
- 大部分告警是「磁盘使用率 85%」这种需要清理但不需要紧急处理的问题
- 真正需要处理的告警反而容易被淹没
「有一次半夜收到 CPU 告警,我以为是日常波动,翻个身接着睡。结果第二天发现是死循环把服务打挂了,宕机 6 小时。」
方案
他用 YingClaw 搭建了一个运维 Agent,跑在一台低配 VPS 上(1C2G,月费 ¥40)。
架构很简单:
定时任务(每 15 分钟)
→ Agent 调用各服务器监控 API
→ Agent 分析告警严重程度
→ 紧急:微信通知 + 尝试自动修复
→ 非紧急:记录到日志,每日汇总推送
实际效果
场景 1:磁盘自动清理
Agent 检测到 /var/log 占用 85%
→ SSH 到目标服务器
→ 执行 logrotate
→ 释放 12GB
→ 微信通知:"已自动清理 √"
全程 30 秒,不需要人工介入。
场景 2:SSL 证书过期预警
Agent 检测到证书将在 7 天后过期
→ 自动续期(acme.sh)
→ 验证新证书生效
→ 微信通知:"已续期 √,新过期日:2026-08-25"
场景 3:异常流量检测
Agent 检测到某 API 端点 QPS 突增 10 倍
→ 分析访问来源
→ 判定为爬虫攻击
→ 自动添加 iptables 规则临时封锁 IP
→ 微信通知:"已自动封禁 5 个异常 IP √"
投入产出
| 项目 | 数据 |
|---|---|
| 搭建耗时 | 2 天(含写技能和调试) |
| 月度成本 | ¥40(VPS) + ¥15(API 费用) |
| 告警处理时间 | 从每天 2 小时降到 10 分钟 |
| 宕机事件 | 从月均 3 次降到 0 次 |
| 睡眠质量 | 「终于能睡个整觉了」 |
经验总结
1. Agent 运维的门槛比想象的低
不需要 AI 专家,只需要会写 Shell 脚本 + 了解自己服务器的监控指标。
2. 渐进式信任
前三周,Agent 只做「检测 + 通知」。确认它判断准确后,才逐步开放自动修复权限。
3. 推送很重要
Agent 做了再多事,如果不告诉你,你也不会信任它。每条操作都推送到微信,建立信任比炫技重要。
「现在我每天早上看一眼微信,昨晚的运维报告已经躺在聊天记录里了。这种感觉很爽。」 — 李然