跳到主要内容

从零到一:独立开发者用 YingClaw 构建智能运维助手

李然(化名)是一个独立开发者,同时维护着 3 个 SaaS 产品和 5 台 VPS。他的日常就是——被服务器告警追着跑


之前的状态

  • 5 台 VPS(分别在阿里云、腾讯云、AWS Lightsail)
  • 每天收到约 20 条监控告警
  • 大部分告警是「磁盘使用率 85%」这种需要清理但不需要紧急处理的问题
  • 真正需要处理的告警反而容易被淹没

「有一次半夜收到 CPU 告警,我以为是日常波动,翻个身接着睡。结果第二天发现是死循环把服务打挂了,宕机 6 小时。」


方案

他用 YingClaw 搭建了一个运维 Agent,跑在一台低配 VPS 上(1C2G,月费 ¥40)。

架构很简单:

定时任务(每 15 分钟)
→ Agent 调用各服务器监控 API
→ Agent 分析告警严重程度
→ 紧急:微信通知 + 尝试自动修复
→ 非紧急:记录到日志,每日汇总推送

实际效果

场景 1:磁盘自动清理

Agent 检测到 /var/log 占用 85%
→ SSH 到目标服务器
→ 执行 logrotate
→ 释放 12GB
→ 微信通知:"已自动清理 √"

全程 30 秒,不需要人工介入。

场景 2:SSL 证书过期预警

Agent 检测到证书将在 7 天后过期
→ 自动续期(acme.sh)
→ 验证新证书生效
→ 微信通知:"已续期 √,新过期日:2026-08-25"

场景 3:异常流量检测

Agent 检测到某 API 端点 QPS 突增 10 倍
→ 分析访问来源
→ 判定为爬虫攻击
→ 自动添加 iptables 规则临时封锁 IP
→ 微信通知:"已自动封禁 5 个异常 IP √"

投入产出

项目数据
搭建耗时2 天(含写技能和调试)
月度成本¥40(VPS) + ¥15(API 费用)
告警处理时间从每天 2 小时降到 10 分钟
宕机事件从月均 3 次降到 0 次
睡眠质量「终于能睡个整觉了」

经验总结

1. Agent 运维的门槛比想象的低

不需要 AI 专家,只需要会写 Shell 脚本 + 了解自己服务器的监控指标。

2. 渐进式信任

前三周,Agent 只做「检测 + 通知」。确认它判断准确后,才逐步开放自动修复权限。

3. 推送很重要

Agent 做了再多事,如果不告诉你,你也不会信任它。每条操作都推送到微信,建立信任比炫技重要


「现在我每天早上看一眼微信,昨晚的运维报告已经躺在聊天记录里了。这种感觉很爽。」 — 李然