AI Transformation Workshop

Agent 不只会回答

从修复 Agent 到贡献 OpenClaw

这次分享沿着一条真实演进线展开:当 Agent 进入日常工作后,它会从能用、能修、能委派,走到能排查真实问题、沉淀经验,最后反哺 OpenClaw 社区。

IronClaw2200+ 沙箱默认部署;每天节约半个人力处理异常 OctoClawnative TaskFlow 委派;沉淀子 agent 和 workflow harness 经验 CP Agent自然语言排障和受控工具调用 PraxisBase多 agent 经验沉淀;个人版 GA,团队版开发中
起点

Agent 真正跑起来以后

我最早只是把 OpenClaw 当工具用:做巡检、查问题、跑脚本。用久了才发现,Agent 进入日常工作后,问题会从“回答质量”扩展到运行、执行、工具和经验沉淀。

运行

沙箱会失稳

内存、磁盘、OOM、Gateway、配置都可能让 Agent 突然不可用。

执行

长任务会阻塞

主 agent 被写操作和试错过程占住;简单任务也不该一直烧强模型,需要按任务复杂度分层用模。

排障

真实问题要证据链

容器和 Kubernetes 问题不能靠猜,CP Agent 需要发现工具、调用只读能力并收集证据。

经验

会话会消失

修复、委派和排障如果只留在 session 里,下次还是从零开始。

IronClaw(铁甲虾) / LiClaw 默认能力

Agent 稳定性保障

IronClaw 修复能力通过 LiClaw 入口默认提供:每天修复超过 10 个沙箱异常,约节约半个人力处理日常环境问题,AI 修复覆盖复杂环境异常。

IronClaw 铁甲虾 logo
IronClaw(铁甲虾)resident guardian for OpenClaw sandbox
2200+OpenClaw 沙箱默认部署
0.5 FTE每天节约半个人力处理异常
80%+AI 修复覆盖复杂环境异常

IronClaw 把沙箱当成需要被托管的 Agent 运行环境:常驻监控内存、磁盘、Gateway、OOM 和配置状态。

确定性问题先走 Doctor 诊断和备份还原;复杂异常再进入受控 AI 修复,通过时长、工具调用次数、尝试次数和并发锁控制成本。

IronClaw 沙箱常驻守护与自动修复架构
IronClaw 功能与架构:沙箱常驻守护,覆盖内存、磁盘、Gateway、OOM、配置和自动升级;脚本修复包含 Doctor 诊断和备份还原,复杂异常进入受控 AI 修复。看演示
铁甲虾日报
铁甲虾日报:每日异常和修复运营面。
OpenClaw OOM Kill 告警
OOM 告警:保留上下文和处理建议。
IronClaw 状态
状态守护:资源、Gateway、OOM、配置。
IronClaw AI 修复飞书卡片
修复完成:受控调用 Claude Code。
OctoClaw

OpenClaw 执行 Harness

OctoClaw 建在 OpenClaw 之上,探索快速响应、按需委派、子 agent 隔离、IM 状态回传和成本路由。它的意义不是“写了一个插件”,而是把委派边界、状态权威和反馈回路工程化。

第一版:规则约束

用 AGENTS.md 和 Skills 约束主 agent,验证先回复、再委派、按任务分层用模的方向。

第二版:自定义 Harness

补 workflow、artifact、状态和结果规则,把交付物和回传格式从 prompt 约定变成工程合同。

当前版:native-first

OpenClaw TaskFlow 管生命周期;OctoClaw 管 policy、WorkContract、ledger、IM surface 和 Auto Router。

OctoClaw 执行 Harness 架构图
OctoClaw 架构:入口快速响应,基于本地 LLM 小模型(Qwen3-0.6B)的轻量 judge 决定 reply / delegate。
复杂任务通过 Policy + WorkContract 进入 OpenClaw native TaskFlow 和 bounded subagent;SQLite ledger、状态面、Auto Router 与 nightly review 形成反馈闭环。看演示
OctoClaw 收获

Agent 协作形态

我现在的理解:多 Agent 选型第一问不是“要拆几个”,而是任务之间是否共享同一段上下文。边界清楚才适合拆出去,必须共享状态才考虑 Agent Team。

不是按岗位拆,而是按上下文边界拆。 OpenClaw 入口要保持响应;长写、复杂分析和试错过程进入托管执行面,主 agent 只接收压缩后的结果和证据。
默认

Bounded subagent

边界清楚的任务交出去,限定模型、工具、范围、产出和回传,解决隔离、压缩和并行。

协作

Agent Team

必须共享状态、角色持续互相影响时再启用,需要通信协议、状态层和仲裁机制。

规模

Dynamic Workflow

工作单元多、验证成本高时,把 fan-out、循环验证和 review 写成可审查脚本。

成本

Advisor 策略

便宜模型负责大部分执行,强模型只在复杂规划、卡住、风险判断和最终 review 点介入。

协作形态 = 上下文边界 + 工程契约

routing rule
Single Agent上下文强耦合,小任务一次做完更省心
Bounded Subagent边界清楚,隔离探索过程,压缩结果
Agent Team共享状态强,需要持续协作和仲裁
Dynamic Workflow工作单元多,把编排和验证写成脚本
先问上下文子任务是否需要看到彼此中间过程?会不会互相改变下一步?
再选形态能干净切开的用 subagent,必须共享状态的才上 Agent Team。
Workflow 是规模化适合仓库级扫描、迁移、对抗 review 和长尾清理。
Advisor 是成本策略便宜模型执行,强模型只在风险点、卡点和 review 点介入。
OctoClaw 收获

工作流经验

开发 OctoClaw 的过程也改变了我的 AI 编程方式:Codex 负责设计、拆包和验收;
opencode-supervisor 通过 ACP/tmux 指挥 OpenCode + GLM 执行,完成后再回到 Codex review 和端到端验证。

编排

Codex 设计与拆包

GPT-5.x 澄清需求、拆方案、定边界、写 work packet;
使用 superpowers 做 brainstorming / writing-plans;
opencode-supervisor 固化发送、轮询、fixback 和验收门禁。

执行

OpenCode 实现

通过 ACP/tmux 驱动 OpenCode Worker,用 GLM 按 work packet 实现;
OMO 的 ultrawork 模式只作为局部加速器。

契约

OpenSpec + BDD

OpenSpec 定变更边界,BDD 定行为验收;
TDD 是执行纪律,关键行为先红后绿。

门禁

Codex Review + E2E

实现和验证分家;
Codex review diff,E2E 像用户一样跑入口、委派、状态和回传,避免只证明代码“看起来对”。

OpenClaw PR

OpenClaw 社区反哺

在 OctoClaw 实践中发现 OpenClaw 子 agent 和 Slack 线程问题,提交 PR 并成为 OpenClaw contributor。两个 PR 已经被 OpenClaw 官方合入。

#85904
fix(slack): keep DM thread turns out of active steering修复 Slack DM thread 的 active steering 边界,避免不同 thread 被错误牵引。
#80037
Expose resolved subagent model metadata暴露子 agent 实际解析后的模型元数据,支撑模型路由、成本判断和可观测性。
OpenClaw PR 合入截图
OpenClaw 官方 PR 合入证据:#85904 和 #80037 均由 guanbear 提交并进入 upstream。
CP Agent / sre-autopilot

Agent 驱动排障

sre-autopilot 把一次排障拆成 DB、CP、NW、APP 四个方向并行查证。CP 方向已经实现了排障 Agent:既可以独立承接自然语言问题,也可以作为外部 Agent 的受控工具能力;LLM 负责理解和规划,工具循环负责查证,工程边界负责把范围、权限、轮次和证据收住。

sre-autopilot Agent 驱动排障总图
sre-autopilot 总图:自然语言问题或告警进入后,DB、CP、NW、APP 四个方向并行查证,最终汇总证据、判断根因并输出排查报告;CP 方向内置可独立运行、也可外部调用的排障 Agent。看演示
总图四方向并行查证

排障不是单点问答,而是 DB、CP、NW、APP 同时收集证据,最后合并判断。

CP容器证据查证路径

CP 方向围绕 Pod、Node、事件、日志和指标展开,先确定范围,再把事实链收集完整。

Agent可独立运行,也可外部调用

它可以作为 CP Agent 直接回答自然语言问题,也可以被 OpenClaw / Claude Code / OpenCode 等外部 Agent 调用。

理解Agent = 规划 + 工具 + 边界

实现 CP Agent 后,我对 Agent 的理解从“LLM 聊天”变成了:会规划、会查证、被约束、能交付证据。

PraxisBase

Agent 经验复用

PraxisBase / 知行基座放在最后讲,因为它是收束:个人版已 GA,团队版开发中。它要解决的不是一次任务怎么跑,而是把个人与团队 agent 的经验变成可审核、可压缩、可复用的长期资产。

PraxisBase 知行基座 Agent 原生知识底座架构图
PraxisBase / 知行基座是底层共享权威层;AgentMemory / GBrain 等属于上游运行时记忆层,通过 Native Memory Bridge 接入。它借鉴 Anthropic Brains / Hands / Memory 的 brain / hands 解耦,参考 LLM Wiki、AgentMemory / GBrain、Hermes / SkillClaw、OpenHuman;稳定知识经过 Capture、Distill、Proposal、Review、Promote 和 Build 后进入 Git-backed authority。
知行基座PraxisBase / 知行基座 logo
知行未必一,经验自成基。
原生记忆桥

Native Memory Bridge 负责接入、脱敏、保留 source ref / hash,并生成提案候选。

团队知识治理

参考腾讯文章:Harness 是载体,知识沉淀才是护城河;稳定知识必须审核晋升。

上游运行时记忆

AgentMemory / GBrain 提供 session 记忆、检索、偏好和经验召回能力。

多 Agent 复用

借鉴 SkillClaw 的 skill 复用思路,将 episode 提炼为 known fix、procedure 和 SKILL.md

PraxisBase Knowledge Health 总览
Knowledge Health:把来源、页面、质量问题、上下文压缩和 bundle 状态做成可见运营面。
PraxisBase 知识条目和来源关系
知识条目:保留正文、provenance、related 和 metadata,方便 Agent 检索与复用。
Demo

现场演示

演示只保留三段:自动修复、自然语言排障、Slack 执行记录。可选补 PraxisBase 个人知识库。

看版面LiClaw 自动修复脚本修复 + AI 修复

展示修复入口、脚本推荐和 AI 修复确认。

看版面CP 排障 Agent自然语言 + 工具调用

展示工具发现、CP/K8s 调用、证据链和结论。

看版面OctoClaw SlackACK + 委派 + Thread 回写

展示 Slack ACK、任务委派和 thread 状态回写。

OctoClaw Slack 入口响应和任务委派截图
OctoClaw Slack 状态回写和结果截图
Four More Things

AI 创作补充

如果前面讲的是 Agent 工程化、托管和上游贡献,这里补充另一条线:AI coding 进入硬件、内容生产、开源协作和亲子创造,把“想法到作品”的距离压短。

硬件彩色墨水屏天气站AI coding 把 UI、数据、硬件和展示设备接在一起,小红书阅读破 5000。
内容AI 日报OpenClaw 定时任务串起抓源、筛选、审稿、语音和投递。
开源OmniRoute API Proxy验证 Codex 套餐多人贡献方案,PR 进入 v3.8.7 主打特性。
亲子AI 游戏开发孩子用 iPad 上的 ChatGPT 指挥 Mac mini 上的 Codex,两天做出可玩版本。
01 / AI Coding + Hardware

彩色墨水屏天气预报站

第一个作品不是纯软件页面,而是 AI coding 帮我把天气 UI、数据接口、硬件展示和内容传播串起来。

彩色墨水屏天气预报站动图
彩色墨水屏天气站:从界面到硬件展示的完整观感。
小红书天气站阅读量截图
小红书反馈:阅读量和点赞收藏数较高,说明 AI coding + 硬件小作品有一定传播效果。
5000+小红书阅读量
280点赞 + 收藏
软硬结合AI coding 从页面走到设备
02 / AI Daily Brief

AI 日报:从信息洪流到可听摘要

AI 日报由 OpenClaw 定时任务驱动,把海外数据源、微信公众号、GitHub 热门、模型筛选、人工口径 review、中文终稿和 TTS 投递接成一条流水线。

AI 日报生成流程图
AI 日报生成流程:抓源、筛选、审核、改写、语音和投递。

定时入口

每天 7:00 生成预览和审核稿,通过 preview/state 固定当天口径。

多源筛选

海外源、技术博客、GitHub 热门和公众号统一进入模型打分、过滤和去重。

可听交付

同源生成文字日报和 TTS 音频,通过 OpenClaw message 一次投递。

AI 日报实际投递截图
实际投递:文字日报和 daily.mp3 一起交付。
03 / OmniRoute API Proxy

把个人实践推进到开源协作

OmniRoute API Proxy 验证了 Codex 套餐多人贡献方案,也把真实使用中的缺口补进官方版本。

真实缺口Codex 多账号和 delegated API key 需要更清楚的额度、token 和成本视图。
功能落地补齐 Token Short、用量拆分、模型维度统计等管理能力。
进入上游PR 合入后进入 v3.8.7 release note,个人实践变成开源特性。
04 / Parent-child AI Game

亲子 AI 游戏开发

孩子通过 iPad 上的 ChatGPT 指挥 Mac mini 上的 Codex,从头脑风暴到需求确认,再到 Bug 修复、画面美化和道具增强,两天做出 UI 较好的可玩版本。

亲子 AI 游戏第一天 MVP
第一天 MVP:功能能跑,但画面和体验还很粗糙。
孩子通过 ChatGPT 指挥 Codex 生成游戏素材
需求和美术方向:孩子用自然语言描述游戏。
亲子 AI 游戏画面和道具增强
画面增强:场景、车辆、商店和 UI 逐步完整。
亲子 AI 游戏可玩版本
可玩版本:修复 Bug、增强道具和场景之后,已经能持续玩。
头脑风暴

先让孩子说清楚想玩什么,再把想法收敛成可实现需求。

MVP

第一天先跑通核心玩法,接受画面粗糙和明显 Bug。

迭代

围绕 Bug、碰撞、道具、场景和 UI 连续修正。

成品感

第二天已经从原型变成孩子愿意继续玩的版本。