为什么是 AIMA:让 agent 来当推理操作员
两个极端
私有化跑大模型,今天通常落在两个地方。
一端是图省事的方案:一个二进制,一个引擎(llama.cpp / GGUF),开箱默认参数。装着省事,但吞吐被引擎天花板锁死,适合实验,上生产吃力。
另一端是要性能的方案——直接跑 vLLM、SGLang 这类高性能引擎:数字好看,但参数调优、量化选型、部署配置、跨厂商兼容问题全压在你身上。每换一片芯片,基本等于重做一遍。操作员是你。
这不是工具设计得好不好的问题,是角色分工的问题。推理栈的调优工作不该由人来扛。
操作员换成 agent
AIMA 的核心赌注:把推理操作员从人换成 agent。
具体怎么跑:AIMA 先识别当前硬件,然后从 YAML 知识库里挑出当前最适合这台机器的引擎和参数配置,部署模型,跑 benchmark,把胜出配置写回知识库。这个回路由内置的 agent(代号 Explorer)持续驱动,不是一次性的。
新芯片到手时,agent 自己跑调优矩阵。不需要你翻文档、试参数、再适配一遍——你装的是同一个二进制,拿到的是已经针对这台机器调好的推理栈。
知识沉淀在 YAML,不在工程师脑子里
每次跑完 benchmark,胜出配置自动写回 YAML 知识库。「这片芯片、这个模型、这种量化,最快的跑法是什么」——这件事变成了数据,不再只活在某个工程师的脑子里,也不在一份可能过期的文档里。
第一次部署是探索,之后是查表。同一局域网里的多台机器组成 fleet,共享这份知识库——一台机器跑出来的胜出配置,整个 fleet 直接受益,不用重跑。换人接手也不用从头摸。
Agent-native:MCP server + 内部 agent
AIMA 既是 MCP server,也在内部跑 agent——这两件事是同一套设计的两面。
从外部看:把任何支持 MCP 的程序指向 AIMA 的端口,就拿到完整操作面——硬件检测、模型扫描、引擎选择、部署、benchmark、集群发现、知识同步。不需要写 REST 包装层,也不需要等什么官方 SDK。
AIMA 已经在生产里跑着,给开源 agent 框架 OpenClaw 当推理后端,覆盖大语言模型、语音识别、语音合成、图像生成、视觉模型。其他支持 MCP 的程序接入方式相同。
从内部看:AIMA 自己也消费 MCP。Explorer agent 驱动整个自调优回路——规划下一组 benchmark、部署候选配置、采样吞吐和首字延迟、把胜出结果提升到知识库。这是单二进制能跑出高吞吐的原因:不是引擎选得更好,是有个 agent 一直在找更好的选法。
去试试
AIMA 开源,Apache 2.0。一行命令装好,aima hal detect 看硬件识别结果,aima run <model> 跑一个模型,让它自己跑一遍调优。
代码在 GitHub。