AI 管理的 AI 基础设施
装上 AIMA,它就开始接管:认硬件、选引擎、拉模型、跑基准、把最快的配置记进知识库。内置 agent 一直在调优;它本身也是 MCP server,可以被外部 agent 接管。
引擎自动选,不用你手调
三个推理后端,AIMA 按当前硬件、模型、量化精度、上下文长度,从知识库里挑最快的那套配置直接用 —— 不用你碰参数汤。
高吞吐独显路径,适合 NVIDIA / AMD 大显存卡
结构化生成 / 多机场景,前缀缓存命中率高
GGUF / CPU / 轻量部署,Apple Silicon 首选
真机跑过,不是写在 PPT 上的
下表里每家芯片都在真机上跑过 benchmark,跑分数据可追溯。
| 厂商 / 芯片 | 状态 | 备注 |
|---|---|---|
| NVIDIA GPU | ✓ 已验证 | CUDA |
| AMD GPU | ✓ 已验证 | ROCm |
| 华为昇腾 Huawei Ascend | ✓ 已验证 | 真机实测 |
| 海光 DCU Hygon DCU | ✓ 已验证 | 真机实测 |
| 摩尔线程 Moore Threads | ✓ 已验证 | 真机实测 |
| 沐曦 MetaX | ✓ 已验证 | 真机实测 |
| Apple Silicon | ✓ 已验证 | Metal |
| CPU-only | ○ 支持 | x86_64 + ARM64 |
局域网多机:自动组成 fleet
同一局域网的机器通过 mDNS 互相发现、组成 fleet。模型、知识库、benchmark 结果全局同步 —— 一台机器跑出来的"最快配置",fleet 里其他机器直接受益,不用重跑。
断网也能跑
引擎镜像和模型可以离线预装,整套推理栈不依赖外网 —— 内网、工厂、空气隔离环境都能用。
MCP 原生
AIMA 就是个 MCP server。把任何会说 MCP 的程序指向 http://<aima-host>:6188/mcp,就拿到完整操作面:硬件检测、模型扫描、引擎选择、部署、benchmark、集群发现、知识同步。AIMA 自己内部也跑一个 agent(代号 Explorer),规划下一轮测什么 → 部署配置 → 采样指标 → 把胜出配置写进共享知识库。新芯片来了,agent 自己把调优矩阵跑一遍。
已在生产中给 OpenClaw 当推理后端 —— LLM、ASR、TTS、图像生成、VLM 全覆盖。
MCP 配置示例
{
"mcpServers": {
"aima": { "type": "http", "url": "http://<aima-host>:6188/mcp" }
}
} 知识库:越用越准
「这片芯片最快的跑法」不住在某个工程师的脑子里,而是写进 YAML 知识库。每次 benchmark 跑完,胜出配置自动归档;下次同样的硬件遇上同样的模型,直接命中,不用重新探索。
拿到 AIMA
curl -fsSL https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.sh | sh irm https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.ps1 | iex 也可以从 Releases 下载预编译二进制(macOS arm64 / Linux amd64·arm64 / Windows amd64),或源码构建:git clone … && make build Releases · GitHub
检测硬件、首次自检、跑模型、开接口 —— 依次来。