开源 · Apache 2.0

AI 管理的 AI 基础设施

装上 AIMA，它就开始接管：认硬件、选引擎、拉模型、跑基准、把最快的配置记进知识库。内置 agent 一直在调优；它本身也是 MCP server，可以被外部 agent 接管。

安装 AIMA 在 GitHub 上看

引擎自动选，不用你手调

三个推理后端，AIMA 按当前硬件、模型、量化精度、上下文长度，从知识库里挑最快的那套配置直接用 —— 不用你碰参数汤。

vLLM

高吞吐独显路径，适合 NVIDIA / AMD 大显存卡

SGLang

结构化生成 / 多机场景，前缀缓存命中率高

llama.cpp

GGUF / CPU / 轻量部署，Apple Silicon 首选

真机跑过，不是写在 PPT 上的

下表里每家芯片都在真机上跑过 benchmark，跑分数据可追溯。

厂商 / 芯片	状态	备注
NVIDIA GPU	✓ 已验证	CUDA
AMD GPU	✓ 已验证	ROCm
华为昇腾 Huawei Ascend	✓ 已验证	真机实测
海光 DCU Hygon DCU	✓ 已验证	真机实测
摩尔线程 Moore Threads	✓ 已验证	真机实测
沐曦 MetaX	✓ 已验证	真机实测
Apple Silicon	✓ 已验证	Metal
CPU-only	○ 支持	x86_64 + ARM64

完整跑分数据见 Benchmarks 页 →

局域网多机：自动组成 fleet

同一局域网的机器通过 mDNS 互相发现、组成 fleet。模型、知识库、benchmark 结果全局同步 —— 一台机器跑出来的"最快配置"，fleet 里其他机器直接受益，不用重跑。

断网也能跑

引擎镜像和模型可以离线预装，整套推理栈不依赖外网 —— 内网、工厂、空气隔离环境都能用。

MCP 原生

AIMA 就是个 MCP server。把任何会说 MCP 的程序指向 http://<aima-host>:6188/mcp，就拿到完整操作面：硬件检测、模型扫描、引擎选择、部署、benchmark、集群发现、知识同步。AIMA 自己内部也跑一个 agent（代号 Explorer），规划下一轮测什么 → 部署配置 → 采样指标 → 把胜出配置写进共享知识库。新芯片来了，agent 自己把调优矩阵跑一遍。

已在生产中给 OpenClaw 当推理后端 —— LLM、ASR、TTS、图像生成、VLM 全覆盖。

MCP 配置示例

mcp 配置

{
  "mcpServers": {
    "aima": { "type": "http", "url": "http://<aima-host>:6188/mcp" }
  }
}

知识库：越用越准

「这片芯片最快的跑法」不住在某个工程师的脑子里，而是写进 YAML 知识库。每次 benchmark 跑完，胜出配置自动归档；下次同样的硬件遇上同样的模型，直接命中，不用重新探索。

第 1 次：探索 → 第 N 次：查表

拿到 AIMA

# macOS / Linux

Terminal

curl -fsSL https://aimaserver.com/install.sh | sh

# Windows (PowerShell)

PowerShell

irm https://aimaserver.com/install.ps1 | iex

也可以从 Releases 下载预编译二进制（macOS arm64 / Linux amd64·arm64 / Windows amd64），或源码构建：git clone … && make build Releases · GitHub

# 装好后的下一步

aima hal detect

aima onboarding

aima run qwen3-4b

aima serve

检测硬件、首次自检、跑模型、开接口 —— 依次来。

查看文档（GitHub README）→