开源 · Apache 2.0

AI 管理的 AI 基础设施

装上 AIMA,它就开始接管:认硬件、选引擎、拉模型、跑基准、把最快的配置记进知识库。内置 agent 一直在调优;它本身也是 MCP server,可以被外部 agent 接管。

引擎自动选,不用你手调

三个推理后端,AIMA 按当前硬件、模型、量化精度、上下文长度,从知识库里挑最快的那套配置直接用 —— 不用你碰参数汤。

vLLM

高吞吐独显路径,适合 NVIDIA / AMD 大显存卡

SGLang

结构化生成 / 多机场景,前缀缓存命中率高

llama.cpp

GGUF / CPU / 轻量部署,Apple Silicon 首选

真机跑过,不是写在 PPT 上的

下表里每家芯片都在真机上跑过 benchmark,跑分数据可追溯。

厂商 / 芯片 状态 备注
NVIDIA GPU 已验证 CUDA
AMD GPU 已验证 ROCm
华为昇腾 Huawei Ascend 已验证 真机实测
海光 DCU Hygon DCU 已验证 真机实测
摩尔线程 Moore Threads 已验证 真机实测
沐曦 MetaX 已验证 真机实测
Apple Silicon 已验证 Metal
CPU-only 支持 x86_64 + ARM64

完整跑分数据见 Benchmarks 页 →

局域网多机:自动组成 fleet

同一局域网的机器通过 mDNS 互相发现、组成 fleet。模型、知识库、benchmark 结果全局同步 —— 一台机器跑出来的"最快配置",fleet 里其他机器直接受益,不用重跑。

断网也能跑

引擎镜像和模型可以离线预装,整套推理栈不依赖外网 —— 内网、工厂、空气隔离环境都能用。

MCP 原生

AIMA 就是个 MCP server。把任何会说 MCP 的程序指向 http://<aima-host>:6188/mcp,就拿到完整操作面:硬件检测、模型扫描、引擎选择、部署、benchmark、集群发现、知识同步。AIMA 自己内部也跑一个 agent(代号 Explorer),规划下一轮测什么 → 部署配置 → 采样指标 → 把胜出配置写进共享知识库。新芯片来了,agent 自己把调优矩阵跑一遍。

已在生产中给 OpenClaw 当推理后端 —— LLM、ASR、TTS、图像生成、VLM 全覆盖。

MCP 配置示例

mcp 配置
{
  "mcpServers": {
    "aima": { "type": "http", "url": "http://<aima-host>:6188/mcp" }
  }
}

知识库:越用越准

「这片芯片最快的跑法」不住在某个工程师的脑子里,而是写进 YAML 知识库。每次 benchmark 跑完,胜出配置自动归档;下次同样的硬件遇上同样的模型,直接命中,不用重新探索。

第 1 次:探索 第 N 次:查表

拿到 AIMA

# macOS / Linux
Terminal
curl -fsSL https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.sh | sh
# Windows (PowerShell)
PowerShell
irm https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.ps1 | iex

也可以从 Releases 下载预编译二进制(macOS arm64 / Linux amd64·arm64 / Windows amd64),或源码构建:git clone … && make build Releases · GitHub

# 装好后的下一步
aima hal detect
aima onboarding
aima run qwen3-4b
aima serve

检测硬件、首次自检、跑模型、开接口 —— 依次来。