AIMA 是 AI 管理的 AI 基础设施——一个开源 Go 单二进制：自动识别硬件加速器，从 YAML 知识库挑选推理引擎（vLLM / SGLang / llama.cpp），部署模型，跑 benchmark，把胜出配置写回知识库。整个回路由内置 PDCA agent 驱动。Apache 2.0 开源，无需邀请码。

AIMA 支持哪些芯片？

AIMA 已在 NVIDIA GPU、AMD GPU、华为昇腾、海光 DCU、摩尔线程、沐曦、Apple Silicon 上真机实测，CPU-only 环境也能运行。

AIMA 和 Ollama 有什么区别？

Ollama 简单但性能有限；裸 vLLM 快但需要手动运维；AIMA 用内置 agent 替代人工运维员——Ollama 级的 TCO，vLLM 级的推理吞吐。

AIMA 是 MCP server 吗？

是的。AIMA 开箱即是一个 MCP server，端口 6188。任何 MCP 兼容 runtime 可直接驱动 AIMA 的全部操作面：硬件检测、模型部署、benchmark、集群发现、知识同步。

开源 · Apache 2.0 · 自带 MCP server

AI 管理的 AI 基础设施

一键部署，自动最优

装一个 AIMA，在你的硬件上跑大模型。它会自己摸清这台机器、挑出最快的引擎和配置、部署好 —— 比你手调更优，而且每跑一次就更准。

安装 AIMA

上 GitHub 看看

AIMA 部署识别 · 检索知识库 · 最优配置 · 部署 · 就绪

实时

1 ✓

识别硬件 AMD Radeon 8060S

2 ✓

检索知识库命中 23 条同硬件实测记录

3 ✓

最优配置 vLLM · FP8 42.3 tok/s

4 ✓

部署模型 Qwen3.6-35B

5 ✓

API 就绪 localhost:6188

向下滚动

AIMA 是什么？

AIMA（灵机）是个小工具，帮你在自己的电脑或服务器上把大模型跑起来。装上就能用 —— 不用折腾 Docker、不用配 Python 环境、不用装一堆依赖。它会自己看硬件、挑最合适的推理引擎和配置、部署好，还会自己测速优化，不用你懂 vLLM、SGLang 那套调参。

图省事还是要性能？AIMA 不用二选一

	图省事的方案	图性能的方案	AIMA
一行命令装好	✓	—	✓
OpenAI 兼容接口	✓	✓	✓
推理引擎	llama.cpp	vLLM / SGLang	vLLM · SGLang · llama.cpp（按硬件自动挑）
独显上跑出最优吞吐	—	手动	✓
支持的芯片	—	手动	NVIDIA · AMD · 昇腾 · 海光 DCU · 摩尔线程 · 沐曦 · Apple
自带 MCP server	—	—	✓
自己测速优化	—	—	✓
局域网多机	—	手动	✓

易用和性能，AIMA 不用二选一。更关键的是：「这台机器怎么跑最快」由 agent 自己积累、写进知识库 —— 不在某个工程师脑子里，换个人接手也不用从头摸一遍。

让 agent 一直在调优 —— 越用越快

AIMA 里有个 agent（代号 Explorer），一直循环这四步：想下一组测什么 → 部署一套配置 → 测吞吐和首字延迟（TTFT）→ 把跑得最快的那套记进知识库。换了片新芯片？它自己跑一遍调优。知识库越厚，下次部署就越快、越准、越省。

规划

定下一组要测什么：模型、量化、并行度

部署

按选好的配置把引擎和模型跑起来

测速

采吞吐和首字延迟，跟其他配置比

记下来

跑得最快的配置进知识库，下次直接用

↻ 循环 — 回到 ①

在真机上跑过，不是只在 PPT 上写过

不管哪家的卡，都在真机上跑过 benchmark；纯 CPU 也能跑。

NVIDIA AMD 华为昇腾海光 DCU 摩尔线程沐曦 Apple Silicon CPU-only

完整跑分数据在 Benchmarks 页。

看跑分数据 →

自带 MCP server

AIMA 本身就是个 MCP server。把任何会说 MCP 的程序指向它的端口，就拿到完整操作面：查硬件、扫模型、选引擎、部署、跑 benchmark、发现集群、同步知识库 —— 不用你写 REST 包装层，也不用等什么官方 SDK。

已经在生产里给 OpenClaw 当推理后端 —— 大语言模型、语音识别、语音合成、图像生成、视觉模型全覆盖。别的会说 MCP 的程序，接法一样。

指向 AIMA 的 HTTP 端点 —— 集成就这么多

mcp 配置

{
  "mcpServers": {
    "aima": { "type": "http", "url": "http://<aima-host>:6188/mcp" }
  }
}

灵机云 · 开箱即用 · 含 10 次免费服务

设备多了管不过来？交给云端的 AI 运维 agent

把设备连上灵机云，它远程帮你装、修、升级 —— 装 Dify、ComfyUI、Open WebUI、OpenClaw 这些开源 AI 工具，也是它干。命令里内置了邀请码，开箱即用，先送你 10 次免费服务。

连你的设备试试 → 看能装哪些工具 →

快速开始

一条指令装好，剩下的交给 agent。

先装上二进制

大陆站从官网托管的二进制下载源安装；海外站继续使用 GitHub。

# macOS / Linux

终端 · AIMA

curl -fsSL https://aimaserver.com/install.sh | sh

# Windows（PowerShell）

PowerShell

irm https://aimaserver.com/install.ps1 | iex

GitHub Releases 仍保留为备用下载方式，也可以自己 git clone 编译 Releases →

看它认出了什么硬件

打印检测到的 GPU/NPU、驱动、内存，再跑一遍首次自检 —— 只看不动，不会装服务、不会部署模型。

终端 · AIMA

# 看它认出了什么

aima hal detect

# 跑首次自检（只看不动）

aima onboarding

跑个模型，把接口开起来

它会解析模型、按这台机器挑引擎和配置、把缺的资产拉下来、部署好，再开 OpenAI 兼容接口。

终端 · AIMA

# 解析模型、挑引擎、拉资产、部署、就绪

aima run qwen3-4b

# 在当前终端开着 OpenAI 兼容接口和 Web UI（http://localhost:6188） (http://localhost:6188)

aima serve

Linux 服务器要给别的机器用？sudo aima init → aima deploy qwen3-4b → aima serve

看文档（GitHub README）→ Releases →