AI 管理的 AI 基础设施
一键部署,自动最优
装一个 AIMA,在你的硬件上跑大模型。它会自己摸清这台机器、挑出最快的引擎和配置、部署好 —— 比你手调更优,而且每跑一次就更准。
AIMA 是什么?
AIMA(灵机)是个小工具,帮你在自己的电脑或服务器上把大模型跑起来。装上就能用 —— 不用折腾 Docker、不用配 Python 环境、不用装一堆依赖。它会自己看硬件、挑最合适的推理引擎和配置、部署好,还会自己测速优化,不用你懂 vLLM、SGLang 那套调参。
图省事还是要性能?AIMA 不用二选一
| 图省事的方案 | 图性能的方案 | AIMA | |
|---|---|---|---|
| 一行命令装好 | ✓ | — | ✓ |
| OpenAI 兼容接口 | ✓ | ✓ | ✓ |
| 推理引擎 | llama.cpp | vLLM / SGLang | vLLM · SGLang · llama.cpp(按硬件自动挑) |
| 独显上跑出最优吞吐 | — | 手动 | ✓ |
| 支持的芯片 | — | 手动 | NVIDIA · AMD · 昇腾 · 海光 DCU · 摩尔线程 · 沐曦 · Apple |
| 自带 MCP server | — | — | ✓ |
| 自己测速优化 | — | — | ✓ |
| 局域网多机 | — | 手动 | ✓ |
易用和性能,AIMA 不用二选一。更关键的是:「这台机器怎么跑最快」由 agent 自己积累、写进知识库 —— 不在某个工程师脑子里,换个人接手也不用从头摸一遍。
让 agent 一直在调优 —— 越用越快
AIMA 里有个 agent(代号 Explorer),一直循环这四步:想下一组测什么 → 部署一套配置 → 测吞吐和首字延迟(TTFT)→ 把跑得最快的那套记进知识库。换了片新芯片?它自己跑一遍调优。知识库越厚,下次部署就越快、越准、越省。
规划
定下一组要测什么:模型、量化、并行度
部署
按选好的配置把引擎和模型跑起来
测速
采吞吐和首字延迟,跟其他配置比
记下来
跑得最快的配置进知识库,下次直接用
在真机上跑过,不是只在 PPT 上写过
不管哪家的卡,都在真机上跑过 benchmark;纯 CPU 也能跑。
完整跑分数据在 Benchmarks 页。
看跑分数据 →自带 MCP server
AIMA 本身就是个 MCP server。把任何会说 MCP 的程序指向它的端口,就拿到完整操作面:查硬件、扫模型、选引擎、部署、跑 benchmark、发现集群、同步知识库 —— 不用你写 REST 包装层,也不用等什么官方 SDK。
已经在生产里给 OpenClaw 当推理后端 —— 大语言模型、语音识别、语音合成、图像生成、视觉模型全覆盖。别的会说 MCP 的程序,接法一样。
指向 AIMA 的 HTTP 端点 —— 集成就这么多
{
"mcpServers": {
"aima": { "type": "http", "url": "http://<aima-host>:6188/mcp" }
}
} 快速开始
一条指令装好,剩下的交给 agent。
先装上二进制
一条指令装好 AIMA。
curl -fsSL https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.sh | sh irm https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.ps1 | iex 也可以从 Releases 下预编译好的二进制,或自己 git clone 编译 Releases →
看它认出了什么硬件
打印检测到的 GPU/NPU、驱动、内存,再跑一遍首次自检 —— 只看不动,不会装服务、不会部署模型。
跑个模型,把接口开起来
它会解析模型、按这台机器挑引擎和配置、把缺的资产拉下来、部署好,再开 OpenAI 兼容接口。
Linux 服务器要给别的机器用?sudo aima init → aima deploy qwen3-4b → aima serve