开源 · Apache 2.0 · 自带 MCP server

AI 管理的 AI 基础设施

一键部署,自动最优

装一个 AIMA,在你的硬件上跑大模型。它会自己摸清这台机器、挑出最快的引擎和配置、部署好 —— 比你手调更优,而且每跑一次就更准。

AIMA 部署 识别 · 检索知识库 · 最优配置 · 部署 · 就绪
实时
1
识别硬件 AMD Radeon 8060S
2
检索知识库 命中 23 条同硬件实测记录
3
最优配置 vLLM · FP8 42.3 tok/s
4
部署模型 Qwen3.6-35B
5
API 就绪 localhost:6188

AIMA 是什么?

AIMA(灵机)是个小工具,帮你在自己的电脑或服务器上把大模型跑起来。装上就能用 —— 不用折腾 Docker、不用配 Python 环境、不用装一堆依赖。它会自己看硬件、挑最合适的推理引擎和配置、部署好,还会自己测速优化,不用你懂 vLLM、SGLang 那套调参。

图省事还是要性能?AIMA 不用二选一

  图省事的方案 图性能的方案 AIMA
一行命令装好
OpenAI 兼容接口
推理引擎 llama.cpp vLLM / SGLang vLLM · SGLang · llama.cpp(按硬件自动挑)
独显上跑出最优吞吐 手动
支持的芯片 手动 NVIDIA · AMD · 昇腾 · 海光 DCU · 摩尔线程 · 沐曦 · Apple
自带 MCP server
自己测速优化
局域网多机 手动

易用和性能,AIMA 不用二选一。更关键的是:「这台机器怎么跑最快」由 agent 自己积累、写进知识库 —— 不在某个工程师脑子里,换个人接手也不用从头摸一遍。

让 agent 一直在调优 —— 越用越快

AIMA 里有个 agent(代号 Explorer),一直循环这四步:想下一组测什么 → 部署一套配置 → 测吞吐和首字延迟(TTFT)→ 把跑得最快的那套记进知识库。换了片新芯片?它自己跑一遍调优。知识库越厚,下次部署就越快、越准、越省。

01

规划

定下一组要测什么:模型、量化、并行度

02

部署

按选好的配置把引擎和模型跑起来

03

测速

采吞吐和首字延迟,跟其他配置比

04

记下来

跑得最快的配置进知识库,下次直接用

↻ 循环 — 回到 ①

在真机上跑过,不是只在 PPT 上写过

不管哪家的卡,都在真机上跑过 benchmark;纯 CPU 也能跑。

NVIDIA AMD 华为昇腾 海光 DCU 摩尔线程 沐曦 Apple Silicon CPU-only

完整跑分数据在 Benchmarks 页。

看跑分数据 →

自带 MCP server

AIMA 本身就是个 MCP server。把任何会说 MCP 的程序指向它的端口,就拿到完整操作面:查硬件、扫模型、选引擎、部署、跑 benchmark、发现集群、同步知识库 —— 不用你写 REST 包装层,也不用等什么官方 SDK。

已经在生产里给 OpenClaw 当推理后端 —— 大语言模型、语音识别、语音合成、图像生成、视觉模型全覆盖。别的会说 MCP 的程序,接法一样。

指向 AIMA 的 HTTP 端点 —— 集成就这么多

mcp 配置
{
  "mcpServers": {
    "aima": { "type": "http", "url": "http://<aima-host>:6188/mcp" }
  }
}
灵机云 · 开箱即用 · 含 10 次免费服务

设备多了管不过来?交给云端的 AI 运维 agent

把设备连上灵机云,它远程帮你装、修、升级 —— 装 Dify、ComfyUI、Open WebUI、OpenClaw 这些开源 AI 工具,也是它干。命令里内置了邀请码,开箱即用,先送你 10 次免费服务。

快速开始

一条指令装好,剩下的交给 agent。

1

先装上二进制

一条指令装好 AIMA。

# macOS / Linux
终端 · AIMA
curl -fsSL https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.sh | sh
# Windows(PowerShell)
PowerShell
irm https://raw.githubusercontent.com/Approaching-AI/AIMA/master/install.ps1 | iex

也可以从 Releases 下预编译好的二进制,或自己 git clone 编译 Releases →

2

看它认出了什么硬件

打印检测到的 GPU/NPU、驱动、内存,再跑一遍首次自检 —— 只看不动,不会装服务、不会部署模型。

终端 · AIMA
# 看它认出了什么
aima hal detect
# 跑首次自检(只看不动)
aima onboarding
3

跑个模型,把接口开起来

它会解析模型、按这台机器挑引擎和配置、把缺的资产拉下来、部署好,再开 OpenAI 兼容接口。

终端 · AIMA
# 解析模型、挑引擎、拉资产、部署、就绪
aima run qwen3-4b
# 在当前终端开着 OpenAI 兼容接口和 Web UI(http://localhost:6188) (http://localhost:6188)
aima serve

Linux 服务器要给别的机器用?sudo aima init → aima deploy qwen3-4b → aima serve