词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!

| 后端 | 安装方式 | 优势 | 格式 |
|---|---|---|---|
| llama.cpp | brew install llama.cpp | 首 token 延迟最低,量化 KV 缓存节省内存 | GGUF |
| omlx | omlx.ai | token 生成速度最快,原生 Metal 优化 | MLX (safetensors) |
/v1/chat/completions 端点。Hermes 支持任意一个——只需将其指向 http://localhost:8080 或 http://localhost:8000。| 变体 | 磁盘占用 | 所需内存(128K 上下文) | 后端 |
|---|---|---|---|
| Qwen3.5-9B-Q4_K_M (GGUF) | 5.3 GB | ~10 GB(含量化 KV 缓存) | llama.cpp |
| Qwen3.5-9B-mlx-lm-mxfp4 (MLX) | ~5 GB | ~12 GB | omlx |
llama-server 命令。huggingface-cli 从 Hugging Face 下载:huggingface-cli login。| 参数 | 用途 |
|---|---|
-ngl 99 | 将所有层卸载到 GPU(Metal)。设置较大的数值以确保没有层留在 CPU 上。 |
-c 131072 | 上下文窗口大小(128K token)。内存不足时可减小此值。 |
-np 1 | 并行槽数量。单用户使用时保持为 1——更多槽会分摊内存预算。 |
-fa on | Flash attention。减少内存占用并加速长上下文推理。 |
--cache-type-k q4_0 | 将 key 缓存量化为 4-bit。这是最大的内存节省手段。 |
--cache-type-v q4_0 | 将 value 缓存量化为 4-bit。与上一项合用,相比 f16 可将 KV 缓存内存减少约 75%。 |
--host 0.0.0.0 | 监听所有网络接口。若不需要网络访问,可改为 127.0.0.1。 |
main: server is listening on http://0.0.0.0:8080
srv update_slots: all slots are idle--cache-type-k q4_0 --cache-type-v q4_0 参数是内存有限系统最重要的优化手段。以下是 128K 上下文下的影响对比:| KV 缓存类型 | KV 缓存内存(128K 上下文,9B 模型) |
|---|---|
| f16(默认) | ~16 GB |
| q8_0 | ~8 GB |
| q4_0 | ~4 GB |
q4_0 KV 缓存并将上下文缩减为 -c 32768(32K)。在 16 GB 上,可以轻松使用 128K 上下文。在 32 GB+ 上,可以运行更大的模型或多个并行槽。-c),然后尝试更小的量化级别(Q3_K_M 代替 Q4_K_M)。