词元之母TOK.MOM - 平台充值汇率 1:1 即 1 人民币充值到账 1 美元,支持一个 Key 调用近 600+ 海内外模型,限时特价模型低至 1 折,欢迎上岸!

| 来源 | 内置(默认安装) |
| 路径 | skills/mlops/inference/llama-cpp |
| 版本 | 2.1.2 |
| 作者 | Orchestra Research |
| 许可证 | MIT |
| 依赖 | llama-cpp-python>=0.2.0 |
| 平台 | linux, macos, windows |
| 标签 | llama.cpp, GGUF, Quantization, Hugging Face Hub, CPU Inference, Apple Silicon, Edge Deployment, AMD GPUs, Intel GPUs, NVIDIA, URL-first |
llama-server 或 llama-cli 命令.gguf 文件及其大小hf、Python 或自定义脚本。https://huggingface.co/models?apps=llama.cpp&sort=trendingsearch=<term> 以搜索特定模型系列num_parameters=min:0,max:24B 或类似参数https://huggingface.co/<repo>?local-app=llama.cppllama-server 或 llama-cli 命令?local-app=llama.cpp URL 作为页面文本或 HTML 读取,并提取 Hardware compatibility 部分:UD-Q4_K_M 或 IQ4_NL_XLhttps://huggingface.co/api/models/<repo>/tree/main?recursive=truetype 为 file 且 path 以 .gguf 结尾的条目path 和 size 作为文件名和字节大小的权威来源mmproj-*.gguf 投影文件及 BF16/ 分片文件分开处理https://huggingface.co/<repo>/tree/main 作为人工备用方案llama-server -hf <repo>:<QUANT>llama-server --hf-repo <repo> --hf-file <filename.gguf>