modular/max-nvidia-base Docker Image Overview

modular/max-nvidia-base

轻量级MAX核心组件镜像，具备下载更快、依赖更少的特点，需配合NVIDIA驱动使用。

1 收藏0 次下载

🚀 稳定镜像源 = 更少宕机 + 更低运维成本

中文简介版本下载

🚀 稳定镜像源 = 更少宕机 + 更低运维成本

MAX 基础容器 (max-nvidia-base) 技术文档

镜像概述与主要用途

Modular Accelerated eXecution (MAX) 提供高性能、灵活的AI工作负载平台，利用现代GPU加速生成式AI性能，同时保持跨不同硬件配置和云提供商的可移植性。

max-nvidia-base 作为MAX基础容器，提供轻量级环境，专为AI模型部署优化，具备最小依赖特性。包含CUDA和PyTorch (CPU) 等核心组件，省略cuDNN等重型框架，适合需要精简解决方案、更快下载速度和更小资源占用的用户。需配合NVIDIA驱动使用。

核心功能与特性

轻量级设计：最小化依赖组件，减少镜像体积，加快下载速度
优化部署：专为AI模型部署场景优化，提供高效运行环境
核心组件集成：包含CUDA和PyTorch (CPU) 等必要运行时组件
NVIDIA GPU支持：需配合NVIDIA驱动，充分利用GPU加速能力
版本灵活性：提供稳定版和实验性nightly版标签，满足不同场景需求

使用场景与适用范围

快速部署AI模型，尤其是MAX优化的Hugging Face模型
对镜像下载速度和存储空间有严格要求的场景
需要精简AI部署环境的开发与生产环境
基于NVIDIA GPU的硬件配置，需利用GPU加速AI工作负载

使用方法与配置说明

快速启动命令

通过以下命令在GPU上运行LLM模型：

docker
docker run --gpus 1 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_HUB_ENABLE_HF_TRANSFER=1" \
    --env "HF_TOKEN=<secret>" \
    -p 8000:8000 \
    modular/max-nvidia-base:<version> \
    --model-path <model-provider/model-id>

参数说明：

--gpus 1：启用1个GPU设备
-v ~/.cache/huggingface:/root/.cache/huggingface：挂载Hugging Face缓存目录，避免重复下载
--env "HF_HUB_ENABLE_HF_TRANSFER=1"：启用HF Transfer加速模型下载
--env "HF_TOKEN=<secret>"：设置Hugging Face访问令牌（私有模型需提供）
-p 8000:8000：端口映射，将容器8000端口映射到主机8000端口
modular/max-nvidia-base:<version>：指定容器镜像及版本标签
--model-path <model-provider/model-id>：指定模型路径（Hugging Face模型ID）

环境变量配置

环境变量	说明
`HF_HUB_ENABLE_HF_TRANSFER`	设置为`1`启用HF Transfer加速模型下载
`HF_TOKEN`	Hugging Face访问令牌，私有模型访问需配置

MAX优化模型示例

可直接使用MAX优化模型的Hugging Face ID，例如：

docker
docker run --gpus 1 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_HUB_ENABLE_HF_TRANSFER=1" \
    --env "HF_TOKEN=<你的HF令牌>" \
    -p 8000:8000 \
    modular/max-nvidia-base:latest \
    --model-path modularai/Llama-3.1-8B-Instruct-GGUF