modular/max-nvidia-full Docker Image Overview

modular/max-nvidia-full

包含CUDA、PyTorch、cuDNN的完整MAX栈，适用于生产就绪的NVIDIA生成式AI部署。

3 收藏0 次下载

📦 一套镜像服务，解决研发 / 测试 / 生产三套环境

中文简介版本下载

📦 一套镜像服务，解决研发 / 测试 / 生产三套环境

MAX 完整容器 (max-nvidia-full)

镜像概述和主要用途

Modular Accelerated eXecution (MAX) 提供了一个高性能、灵活的AI工作负载平台，利用现代GPU提供加速的生成式AI性能，同时保持在不同硬件配置和云提供商之间的可移植性。

max-nvidia-full 容器包含在GPU上高效运行大型AI模型所需的所有依赖项。它提供了一个完整的环境，支持PyTorch (GPU)、CUDA和cuDNN，确保深度学习工作负载的最佳性能。该容器非常适合需要完全优化、开箱即用的AI模型部署解决方案的用户。

MAX容器兼容OpenAI API规范，并针对GPU部署进行了优化。有关容器内容和实例兼容性的更多信息，请参阅MAX文档中的MAX容器部分。

核心功能和特性

完整的MAX堆栈，包含CUDA、PyTorch和cuDNN
针对GPU优化的AI模型执行环境
兼容OpenAI API规范
支持Hugging Face模型生态系统
内置HF_HUB传输加速
生产级别的稳定性和性能优化
支持多种大型语言模型(LLM)部署

使用场景和适用范围

高性能GPU上的大型语言模型部署
需要兼容OpenAI API的AI服务构建
快速原型验证和生产环境部署
Hugging Face模型的高效运行
AI应用程序的开发和测试环境

详细使用方法和配置说明

快速启动

使用以下命令在GPU上运行LLM：

bash
docker run \
  --gpus 1 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HF_HUB_ENABLE_HF_TRANSFER=1" \
  --env "HF_TOKEN=<secret>" \
  -p 8000:8000 \
  modular/max-nvidia-full:<version> \
  --model-path <model-provider/model-id>

参数说明：

--gpus 1: 指定使用1个GPU设备
-v ~/.cache/huggingface:/root/.cache/huggingface: 挂载Hugging Face缓存目录，避免重复下载模型
--env "HF_HUB_ENABLE_HF_TRANSFER=1": 启用HF传输加速
--env "HF_TOKEN=<secret>": 设置Hugging Face访问令牌（用于私有模型）
-p 8000:8000: 将容器的8000端口映射到主机的8000端口
modular/max-nvidia-full:<version>: 指定MAX容器镜像及版本
--model-path <model-provider/model-id>: 指定要加载的模型路径

使用示例：

运行MAX优化模型：

bash
docker run \
  --gpus 1 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HF_HUB_ENABLE_HF_TRANSFER=1" \
  --env "HF_TOKEN=your_token_here" \
  -p 8000:8000 \
  modular/max-nvidia-full:latest \
  --model-path modularai/Llama-3.1-8B-Instruct-GGUF

运行其他Hugging Face模型：

bash
docker run \
  --gpus 1 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  --env "HF_HUB_ENABLE_HF_TRANSFER=1" \
  -p 8000:8000 \
  modular/max-nvidia-full:latest \
  --model-path Qwen/Qwen2.5-1.5B-Instruct

有关使用MAX快速部署流行模型的更多信息，请参见MAX Builds。

Docker Compose配置示例

创建docker-compose.yml文件：

yaml
version: '3.8'

services:
  max-nvidia-full:
    image: modular/max-nvidia-full:latest
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    volumes:
      - ~/.cache/huggingface:/root/.cache/huggingface
    environment:
      - HF_HUB_ENABLE_HF_TRANSFER=1
      - HF_TOKEN=your_token_here
    ports:
      - "8000:8000"
    command: --model-path modularai/Llama-3.1-8B-Instruct-GGUF

使用以下命令启动服务：