dustynv/nano_llm Docker Image Overview

dustynv/nano_llm

用于在NVIDIA Jetson边缘设备上部署和运行大语言模型的Docker镜像，针对嵌入式硬件优化，支持本地高效推理。

0 次下载

🚀专业版镜像服务，面向生产环境设计

中文简介版本下载

🚀专业版镜像服务，面向生产环境设计

nano_llm Docker镜像文档

1. 镜像概述和主要用途

nano_llm是基于NanoLLM库构建的Docker镜像，专为Jetson边缘设备优化。NanoLLM是一个轻量级、高性能的库，核心用途包括：

大语言模型（LLM）的高效推理部署
多模态智能体（结合视觉、音频等感知能力）的构建与运行
在资源受限的边缘环境中实现低延迟AI交互

官方资源：

代码仓库：github.com/dusty-nv/NanoLLM
官方文档：dusty-nv.github.io/NanoLLM
教程案例：Jetson AI Lab的Live Llava、NanoVLM、SLM

2. 核心功能和特性

2.1 性能优化

针对Jetson硬件架构深度优化，支持GPU加速推理
集成TensorRT、ONNX Runtime等推理框架，实现低延迟模型部署
支持模型量化与压缩，适配边缘设备有限内存资源

2.2 多模态支持

融合视觉（通过OpenCV、torchvision）、音频（通过RIVA Client）处理能力
支持视觉语言模型（VLM）如LLaVA、NanoVLM的端到端部署
集成jetson-inference实现实时图像/视频分析

2.3 技术栈集成

深度学习框架：PyTorch 2.2、CUDA 11.4、cuDNN
推理加速：TensorRT、torch2trt、MLC
向量数据库：FAISS、NanoDB（支持知识库检索增强生成，RAG）
Hugging Face生态：transformers、huggingface_hub（模型下载与管理）

3. 使用场景和适用范围

3.1 适用设备

Jetson系列边缘计算设备（需L4T系统版本≥35，对应JetPack 5.1+）
架构支持：ARM64

3.2 典型场景

边缘LLM部署：在Jetson设备上运行小语言模型（SLM），实现本地智能交互
实时多模态交互：如Live Llava教程所示，结合摄像头输入实现视觉问答
边缘智能体：构建具备语言理解、视觉感知、知识库检索能力的边缘AI系统
低延迟推理服务：为工业检测、机器人、智能终端提供本地化AI推理支持

4. 容器镜像信息

仓库/标签	发布日期	架构	大小
`dustynv/nano_llm:24.4-r35.4.1`	2024-04-15	arm64	8.5GB
`dustynv/nano_llm:24.4-r36.2.0`	2024-04-15	arm64	9.7GB
`dustynv/nano_llm:r35.4.1`	2024-04-15	arm64	8.5GB
`dustynv/nano_llm:r36.2.0`	2024-04-15	arm64	9.7GB

兼容性说明：容器镜像兼容同主版本的JetPack/L4T系统：

L4T R35.x容器可运行于其他L4T R35.x版本（JetPack 5.1+）

L4T R36.x容器可运行于其他L4T R36.x版本

5. 核心依赖项

镜像内置以下关键依赖组件，确保开箱即用的推理能力：

5.1 基础构建工具

build-essential、cmake、python、rust

5.2 GPU加速与计算

CUDA 11.4、cuDNN、cuda-python、TensorRT

5.3 深度学习框架

PyTorch 2.2、torchvision、torchaudio、torch2trt

5.4 推理与模型支持

ONNX、ONNX Runtime、MLC、transformers

5.5 多模态与数据处理

OpenCV、gstreamer、jetson-inference、numpy

5.6 向量数据库与检索

FAISS、FAISS Lite、NanoDB

5.7 音频与交互

RIVA Client (Python)、huggingface_hub

6. 使用方法和配置说明

6.1 运行容器

6.1.1 使用jetson-containers（推荐）

jetson-containers工具提供自动化镜像管理（自动拉取/构建兼容版本），简化部署流程：

bash
# 自动选择与当前JetPack兼容的镜像（推荐）
jetson-containers run $(autotag nano_llm)

# 显式指定镜像版本（例如适用于L4T R36.2.0）
jetson-containers run dustynv/nano_llm:24.4-r36.2.0

说明：jetson-containers run会自动添加默认配置（如--runtime nvidia、挂载/data缓存目录、设备检测），并将参数转发给docker run。

6.1.2 使用docker run命令

手动构建docker run命令，需确保包含GPU运行时与网络配置：

bash
sudo docker run --runtime nvidia -it --rm --network=host \
  dustynv/nano_llm:24.4-r36.2.0

--runtime nvidia：启用NVIDIA容器运行时，支持GPU加速
-it：交互式终端，便于调试与命令行操作
--rm：容器退出后自动删除
--network=host：使用主机网络，便于访问本地服务（如摄像头、模型服务器）

6.1.3 挂载数据卷

通过-v参数挂载主机目录，实现模型、数据或代码的持久化与共享：

bash
# 将主机的模型目录挂载到容器内/data/models
jetson-containers run -v /host/path/to/models:/data/models $(autotag nano_llm)

6.1.4 运行指定命令

启动容器时直接执行命令（而非进入交互式shell）：

bash
# 示例：运行NanoLLM的模型转换工具
jetson-containers run $(autotag nano_llm) \
  python -m nano_llm.convert --model TinyLlama/TinyLlama-1.1B-Chat-v1.0 --quantize int4