polyaxon/polyaxon-api Docker Image Overview

polyaxon/polyaxon-api

一个在Kubernetes上实现可复现和可扩展的机器学习与深度学习平台，支持高效管理ML/DL工作流，保障任务在集群环境中的一致性与弹性扩展。

0 次下载

镜像概述

该镜像是专为在Kubernetes（K8s）环境中运行机器学习（ML）和深度学习（DL）任务设计的平台，核心目标是解决ML/DL工作流中的可复现性与扩展性挑战。通过整合容器化技术与K8s编排能力，提供从模型开发、训练到部署的全流程支持，确保任务在不同环境中保持一致性，同时支持基于集群资源的弹性扩展。

核心功能与特性

1. 可复现性保障

环境一致性：通过容器化封装ML/DL依赖（如框架版本、库文件、系统配置），确保训练/推理环境在开发、测试、生产阶段完全一致，消除"本地可运行，集群不可运行"的问题。
实验可追溯：集成元数据管理功能，自动记录实验参数、数据集版本、模型结果，支持实验回溯与对比。

2. 弹性扩展能力

K8s原生集成：深度适配Kubernetes API，支持通过Deployment、StatefulSet等资源对象管理ML/DL任务，利用K8s的调度策略实现资源高效利用。
动态资源分配：根据任务需求（如GPU/CPU资源、内存）自动调整集群资源分配，支持多节点分布式训练与推理。

3. ML/DL工作流支持

多框架兼容：原生支持主流ML/DL框架（TensorFlow、PyTorch、Scikit-learn等），无需额外配置即可运行对应任务。
工作流自动化：提供任务编排能力，支持数据预处理、模型训练、评估、部署等流程的自动化执行与监控。

4. 协作与管理

版本控制集成：支持与Git等版本控制系统联动，管理代码、配置文件及模型版本。
权限与资源隔离：基于K8s RBAC实现多用户/团队资源隔离，保障任务安全与资源可控。

使用场景与适用范围

企业级ML项目开发与部署：适用于需要跨团队协作、多环境一致运行的企业级机器学习项目，简化从研发到生产的流程。
研究团队实验协作：支持研究团队共享实验环境、追溯实验过程，提升协作效率与结果可靠性。
大规模模型训练与推理：依托K8s集群资源，支持千亿级参数模型的分布式训练及高并发推理服务部署。
教育与培训场景：提供标准化ML/DL环境，便于教学演示与学员实践，降低环境配置门槛。

使用方法与配置说明

1. 基础部署（Docker Run）

通过以下命令在Kubernetes节点上快速启动平台实例（需提前配置K8s集群访问权限）：

bash
docker run -d \
  --name ml-platform \
  --network host \
  -v /path/to/local/data:/data \
  -v $HOME/.kube/config:/root/.kube/config \  # 挂载K8s配置文件，实现集群访问
  -e PLATFORM_MODE=train \  # 运行模式：train（训练）/infer（推理）
  -e GPU_ENABLED=true \     # 是否启用GPU支持
  [镜像名称]:[标签]

2. 环境变量配置

环境变量	说明	默认值	可选值
`PLATFORM_MODE`	平台运行模式	`train`	`train`/`infer`
`GPU_ENABLED`	是否启用GPU支持	`false`	`true`/`false`
`K8S_NAMESPACE`	指定K8s命名空间	`default`	自定义命名空间名称
`LOG_LEVEL`	日志级别	`info`	`debug`/`info`/`warn`
`DATA_MOUNT_PATH`	数据卷挂载路径	`/data`	自定义路径

3. Docker Compose示例（本地测试）

如需在本地模拟K8s环境进行测试，可使用Docker Compose编排平台与依赖组件（如MinIO存储、MLflow实验追踪）：

yaml
version: '3'
services:
  ml-platform:
    image: [镜像名称]:[标签]
    container_name: ml-platform
    volumes:
      - /path/to/local/data:/data
      - $HOME/.kube/config:/root/.kube/config
    environment:
      - PLATFORM_MODE=train
      - GPU_ENABLED=false
      - K8S_NAMESPACE=ml-test
    ports:
      - "8080:8080"  # 平台Web UI端口
    depends_on:
      - minio
      - mlflow

  minio:  # 用于存储数据集与模型
    image: minio/minio:latest
    command: server /data --console-address ":9001"
    volumes:
      - minio-data:/data
    ports:
      - "9000:9000"
      - "9001:9001"

  mlflow:  # 用于实验追踪
    image: mlflow/mlflow:latest
    command: server --host 0.0.0.0 --port 5000
    volumes:
      - mlflow-data:/mlflow
    ports:
      - "5000:5000"

volumes:
  minio-data:
  mlflow-data:

4. Kubernetes部署（推荐生产环境）

在生产环境中，建议通过Kubernetes Deployment资源部署，示例配置如下：

yaml
apiVersion: apps/v1
kind: Deployment
metadata:
  name: ml-platform
  namespace: ml-projects
spec:
  replicas: 3  # 根据任务规模调整副本数
  selector:
    matchLabels:
      app: ml-platform
  template:
    metadata:
      labels:
        app: ml-platform
    spec:
      containers:
      - name: ml-platform
        image: [镜像名称]:[标签]
        resources:
          limits:
            nvidia.com/gpu: 1  # 如需GPU，指定GPU数量
            cpu: "4"
            memory: "16Gi"
          requests:
            cpu: "2"
            memory: "8Gi"
        volumeMounts:
        - name: kube-config
          mountPath: /root/.kube/config
          subPath: config
        - name: data-volume
          mountPath: /data
        env:
        - name: PLATFORM_MODE
          value: "train"
        - name: K8S_NAMESPACE
          value: "ml-projects"
      volumes:
      - name: kube-config
        secret:
          secretName: kubeconfig-secret  # 提前创建包含K8s配置的Secret
      - name: data-volume
        persistentVolumeClaim:
          claimName: ml-data-pvc  # 绑定数据存储PVC