本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

beam_python3.5_sdk Docker 镜像下载 - 轩辕镜像

beam_python3.5_sdk 镜像详细信息和使用指南

beam_python3.5_sdk 镜像标签列表和版本信息

beam_python3.5_sdk 镜像拉取命令和加速下载

beam_python3.5_sdk 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

beam_python3.5_sdk
apache/beam_python3.5_sdk

beam_python3.5_sdk 镜像详细信息

beam_python3.5_sdk 镜像标签列表

beam_python3.5_sdk 镜像使用说明

beam_python3.5_sdk 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

Apache Beam是一个统一的批处理和流处理数据并行处理管道模型,提供语言特定SDK(Java、Python、Go等)和多种运行器,支持在Apache Flink、Spark、Google Cloud Dataflow等分布式后端执行管道,简化数据处理应用开发。
0 次下载activeapache镜像

beam_python3.5_sdk 镜像详细说明

beam_python3.5_sdk 使用指南

beam_python3.5_sdk 配置说明

beam_python3.5_sdk 官方文档

Apache Beam 镜像文档

镜像概述和主要用途

Apache Beam是一个统一的数据处理模型,用于定义批处理和流处理数据并行处理管道,同时提供一套语言特定的SDK用于构建管道,以及在分布式处理后端(包括Apache Flink、Apache Spark、Google Cloud Dataflow和Hazelcast Jet等)执行管道的运行器(Runners)。该镜像封装了Apache Beam的核心功能,方便用户快速部署和运行数据处理管道。

核心功能和特性

统一数据处理模型

基于Google内部数据处理项目(MapReduce、FlumeJava、Millwheel等)演化而来,原称为"Dataflow Model",提供一致的编程范式处理批处理和流处理数据。

核心概念

  • PCollection:表示数据集合,大小可以是有界(批处理)或无界(流处理)。
  • PTransform:表示计算操作,将输入PCollection转换为输出PCollection。
  • Pipeline:管理PTransform和PCollection组成的有向无环图,准备执行。
  • PipelineRunner:指定管道的执行位置和方式。

多语言SDK支持

提供多种语言SDK用于构建管道,当前包含:

  • Java SDK
  • Python SDK
  • Go SDK

多运行器支持

支持在多种分布式处理后端执行管道,当前可用运行器:

  • DirectRunner:在本地机器运行管道
  • DataflowRunner:提交管道到Google Cloud Dataflow
  • FlinkRunner:在Apache Flink集群运行管道(代码源自dataArtisans/flink-dataflow)
  • SparkRunner:在Apache Spark集群运行管道(代码源自cloudera/spark-dataflow)
  • JetRunner:在Hazelcast Jet集群运行管道(代码源自hazelcast/hazelcast-jet)

使用场景和适用范围

目标用户

  1. 终端用户:使用现有SDK编写管道,在现有运行器上运行,专注于应用逻辑开发。
  2. SDK编写者:为特定用户群体开发Beam SDK(如Scala、R、图形化等),无需关注运行器细节。
  3. 运行器编写者:为分布式处理环境开发运行器,支持基于Beam模型编写的程序,无需关注多种SDK细节。

典型应用场景

  • 批处理数据ETL和转换
  • 实时流数据处理和分析
  • 跨平台数据处理管道开发(一次编写,多后端运行)
  • 大规模数据并行计算任务

详细的使用方法和配置说明

前提条件

  • 安装Docker环境
  • 本地或远程分布式集群(如Flink、Spark集群,根据使用的运行器确定)

Docker部署示例

1. 本地运行Python管道(使用DirectRunner)

假设本地有Python管道代码my_pipeline.py,通过容器运行:

bash
docker run -v $(pwd):/app apache/beam-python:3.5 \
  python /app/my_pipeline.py \
  --runner DirectRunner \
  --input /app/input.txt \
  --output /app/output.txt
  • -v $(pwd):/app:挂载当前目录到容器内/app目录,便于访问管道代码和数据
  • --runner DirectRunner:指定本地运行器
  • --input--output:管道的输入输出参数(根据实际管道定义调整)

2. 提交到Spark集群运行(使用SparkRunner)

需配置Spark集群地址,示例:

bash
docker run -v $(pwd):/app apache/beam-python:3.5 \
  python /app/my_pipeline.py \
  --runner SparkRunner \
  --spark-master spark://<spark-master-ip>:7077 \
  --input hdfs:///data/input.txt \
  --output hdfs:///data/output.txt
  • --spark-master:指定Spark集群master地址
  • 输入输出可使用HDFS路径(需确保容器可访问HDFS)

配置参数说明

管道运行时常用参数(根据运行器和SDK调整):

  • --runner:指定运行器(必填),可选值:DirectRunner、DataflowRunner、FlinkRunner、SparkRunner、JetRunner
  • --project:Google Cloud项目ID(使用DataflowRunner时必填)
  • --region:Google Cloud区域(使用DataflowRunner时必填)
  • --jobName:管道作业名称
  • --input:输入数据路径
  • --output:输出数据路径

快速入门

学***资源

  • Java快速入门
  • Python快速入门
  • Go快速入门

联系与支持

  • 用户邮件列表:,订阅:
  • 开发邮件列表:,订阅:
  • 问题反馈:Apache Beam JIRA

更多信息

  • Apache Beam***网站
  • Beam概述
  • 社区指标

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

oldzhang的头像

oldzhang

运维工程师

Linux服务器

5

"Docker加速体验非常流畅,大镜像也能快速完成下载。"