apache/beam_spark_job_server Docker Image Overview

apache/beam_spark_job_server

Apache Beam是一个统一的批处理和流处理数据并行处理管道模型，提供多语言SDK用于构建管道，并支持在多种分布式处理后端（如Spark、Flink等）执行，满足终端用户、SDK开发者和Runner开发者的不同需求。

3 收藏0 次下载

Apache Beam

Apache Beam 是一个用于定义批处理和流处理数据并行处理管道的统一模型，提供特定于语言的SDK用于构建管道，并支持通过Runner在多种分布式处理后端（包括Apache Apex、Apache Flink、Apache Spark、Google Cloud Dataflow 和 Hazelcast Jet）执行。

概述

Beam提供了一种通用方法来表达易并行化的数据处理管道，并支持三类背景和需求各异的用户：

终端用户：使用现有SDK编写管道并在现有Runner上运行。这类用户希望专注于应用逻辑，其他部分自动工作。
SDK开发者：为特定用户群体（Java、Python、Scala、Go、R、图形化等）开发Beam SDK。这类用户是语言专家，希望无需关注各种Runner及其实现细节。
Runner开发者：拥有分布式处理执行环境，希望支持基于Beam模型编写的程序，且希望无需关注多种SDK的细节。

Beam模型

Beam模型源于Google多个内部数据处理项目，包括MapReduce、FlumeJava 和 Millwheel，最初被称为“Dataflow模型”。

要深入了解Beam模型，可参考O'Reilly Radar的文章：Streaming 101、Streaming 102 以及 VLDB 2015论文。

Beam编程模型的关键概念包括：

PCollection：表示数据集，大小可为有界或无界。
PTransform：表示将输入PCollection转换为输出PCollection的计算。
Pipeline：管理待执行的PTransform和PCollection有向无环图。
PipelineRunner：指定管道的执行位置和方式。

SDKs

Beam支持通过多种特定于语言的SDK基于Beam模型编写管道。目前，仓库包含以下SDK：

Java SDK
Python SDK
Go SDK

有关新SDK或DSL的想法，可查看 JIRA。

Runners

Beam通过PipelineRunners支持在多种分布式处理后端执行程序，当前可用Runner包括：

DirectRunner：在本地机器运行管道。
ApexRunner：在Apache Hadoop YARN集群（或嵌入式模式）运行管道。
DataflowRunner：将管道提交到Google Cloud Dataflow。
FlinkRunner：在Apache Flink集群运行管道，代码源自dataArtisans/flink-dataflow，现已集成到Beam。
SparkRunner：在Apache Spark集群运行管道，代码源自cloudera/spark-dataflow，现已集成到Beam。
JetRunner：在Hazelcast Jet集群运行管道，代码源自hazelcast/hazelcast-jet，现已集成到Beam。

有关新Runner的想法，可查看 JIRA。

使用场景

Beam适用于以下三类用户场景：

终端用户：使用现有SDK（如Java、Python）编写数据处理逻辑，选择合适Runner（如Spark、Flink）在分布式环境执行，无需关注底层细节。
SDK开发者：为特定语言或用户群体开发SDK，专注于语言特性，无需处理Runner实现细节。
Runner开发者：为现有分布式处理环境开发Runner，使Beam管道可在该环境执行，无需关注多种SDK细节。