apache/beam_flink1.8_job_server Docker Image Overview

apache/beam_flink1.8_job_server

Apache Beam是一个统一的批处理和流处理数据并行处理管道模型，提供多语言SDK（Java、Python、Go等）和多种分布式处理后端（Flink、Spark、Dataflow等）支持，用于构建和执行数据处理管道。

1 收藏0 次下载

Apache Beam

Apache Beam 是一个用于定义批处理和流处理数据并行处理管道的统一模型，同时提供一组特定语言的SDK用于构建管道，以及在分布式处理后端执行管道的运行器（Runner），包括Apache Apex、Apache Flink、Apache Spark、Google Cloud Dataflow 和 Hazelcast Jet。

概述

Beam提供了一种通用方法来表达易并行化的数据处理管道，并支持三类用户，每类用户具有不同的背景和需求：

终端用户：使用现有SDK编写管道，并在现有运行器上运行。这些用户希望专注于编写应用逻辑，其他一切都能正常工作。
SDK开发者：为特定用户群体开发Beam SDK（Java、Python、Scala、Go、R、图形界面等）。这些用户是语言专家，希望避免接触各种运行器及其实现的细节。
运行器开发者：拥有分布式处理执行环境，并希望支持基于Beam模型编写的程序。希望避免接触多个SDK的细节。

Beam模型

Beam背后的模型源于Google的多个内部数据处理项目，包括MapReduce、FlumeJava 和 Millwheel。该模型最初被称为“Dataflow模型”。

要了解更多关于Beam模型（仍使用原名称Dataflow）的信息，请参阅O'Reilly的Radar网站上的“批处理之外的世界”：Streaming 101 和 Streaming 102，以及 VLDB 2015论文。

Beam编程模型中的关键概念包括：

PCollection：表示数据集合，大小可以是有界的或无界的。
PTransform：表示将输入PCollection转换为输出PCollection的计算。
Pipeline：管理准备执行的PTransforms和PCollections的有向无环图。
PipelineRunner：指定管道应在何处以及如何执行。

SDKs

Beam支持针对Beam模型编写管道的多种特定语言SDK。

目前，该仓库包含Java、Python和Go的SDK。

有关新SDK或DSL的想法？请参阅JIRA。

运行器（Runners）

Beam通过PipelineRunners支持在多个分布式处理后端上执行程序。目前，可用的PipelineRunners如下：

DirectRunner：在本地机器上运行管道。
ApexRunner：在Apache Hadoop YARN集群（或嵌入式模式）上运行管道。
DataflowRunner：将管道提交到Google Cloud Dataflow。
FlinkRunner：在Apache Flink集群上运行管道。代码从dataArtisans/flink-dataflow ***，现已成为Beam的一部分。
SparkRunner：在Apache Spark集群上运行管道。代码从cloudera/spark-dataflow ***，现已成为Beam的一部分。
JetRunner：在Hazelcast Jet集群上运行管道。代码从hazelcast/hazelcast-jet ***，现已成为Beam的一部分。

有关新运行器的想法？请参阅JIRA。