本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

beam_spark_job_server Docker 镜像下载 - 轩辕镜像

beam_spark_job_server 镜像详细信息和使用指南

beam_spark_job_server 镜像标签列表和版本信息

beam_spark_job_server 镜像拉取命令和加速下载

beam_spark_job_server 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

beam_spark_job_server
apache/beam_spark_job_server

beam_spark_job_server 镜像详细信息

beam_spark_job_server 镜像标签列表

beam_spark_job_server 镜像使用说明

beam_spark_job_server 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

Apache Beam是一个统一的批处理和流处理数据并行处理管道模型,提供多语言SDK用于构建管道,并支持在多种分布式处理后端(如Spark、Flink等)执行,满足终端用户、SDK开发者和Runner开发者的不同需求。
3 收藏0 次下载activeapache镜像

beam_spark_job_server 镜像详细说明

beam_spark_job_server 使用指南

beam_spark_job_server 配置说明

beam_spark_job_server 官方文档

Apache Beam

Apache Beam 是一个用于定义批处理和流处理数据并行处理管道的统一模型,提供特定于语言的SDK用于构建管道,并支持通过Runner在多种分布式处理后端(包括Apache Apex、Apache Flink、Apache Spark、Google Cloud Dataflow 和 Hazelcast Jet)执行。

概述

Beam提供了一种通用方法来表达易并行化的数据处理管道,并支持三类背景和需求各异的用户:

  1. 终端用户:使用现有SDK编写管道并在现有Runner上运行。这类用户希望专注于应用逻辑,其他部分自动工作。
  2. SDK开发者:为特定用户群体(Java、Python、Scala、Go、R、图形化等)开发Beam SDK。这类用户是语言专家,希望无需关注各种Runner及其实现细节。
  3. Runner开发者:拥有分布式处理执行环境,希望支持基于Beam模型编写的程序,且希望无需关注多种SDK的细节。

Beam模型

Beam模型源于Google多个内部数据处理项目,包括MapReduce、FlumeJava 和 Millwheel,最初被称为“Dataflow模型”。

要深入了解Beam模型,可参考O'Reilly Radar的文章:Streaming 101、Streaming 102 以及 VLDB 2015论文。

Beam编程模型的关键概念包括:

  • PCollection:表示数据集,大小可为有界或无界。
  • PTransform:表示将输入PCollection转换为输出PCollection的计算。
  • Pipeline:管理待执行的PTransform和PCollection有向无环图。
  • PipelineRunner:指定管道的执行位置和方式。

SDKs

Beam支持通过多种特定于语言的SDK基于Beam模型编写管道。目前,仓库包含以下SDK:

  • Java SDK
  • Python SDK
  • Go SDK

有关新SDK或DSL的想法,可查看 JIRA。

Runners

Beam通过PipelineRunners支持在多种分布式处理后端执行程序,当前可用Runner包括:

  • DirectRunner:在本地机器运行管道。
  • ApexRunner:在Apache Hadoop YARN集群(或嵌入式模式)运行管道。
  • DataflowRunner:将管道提交到Google Cloud Dataflow。
  • FlinkRunner:在Apache Flink集群运行管道,代码源自dataArtisans/flink-dataflow,现已集成到Beam。
  • SparkRunner:在Apache Spark集群运行管道,代码源自cloudera/spark-dataflow,现已集成到Beam。
  • JetRunner:在Hazelcast Jet集群运行管道,代码源自hazelcast/hazelcast-jet,现已集成到Beam。

有关新Runner的想法,可查看 JIRA。

使用场景

Beam适用于以下三类用户场景:

  • 终端用户:使用现有SDK(如Java、Python)编写数据处理逻辑,选择合适Runner(如Spark、Flink)在分布式环境执行,无需关注底层细节。
  • SDK开发者:为特定语言或用户群体开发SDK,专注于语言特性,无需处理Runner实现细节。
  • Runner开发者:为现有分布式处理环境开发Runner,使Beam管道可在该环境执行,无需关注多种SDK细节。

快速入门

要学***编写Beam管道,可参考官网的快速入门指南:[Java、Python 或 Go]。

联系我们

参与Apache Beam社区:

  • 订阅 *** 邮件列表或发送邮件至 ***。
  • 订阅 *** 邮件列表或发送邮件至 ***。
  • 在 JIRA 报告问题。

构建和测试Beam的详细说明参见 贡献指南。

更多信息

  • Apache Beam官网
  • 概述
  • 快速入门:Java、Python、Go
  • 社区指标

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

oldzhang的头像

oldzhang

运维工程师

Linux服务器

5

"Docker加速体验非常流畅,大镜像也能快速完成下载。"