amd64/spark

Apache Spark是一个多语言引擎，用于在单节点或集群上执行数据工程、数据科学和机器学***任务，提供Scala、Java、Python和R的高级API支持。

0 次下载activeamd64镜像

🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

中文简介版本下载

🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

注意事项

这是spark镜像的amd64架构构建的"每架构"仓库 -- 更多信息，请参见镜像文档中的"除amd64之外的架构？"和***镜像FAQ中的"Git中的镜像源已更改，现在该怎么办？"。

快速参考

维护者

Apache Spark

获取帮助

Apache Spark™社区

支持的标签及对应的Dockerfile链接

4.0.0-scala2.13-java21-python3-ubuntu, 4.0.0-java21-python3, 4.0.0-java21, python3, latest
4.0.0-scala2.13-java21-r-ubuntu, 4.0.0-java21-r
4.0.0-scala2.13-java21-ubuntu, 4.0.0-java21-scala
4.0.0-scala2.13-java21-python3-r-ubuntu
4.0.0-scala2.13-java17-python3-ubuntu, 4.0.0-python3, 4.0.0, python3-java17
4.0.0-scala2.13-java17-r-ubuntu, 4.0.0-r, r
4.0.0-scala2.13-java17-ubuntu, 4.0.0-scala, scala
4.0.0-scala2.13-java17-python3-r-ubuntu
3.5.7-scala2.12-java17-python3-ubuntu, 3.5.7-java17-python3, 3.5.7-java17
3.5.7-scala2.12-java17-r-ubuntu, 3.5.7-java17-r
3.5.7-scala2.12-java17-ubuntu, 3.5.7-java17-scala
3.5.7-scala2.12-java17-python3-r-ubuntu
3.5.7-scala2.12-java11-python3-ubuntu, 3.5.7-python3, 3.5.7
3.5.7-scala2.12-java11-r-ubuntu, 3.5.7-r
3.5.7-scala2.12-java11-ubuntu, 3.5.7-scala
3.5.7-scala2.12-java11-python3-r-ubuntu

快速参考（续）

问题反馈地址

[***]

支持的架构

(更多信息) amd64, arm64v8

发布的镜像工件详情

repo-info仓库的repos/spark/目录 (历史记录)（镜像元数据、传输大小等）

镜像更新

official-images仓库的library/spark标签 official-images仓库的library/spark文件 (历史记录)

描述来源

docs仓库的spark/目录 (历史记录)

什么是Apache Spark™？

Apache Spark™是一个多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学***。它提供Scala、Java、Python和R的高级API，以及支持数据分析通用计算图的优化引擎。它还支持丰富的高级工具包括Spark SQL（用于SQL和DataFrames）、pandas API on Spark（用于pandas工作负载）、MLlib（用于机器学***）、GraphX（用于图处理）和Structured Streaming（用于流处理）。

!logo

在线文档

您可以在项目网页上找到最新的Spark文档，包括编程指南。本README仅包含基本设置说明。

交互式Scala Shell

开始使用Spark的最简单方法是通过Scala shell：

console
docker run -it amd64/spark /opt/spark/bin/spark-shell

尝试以下命令，应返回1,000,000,000：

scala
scala> spark.range(1000 * 1000 * 1000).count()

交互式Python Shell

开始使用PySpark的最简单方法是通过Python shell：

console
docker run -it amd64/spark:python3 /opt/spark/bin/pyspark

运行以下命令，也应返回1,000,000,000：

python
>>> spark.range(1000 * 1000 * 1000).count()

交互式R Shell

开始在Spark上使用R的最简单方法是通过R shell：

console
docker run -it amd64/spark:r /opt/spark/bin/sparkR

Docker部署方案示例

单节点模式

console
docker run -d -p 8080:8080 --name spark-standalone amd64/spark /opt/spark/bin/spark-class org.apache.spark.deploy.master.Master

集群模式（Docker Compose）

yaml
version: '3'
services:
  spark-master:
    image: amd64/spark
    command: bin/spark-class org.apache.spark.deploy.master.Master
    ports:
      - "7077:7077"
      - "8080:8080"
    environment:
      - SPARK_MASTER_HOST=spark-master
      - SPARK_MASTER_PORT=7077

  spark-worker:
    image: amd64/spark
    command: bin/spark-class org.apache.spark.deploy.worker.Worker spark://spark-master:7077
    depends_on:
      - spark-master
    environment:
      - SPARK_WORKER_CORES=2
      - SPARK_WORKER_MEMORY=2g
    deploy:
      replicas: 2

启动集群：docker-compose up -d

在Kubernetes上运行Spark

[***]

配置和环境变量

详见[***]

许可证

Apache Spark、Spark、Apache、Apache feather徽标和Apache Spark项目徽标是Apache软件基金会的商标。根据Apache许可证2.0版授权。与所有Docker镜像一样，这些镜像可能包含其他受其他许可证约束的软件（如基础发行版的Bash等及主要软件的依赖项）。部分自动检测的许可证信息可在repo-info仓库的spark/目录中找到。镜像用户有责任确保对镜像的使用符合其中所有软件的相关许可证。

查看更多 spark 相关镜像 →