快速参考
-
维护者:
Apache Spark -
获取帮助的途径:
Apache Spark™ 社区
支持的标签和相应的 Dockerfile 链接
-
4.0.0-preview1-scala2.13-java17-python3-ubuntu,4.0.0-preview1-python3,4.0.0-preview1 -
4.0.0-preview1-scala2.13-java17-ubuntu,4.0.0-preview1-scala -
3.5.2-scala2.12-java17-python3-ubuntu,3.5.2-java17-python3,3.5.2-java17,python3-java17 -
3.5.2-scala2.12-java11-python3-ubuntu,3.5.2-python3,3.5.2,python3,latest
快速参考(续)
-
已发布的映像工件详细信息:
repo-info repo 的repos/spark/目录(历史记录)
(图像元数据、传输大小等) -
图像更新:
官方镜像仓库的library/spark标签
官方镜像仓库的library/spark文件(历史记录) -
来源:此描述的来源:
docs 存储库的spark/目录(历史记录)
什么是 Apache Spark™?
Apache Spark™ 是一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。它在 Scala、Java、Python 和 R 中提供高级 API,以及支持数据分析通用计算图的优化引擎。它还支持丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 pandas 工作负载的 Spark 上的 pandas API、用于机器学习的 MLlib、用于图形处理的 GraphX 以及用于流处理的 Structured Streaming。

在线文档
您可以在项目网页上找到最新的 Spark 文档,包括编程指南。此自述文件仅包含基本的设置说明。
交互式 Scala 外壳
开始使用 Spark 的最简单方法是通过 Scala shell:
docker run -it spark /opt/spark/bin/spark-shell
尝试以下命令,它应该返回 1,000,000,000:
scala> spark.range(1000 * 1000 * 1000).count()
交互式 Python 外壳
开始使用 PySpark 的最简单方法是通过 Python 外壳:
docker run -it spark:python3 /opt/spark/bin/pyspark
并运行以下命令,该命令也应返回 1,000,000,000:
>>> spark.range(1000 * 1000 * 1000).count()
交互式 R 外壳
在 Spark 上开始使用 R 的最简单方法是通过 R 外壳:
docker run -it spark:r /opt/spark/bin/sparkR
在 Kubernetes 上运行 Spark
https://spark.apache.org/docs/latest/running-on-kubernetes.html
配置和环境变量
查看更多信息,请访问 https://github.com/apache/spark-docker/blob/master/OVERVIEW.md#environment-variable
许可证
Apache Spark、Spark、Apache、Apache 羽毛标志和 Apache Spark 项目标志是 Apache 软件基金会的商标。
根据 Apache 许可证 2.0 版获得许可。
与所有 Docker 镜像一样,这些镜像可能还包含其他软件,这些软件可能受其他许可证的约束(例如来自基础发行版的 Bash 等,以及所包含的主要软件的任何直接或间接依赖项)。
一些能够自动检测到的额外许可证信息可能会在 repo-info 存储库的 spark/ 目录中找到。
对于任何预构建的映像使用,映像用户有责任确保对此映像的任何使用都符合其中包含的所有软件的任何相关许可证。