Skip to content

快速参考

支持的标签和相应的 Dockerfile 链接

快速参考(续)

什么是 Apache Spark™?

Apache Spark™ 是一个多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。它在 Scala、Java、Python 和 R 中提供高级 API,以及支持数据分析通用计算图的优化引擎。它还支持丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 pandas 工作负载的 Spark 上的 pandas API、用于机器学习的 MLlib、用于图形处理的 GraphX 以及用于流处理的 Structured Streaming。

logo

在线文档

您可以在项目网页上找到最新的 Spark 文档,包括编程指南。此自述文件仅包含基本的设置说明。

交互式 Scala 外壳

开始使用 Spark 的最简单方法是通过 Scala shell:

docker run -it spark /opt/spark/bin/spark-shell

尝试以下命令,它应该返回 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()

交互式 Python 外壳

开始使用 PySpark 的最简单方法是通过 Python 外壳:

docker run -it spark:python3 /opt/spark/bin/pyspark

并运行以下命令,该命令也应返回 1,000,000,000:

>>> spark.range(1000 * 1000 * 1000).count()

交互式 R 外壳

在 Spark 上开始使用 R 的最简单方法是通过 R 外壳:

docker run -it spark:r /opt/spark/bin/sparkR

在 Kubernetes 上运行 Spark

https://spark.apache.org/docs/latest/running-on-kubernetes.html

配置和环境变量

查看更多信息,请访问 https://github.com/apache/spark-docker/blob/master/OVERVIEW.md#environment-variable

许可证

Apache Spark、Spark、Apache、Apache 羽毛标志和 Apache Spark 项目标志是 Apache 软件基金会的商标。

根据 Apache 许可证 2.0 版获得许可。

与所有 Docker 镜像一样,这些镜像可能还包含其他软件,这些软件可能受其他许可证的约束(例如来自基础发行版的 Bash 等,以及所包含的主要软件的任何直接或间接依赖项)。

一些能够自动检测到的额外许可证信息可能会在 repo-info 存储库的 spark/ 目录中找到。

对于任何预构建的映像使用,映像用户有责任确保对此映像的任何使用都符合其中包含的所有软件的任何相关许可证。