在独立模式下运行 Spark,你可以使用 Spark 自带的 Standalone 模式,这是 Spark 提供的一个简单的集群管理器。以下是在 Standalone 模式下独立运行 Spark 应用程序的基本步骤:

1. 安装 Spark:
   - 下载 Spark 并解压缩到你的计算机上。

2. 配置 Spark:
   - 进入 Spark 的 conf 目录,复制 spark-env.sh.template 并将其重命名为 spark-env.sh。
   - 编辑 spark-env.sh 文件,设置 Spark 的环境变量,例如:
     export SPARK_MASTER_HOST=your-hostname
     export SPARK_MASTER_PORT=7077

3. 启动 Spark Master:
   - 在 Spark 的 sbin 目录中运行以下命令:
     ./start-master.sh
   - 访问 http://localhost:8080 查看 Spark Master 的 Web UI。

4. 启动 Spark Worker:
   - 在 Spark 的 sbin 目录中运行以下命令:
     ./start-worker.sh spark://your-hostname:7077
     替换 your-hostname 为你的计算机主机名。

5. 编写并打包 Spark 应用程序:
   - 编写你的 Spark 应用程序,并将其打包为 JAR 文件。

6. 提交 Spark 应用程序:
   - 在 Spark 的 bin 目录中运行 spark-submit 命令来提交你的应用程序:
     ./spark-submit --class your.package.YourAppClass \
                    --master spark://your-hostname:7077 \
                    your-app.jar
     替换 your.package.YourAppClass 为你的应用程序的主类,your-app.jar 为你打包的 JAR 文件。

7. 查看应用程序状态:
   - 你可以通过 Spark Master 的 Web UI 或者命令行来查看你的 Spark 应用程序的状态。

8. 停止 Spark Worker 和 Master:
   - 在 Spark 的 sbin 目录中运行以下命令来停止 Worker 和 Master:
     ./stop-worker.sh
     ./stop-master.sh

请注意,这是一个简单的示例,适用于本地模式。在生产环境中,你可能需要更详细的配置,并考虑使用其他集群管理器,例如 Apache Hadoop YARN 或 Apache Mesos。


转载请注明出处:http://www.zyzy.cn/article/detail/9377/Spark