S-JIS[2017-01-14/2017-01-22] 変更履歴

Spark開発環境

Apache Sparkの開発環境の構築方法のメモ。


概要

Eclipseを使ってSparkアプリケーションを開発する場合、Scala IDEを使用する。
Eclipseプロジェクト自体はGradleで作るのが楽そう。


Gradleを使ったEclipseプロジェクトの作成

Gradleを使ってEclipseプロジェクトを作成する例。

  1. Eclipseのワークスペースにプロジェクト用のディレクトリーを作る。
    (例: D:\workspace\spark-example
  2. build.gradleファイルを作成する。
    apply plugin: 'scala'
    apply plugin: 'eclipse'
    
    group = 'com.example.spark'
    version = '0.1-SNAPSHOT'
    
    repositories{
      mavenCentral()
    }
    
    dependencies {
      compile "org.scala-lang:scala-library:2.11.8"
      compile "org.apache.spark:spark-core_2.11:2.1.0"
      compile "org.apache.spark:spark-sql_2.11:2.1.0"
    }
    
    task wrapper(type: Wrapper) {
      gradleVersion '3.1'
      jarFile file('.buildtools/gradlew.jar')
    }
    
  3. Gradleラッパーを作成する。
    > cd /d D:\workspace\spark-example
    > gradle wrapper
  4. Eclipseプロジェクトを作成する。
    (jarファイルが大量にダウンロードされるので、時間がかかる)
    > mkdir src\main\scala
    > gradlew cleanEclipse eclipse
  5. 出来上がったEclipseプロジェクトをEclipseにインポートする。

jarファイルの作成

Sparkアプリケーションを実行するには、spark-submitコマンドにアプリケーションのjarファイルを指定する。[2017-01-22]

GradleでSparkのプロジェクトを作っていれば、Gradleのコマンドでjarファイルを作成することが出来る。(初回は色々ダウンロードするので遅い)

> cd /d D:\workspace\spark-example
> gradlew jar

> dir build\libs
〜
2017/01/22  09:34           108,347 spark-example-0.1-SNAPSHOT.jar

jarファイルのファイル名を設定する方法
マニフェストを設定する方法(Main-Classで実行するクラス名を指定すれば、spark-submitに--classを付けなくてもよくなる)


Spark目次へ戻る / Scalaへ戻る / 技術メモへ戻る
メールの送信先:ひしだま