S-JIS[2011-07-24/2021-12-21] 変更履歴

Asakusa Frameworkメモ

Asakusa Frameworkは、複数マシンで分散処理するバッチアプリケーションを開発する為のフレームワーク。
実行基盤としてHadoopやSpark等を使用する。
（公開当初はウルシステムズ社が開発していたが、ノーチラス・テクノロジーズ社に移った）

概要 [/2017-12-03] 開発手順 [2015-07-04] 詳細な開発手順・構成 [2021-11-03] インストール [/2020-04-07] Jinrikisha [2012-02-07] Shafu [/2021-12-09] Gradle [/2020-04-07] AsakusaFWサンプル WordCount [/2016-07-31] 偏差値算出サンプル [/2012-12-19] FizzBuzzサンプル [2017-12-24] SQLからのコンバート [/2018-12-02] Asakusa DSL Batch DSL [/2017-06-10] Flow DSL [/2013-11-04] フローのテスト [/2018-09-26] Operator DSL [/2021-12-21] オペレーターのテスト [2017-12-10] DMDL [/2021-11-03] インポーター・エクスポーター [/2014-12-21] API ログ出力 [/2019-06-14] バッチ引数 [/2017-12-03] 外部ライブラリー [2013-07-27] 実行環境関連 Direct I/O [/2021-06-08] WindGate [/2016-12-14] スモールジョブ実行エンジン [/2017-04-30] Asakusa on Spark [/2021-06-08] Asakusa on M3BP [/2021-05-13] Asakusa Vanilla [/2017-12-08] 実行方法 YAESS [/2017-02-11] Asakusa CLI [/2017-12-04] フローの可視化 [/2017-12-02]	Asakusa Framework documentation Asakusa Framework チュートリアル GitHubのasakusafw・asakusafw wiki バッチ設計と実装ガイドリリース情報・リリースノート
	データモデルデータをHiveで読む [/2014-12-13] データをPigで読む [2011-08-15] テキストファイルを扱う [2015-12-05] シーケンスファイルを扱う [2012-07-11] バイナリーファイルを扱う [2012-07-10] データモデルドライバー [/2015-07-25] テストドライバー [2011-08-27] dmdlファイルの読み込み [2018-11-25] サンプル Oracleシーケンス [/2018-11-01]
	AsakusaFW本体のビルド [2014-12-23]
	AsakusaFWをScalaで記述してみる [/2011-09-16] DMDLエディターEclipseプラグイン Asakusa Toad Editor

Asakusa Frameworkの概要

AsakusaFWは、（複数のマシンで）分散して処理を行うバッチアプリケーションを開発する為のフレームワーク。[/2015-07-04]
AsakusaFWの独自言語（Asakusa DSL）で処理を記述し、コンパイルすることで、実行用のバイナリーを生成する。

AsakusaFWを使って開発する/開発したアプリケーションのことを「Asakusaアプリケーション」と呼ぶ。
AsakusaアプリケーションはAsakusaFW独自の言語（Asakusa DSL）で記述する。

ただ、独自言語と言っても、ベースはJava。つまり、Javaをホスト言語とする内部DSLである。

“独自言語”と言うよりはライブラリーと言ってもいいんじゃないかと思う。
（ライブラリーの使い方（どのクラスを使ってどのメソッドを呼び出せばいいか）を覚えるのと大差ない）

また、Javaのコンパイラーの機能を用いて独自のチェックをしたり（Eclipseを使っている場合、EclipseのJavaエディター上でエラーが表示される）、一部のクラスを自動生成したりする。

AsakusaFWは、実行基盤としてHadoopやApache SparkやM3BPを使用する。[/2016-04-12]
ソース（Asakusa DSL）をコンパイルすることで、それぞれの環境で実行する為のバイナリー（主にjarファイル）が生成される。（各環境向けにソース（Asakusa DSL）を修正する必要は無い）

Apache Hadoop
- DSLのコンパイルを行って、Hadoop環境向けにHadoopのMapReduceアプリケーションを生成できる。
  なお、Hadoopは大規模データを扱うものだが、AsakusaFWはそこまで大規模なデータは対象としていない。
  むしろ中規模なデータを処理するバッチ（基幹業務）を、Hadoop（MapReduce）を用いて分散して処理することにより高速化することを主眼としている。
- ただし、小規模なデータを処理する箇所ではHadoopだと効率が悪い為、AsakusaFWが提供しているスモールジョブ実行エンジンを併用する（HadoopのMapReduceの代わりに使用する）ことも出来る。
- AsakusaFW 0.10.0でMapReduceは非推奨になった。[2017-12-03]
Apache Spark
- DSLのコンパイルを行って、Spark環境向けにSparkアプリケーションを生成できる。[2015-07-08]
- このAsakusa on SparkはHadoop2のYARNを使うことが前提なので、実行環境にHadoopが全く要らないわけではないが、MapReduceは無関係となる。
M³ for Batch Processing
- DSLのコンパイルを行って、単一ノード・マルチコア用のM3BPアプリケーションを生成できる。[2016-04-12]
- このAsakusa on M3BPは（HDFSにアクセスすることも出来るが）ローカルファイルにアクセスできるので、実行環境にHadoopが不要となる。

M3BPは単一ノードで動作するので、小さめ（数十GB）のデータの処理に適している。[2016-04-12]
それより大きい場合はほとんどのケースでSparkが適している。
単純な集計処理で集計キーの種類が多いような場合はMapReduceが適している。

データが単ノードのメモリー上に乗り切る場合、M3BPが最速。

Asakusaアプリケーションの開発手法には、CI（継続的インテグレーション）の考え方が取り入れられている。
その一環として、単体テストを実行する方法が提供されている。

AsakusaFWのテストドライバーというクラスを使って単体テストを実行するのだが、単体テスト用の入力データと検証データをExcelで書けるのも面白い。
（Excelファイルの雛形もデータ定義から自動生成される）
単体テスト（JUnit）実行時にExcelファイルからデータが読まれ、出力結果をExcelファイル上の検証データと比較する。

Asakusaアプリケーションの開発手順

AsakusaFWを使って開発する/開発したアプリケーションのことを「Asakusaアプリケーション」と呼ぶ。[2015-07-04]
Asakusaアプリケーションは概ね以下のような手順で開発する。

開発環境の構築
プログラミング（DSLの記述）
コンパイル
運用環境の構築

参考

→詳細な開発手順・ディレクトリー構成

開発環境の構築

まずは、Asakusaアプリケーションの開発環境（Asakusaプロジェクト）を構築する必要がある。
Asakusaプロジェクトは（AsakusaFWのライブラリーを含んだ）普通のJavaプロジェクトである。

AsakusaアプリケーションはEclipseで開発することが想定されているが、別のIDEを使うことも可能。
（EclipseプラグインのShafuでAsakusaFWに必要なほとんど全ての作業が行えるので、Eclipseの方が便利だと思うが）

→AsakusaFWのインストール方法（開発環境の構築）

プログラミング

Asakusaアプリケーションの作成は、DSLを記述することで行う。
Asakusa DSLはバッチDSL・フローDSL・オペレーターDSLの三層に分かれている。
また、それとは別にDMDLというものがある。

DMDL: AsakusaFWでは、処理対象のデータの形式（テーブルレイアウトやレコード定義）を「データモデル」と呼ぶ。
DMDLはデータモデルを記述する言語。（これは本当にAsakusaFW独自の言語（外部DSL））
DMDLをコンパイルするとJavaのクラス（POJO相当（実際はHadoopのWritable））やテストデータ用のExcelファイルの雛形が生成される。
→DMDL
オペレーターDSL: 具体的な処理を記述するDSL。
これはほぼ普通のJavaプログラム（メソッド）としてプログラミングする。
オペレーターDSLとして記述したメソッドは、AsakusaFWでは「演算子（オペレーター）」と呼ぶ。
→Operator DSL
フローDSL: フロー（オペレーターDSLで作成した演算子を呼び出す順序）を記述するDSL。
フロー部品（FlowPart：演算子として使用するサブルーチン的なフロー）と、ジョブ（JobFlow：入出力ファイルまで含めて記述するフロー）の2種類がある。
→Flow DSL
→インポーター/エクスポーター（入出力ファイルを表すもの）
バッチDSL: バッチを記述するDSL。; バッチは、アプリケーションを実行する単位となる。いわば1つのシェルが1つのバッチである。
バッチの中に複数のジョブ（フローDSLで記述したJobFLow）を含めることが出来る。
→Batch DSL

コンパイル

データモデルを定義したら、DMDLのコンパイルを行う。
ここで生成したJavaクラスを、オペレーターDSLやジョブフローを記述するフローDSLで使用する。

バッチDSLまで記述が終わったら、バッチのコンパイルを行う。
これにより、実行に必要なjarファイル類が生成される。

コンパイルは、コマンドライン（シェル）ならGradle、EclipseならShafuを使って行う。

運用環境の構築

コンパイルして生成されたバイナリー（jarファイル等）を運用環境に配置（デプロイ）して実行する。
→運用環境の構築

Asakusaアプリケーションを実行する為のシェルも提供されている。
→YAESS

Asakusa Framework関連用語・クラス

BatchContext BatchDescription BatchTester DataFilter DateOption DateTimeOption DateUtil DirectIo DmdlAnalyzer DmdlParser ExporterDescription FlowDescription FlowPartTester GroupView ImporterDescription IntOption JobFlowTester MockResult OperatorTestEnvironment Report Result Shared SharedObjectCleaner StringOption StringOptionUtil	@Batch @Branch（分岐演算子） @CoGroup（グループ結合演算子） @Convert（変換演算子） @Extract（抽出演算子） @FlowPart（フロー演算子） @Fold（畳み込み演算子） @GroupSort（グループ整列演算子） @Iterative @IterativeBatch @JobFlow @Key @Logging（ロギング演算子） @MasterBranch（マスター分岐演算子） @MasterCheck（マスター確認演算子） @MasterJoin（マスター結合演算子） @MasterJoinUpdate（マスターつき更新演算子） @MasterSelection @Once @Spill @Split（分割演算子） @Summarize（単純集計演算子） @Update（更新演算子）	Asakusa CLI Asakusa on M3BP Asakusa on Spark Asakusa Vanilla Batch DSL build.gradle Direct I/O Direct I/O CLI DMDL DMDL EditorX Flow DSL Gradleプラグイン Graphviz Jinrikisha（人力車） M3BP WindGate JDBCダイレクト・モード Operator DSL Oracleダイレクト・パス・インサート Shafu（車夫） Toad Editor WindGate YAESS アーキタイプ結合モデル集計モデル射影モデルスモールジョブ実行エンジンデータモデルトレースフレームワークAPI プロパティー参照ユーティリティーAPI レコードモデルレポートAPI
as checkpoint（チェックポイント演算子） confluent（合流演算子） empty（空演算子） extend（拡張演算子） project（射影演算子） restructure（再構築演算子） stop（停止演算子）
any count joined max min projective sum summarized	@auto_projection @directio.csv @directio.line @directio.sequence_file @directio.text.csv @directio.text.tabular @directio.tsv @namespace @windgate.csv @windgate.jdbc @windgate.stream_format	BOOLEAN BYTE DATE DATETIME DECIMAL DOUBLE FLOAT INT LONG SHORT TEXT

技術メモへ戻る

メールの送信先：ひしだま