ビッグデータ処理

Apache Spark 無料のビッグデータツール

無料のビッグデータツールを使用したメモリデータ処理

大規模なデータ処理のための柔軟で軽量で、より高速な統一分析エンジン。 Hadoopと統合され、複数の言語をサポートします。

概要

Apache Sparkは、無料でオープンソースのビッグデータ処理エンジンです。 Hadoop MapReduceに基づいており、高速計算用に設計されています。 Apache Sparkは、Hadoop MapReduceモデルを拡張して、インタラクティブクエリやストリーム処理など、より効率的に実行できるようにするためのより多くのタイプの計算を可能にします。インメモリクラスターコンピューティングをサポートし、アプリケーションの処理速度を高めます。 Apache Sparkは、反復アルゴリズム、インタラクティブクエリ、ストリーミングなど、さまざまなワークロードを処理します。フォールトトレランス、高度な分析、怠zyな評価、リアルタイムストリーム処理、インメモリデータ処理など、すぐに使用できる機能が付属しています。 Apache Sparkで80を超える高レベルオペレーターが利用できます。これは、並列アプリケーションの作成に使用できます。また、リアルタイムのストリーム処理を可能にするAPIも含まれています。 Apache Sparkでは、すべての変換は本質的に怠zyです。結果をすぐに提供する代わりに、既存のRDDから新しいRDDを作成することを意味します。その結果、システムのパフォーマンスが向上します。 Apache Sparkは、Java、R、Scala、Pythonなどの複数の言語をサポートしますが、HadoopはJava Languageのみをサポートしています。 Apache Sparkは、大規模な速度を高めるタスクのメモリ内処理を可能にします。 Apache Sparkは、HadoopのHDFSファイルシステムと、Parquet、JSON、CSV、ORCなどの複数のファイルフォーマットでうまく機能します。 Hadoopは、入力データソースまたは宛先としてApache Sparkと簡単に統合できます。

システム要求

Apache Sparkをインストールするには、次のソフトウェアが必要です。

  • ジャワ
  • スカラ

特徴

以下は、Apache Sparkの重要な機能です。

  • 無料でオープンソース
  • 処理速度が高速
  • 柔軟で使いやすさ
  • リアルタイムストリーム処理
  • 再利用可能性
  • フォールトトレランス
  • 複数の言語をサポートします
  • Hadoopと統合
  • 効率的なコスト
  • 高度な分析
  • インメモリコンピューティング

インストール

** Ubuntu 18.04にApache Sparkをインストールします**

コマンドを実行して、Apache Sparkをダウンロードします。

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

以下のコマンドを使用してTARファイルを抽出します。

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

抽出されたディレクトリを移動します。

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

.bashrcファイルを開き、以下の行を追加します。

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

次のコマンドで環境を有効にします。

$ source ~/.bashrc

Spark Masterサーバーを開始します。

$ start-master.sh

Browserを開き、Webインターフェイスにアクセスするためにhttp:// server-ip:8080を入力します。

探検

次のリンクが関連する場合があります。

-2021年のトップ5オープンソースビッグデータツール

 日本