Big Data -Verarbeitung

Apache Spark Kostenloses Big Data -Tool

In-Memory-Datenverarbeitung mit kostenlosen Big-Data-Tool

Flexible, leichte und schnellere einheitliche Analyse-Engine für die Datenverarbeitung in großem Maßstab. In Hadoop integriert und unterstützt mehrere Sprachen.

Überblick

Apache Spark ist eine kostenlose und Open -Source -Big -Data -Verarbeitungsmaschine. Es basiert auf Hadoop MapReduce und ist für schnelle Berechnung ausgelegt. Apache Spark erweitert das Hadoop -MapReduce -Modell, damit mehr Berechnungen wie interaktive Abfragen und Stream -Verarbeitung effizienter durchgeführt werden können. Es unterstützt das Memory-Cluster-Computing, das die Verarbeitungsgeschwindigkeit einer Anwendung stärkt. Apache Spark behandelt eine Vielzahl von Workloads, einschließlich iterativer Algorithmen, interaktiven Abfragen und Streaming. Es wird mit außergewöhnlichen Funktionen wie Fehlertoleranz, fortschrittlicher Analyse, fauler Bewertung, Echtzeit-Stream-Verarbeitung, In-Memory-Datenverarbeitung und vielem mehr geliefert. Über 80 hochrangige Operatoren sind in Apache Spark verfügbar, mit denen parallele Anwendungen erstellt werden können. Es enthält auch eine API, die eine Echtzeit-Stream-Verarbeitung ermöglicht. In Apache Spark sind alle Transformationen in der Natur faul. Dies impliziert, dass es anstatt das Ergebnis sofort bereitzustellen, eine neue RDD aus dem vorhandenen erstellt. Infolgedessen wird die Leistung des Systems verbessert. Apache Spark unterstützt mehrere Sprachen wie Java, R, Scala, Python, während Hadoop nur die Java -Sprache unterstützt. Apache Spark ermöglicht die In-Memory-Verarbeitung von Aufgaben, die die massive Geschwindigkeit erhöhen. Apache Spark funktioniert gut mit dem HDFS-Dateisystem von Hadoop und mehreren Dateiformaten wie Parquet, JSON, CSV, ORC. Hadoop kann leicht in Apache Spark entweder als Eingabedatenquelle oder als Ziel integriert werden.

System Anforderungen

Um Apache Spark zu installieren, müssen Sie die folgenden Software haben:

  • Java
  • Scala

Merkmale

Im Folgenden finden Sie die wichtigsten Funktionen von Apache Spark:

  • Frei und Open Source
  • Schnelle Verarbeitungsgeschwindigkeit
  • flexibel und leicht zu bedienen
  • Echtzeit-Stream-Verarbeitung
  • Wiederverwendbarkeit
  • Fehlertoleranz
  • Mehrere Sprachen unterstützen
  • in Hadoop integriert
  • Kosteneffizient
  • Advanced Analytics
  • In-Memory Computing

Installation

APache Spark auf Ubuntu 18.04 installieren

Führen Sie den Befehl aus, um Apache Spark herunterzuladen.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Extrahieren Sie die TAR -Datei mit dem folgenden Befehl.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Bewegen Sie das extrahierte Verzeichnis.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Öffnen Sie .Bashrc -Datei und fügen Sie unten die Zeilen hinzu.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktivieren Sie die Umgebung mit dem folgenden Befehl.

$ source ~/.bashrc

Starten Sie den Spark Master Server.

$ start-master.sh

Öffnen Sie den Browser und geben Sie http: // server-ip: 8080 ein, um auf die Weboberfläche zuzugreifen.

Erkunden

Möglicherweise finden Sie die folgenden Links relevant:

 Deutsch