Big Data -verwerking

Apache Spark Gratis big data tool

Gegevensverwerking in het geheugen met gratis big data tool

Flexibele, lichtgewicht en snellere uniforme analysemotor voor grootschalige gegevensverwerking. Geïntegreerd met Hadoop en ondersteunt meerdere talen.

Overzicht

Apache Spark is een gratis en open source Big Data Processing Engine. Het is gebaseerd op Hadoop MapReduce en is ontworpen voor snelle berekening. Apache Spark breidt het Hadoop MapReduce -model uit om meer soorten berekeningen, zoals interactieve query’s en stroomverwerking, efficiënter te kunnen uitvoeren. Het ondersteunt in-memory cluster computing, die de verwerkingssnelheid van een applicatie verhoogt. Apache Spark behandelt verschillende werklast, waaronder iteratieve algoritmen, interactieve vragen en streaming. Het wordt geleverd met out-of-the-box-functies zoals fouttolerantie, geavanceerde analyses, luie evaluatie, realtime streamverwerking, gegevensverwerking in het geheugen en nog veel meer. Meer dan 80 operators op hoog niveau zijn beschikbaar in Apache Spark, die kunnen worden gebruikt om parallelle toepassingen te maken. Het bevat ook een API die realtime stream-verwerking mogelijk maakt. In Apache Spark zijn alle transformaties lui van aard. Het houdt in dat het in plaats van het resultaat onmiddellijk te leveren, het een nieuwe RDD van de bestaande creëert. Als gevolg hiervan zijn de prestaties van het systeem verbeterd. Apache Spark ondersteunt meerdere talen zoals Java, R, Scala, Python, terwijl Hadoop alleen Java -taal ondersteunt. Apache Spark maakt in-memory-verwerking van taken mogelijk die de enorme snelheid verhogen. Apache Spark werkt goed met het HDFS-bestandssysteem van Hadoop en meerdere bestandsformaten zoals Parquet, JSON, CSV, ORC. Hadoop kan gemakkelijk worden geïntegreerd met Apache Spark, hetzij als invoergegevensbron of bestemming.

Systeem vereisten

Om Apache Spark te installeren, moet u de volgende software hebben:

  • Java
  • Scala

Functies

Hierna volgen de belangrijkste kenmerken van Apache Spark:

  • Gratis en open source
  • Snelle verwerkingssnelheid
  • Flexibel en gemakkelijk te gebruiken
  • Real-time stream-verwerking
  • herbruikbaarheid
  • Fouttolerantie
  • Ondersteun meerdere talen
  • geïntegreerd met Hadoop
  • Kostenefficient
  • Geavanceerde analyse
  • In-Memory Computing

Installatie

Apache Spark installeren op Ubuntu 18.04

Commando uitvoeren om Apache Spark te downloaden.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Pak het TAR -bestand uit met de onderstaande opdracht.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Verplaats de geëxtraheerde map.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Open .bashrc -bestand en voeg hieronder regels toe.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Activeer de omgeving met de volgende opdracht.

$ source ~/.bashrc

Start de Spark Master Server.

$ start-master.sh

Open browser en voer http: // server-IP: 8080 in voor toegang tot de webinterface.

Ontdekken

Mogelijk vindt u de volgende links relevant:

 Nederlands