Apache Spark Gratis big data tool
Gegevensverwerking in het geheugen met gratis big data tool
Flexibele, lichtgewicht en snellere uniforme analysemotor voor grootschalige gegevensverwerking. Geïntegreerd met Hadoop en ondersteunt meerdere talen.
Overzicht
Apache Spark is een gratis en open source Big Data Processing Engine. Het is gebaseerd op Hadoop MapReduce en is ontworpen voor snelle berekening. Apache Spark breidt het Hadoop MapReduce -model uit om meer soorten berekeningen, zoals interactieve query’s en stroomverwerking, efficiënter te kunnen uitvoeren. Het ondersteunt in-memory cluster computing, die de verwerkingssnelheid van een applicatie verhoogt. Apache Spark behandelt verschillende werklast, waaronder iteratieve algoritmen, interactieve vragen en streaming. Het wordt geleverd met out-of-the-box-functies zoals fouttolerantie, geavanceerde analyses, luie evaluatie, realtime streamverwerking, gegevensverwerking in het geheugen en nog veel meer. Meer dan 80 operators op hoog niveau zijn beschikbaar in Apache Spark, die kunnen worden gebruikt om parallelle toepassingen te maken. Het bevat ook een API die realtime stream-verwerking mogelijk maakt. In Apache Spark zijn alle transformaties lui van aard. Het houdt in dat het in plaats van het resultaat onmiddellijk te leveren, het een nieuwe RDD van de bestaande creëert. Als gevolg hiervan zijn de prestaties van het systeem verbeterd. Apache Spark ondersteunt meerdere talen zoals Java, R, Scala, Python, terwijl Hadoop alleen Java -taal ondersteunt. Apache Spark maakt in-memory-verwerking van taken mogelijk die de enorme snelheid verhogen. Apache Spark werkt goed met het HDFS-bestandssysteem van Hadoop en meerdere bestandsformaten zoals Parquet, JSON, CSV, ORC. Hadoop kan gemakkelijk worden geïntegreerd met Apache Spark, hetzij als invoergegevensbron of bestemming.
Functies
Hierna volgen de belangrijkste kenmerken van Apache Spark:
- Gratis en open source
- Snelle verwerkingssnelheid
- Flexibel en gemakkelijk te gebruiken
- Real-time stream-verwerking
- herbruikbaarheid
- Fouttolerantie
- Ondersteun meerdere talen
- geïntegreerd met Hadoop
- Kostenefficient
- Geavanceerde analyse
- In-Memory Computing
Installatie
Apache Spark installeren op Ubuntu 18.04
Commando uitvoeren om Apache Spark te downloaden.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Pak het TAR -bestand uit met de onderstaande opdracht.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Verplaats de geëxtraheerde map.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Open .bashrc -bestand en voeg hieronder regels toe.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Activeer de omgeving met de volgende opdracht.
$ source ~/.bashrc
Start de Spark Master Server.
$ start-master.sh
Open browser en voer http: // server-IP: 8080 in voor toegang tot de webinterface.