Apache Spark Gratis big data -verktyg

Databehandling i minnet med gratis big data-verktyg

Flexibel, lätt och snabbare enhetlig analysmotor för storskalig databehandling. Integrerad med Hadoop och stöder flera språk.

Översikt

Apache Spark är en gratis och öppen källkod Big Data Processing Engine. Det är baserat på Hadoop MapReduce och är designad för snabb beräkning. Apache Spark utvidgar Hadoop MapReduce -modellen för att möjliggöra fler typer av beräkningar, såsom interaktiva frågor och strömbehandling, som ska utföras mer effektivt. Det stöder computing i minnet kluster, som ökar en applikations bearbetningshastighet. Apache Spark hanterar olika arbetsbelastningar inklusive iterativa algoritmer, interaktiva frågor och strömning. Det kommer med out-of-the-box-funktioner som feltolerans, avancerad analys, lat utvärdering, realtidsströmbehandling, databehandling i minnet och många fler. Över 80 operatörer på hög nivå finns i Apache Spark, som kan användas för att skapa parallella applikationer. Det inkluderar också ett API som möjliggör realtidsströmbehandling. I Apache Spark är alla transformationer lata till sin natur. Det innebär att istället för att tillhandahålla resultatet omedelbart skapar det en ny RDD från den befintliga. Som ett resultat förbättras systemets prestanda. Apache Spark stöder flera språk som Java, R, Scala, Python medan Hadoop bara stöder Java -språk. Apache Spark tillåter behandling i minnet av uppgifter som ökar enorm hastighet. Apache Spark fungerar bra med Hadoops HDFS-filsystem och flera filformat som Parquet, JSON, CSV, ORC. Hadoop kan enkelt integreras med Apache Spark antingen som en inmatningsdatakälla eller destination.

Systemkrav

För att installera Apache Spark måste du ha följande programvara:

Java
Scala

Funktioner

Följande är de viktigaste funktionerna i Apache Spark:

Gratis och öppen källkod
Snabb bearbetningshastighet
Flexibel och lätt att använda
Realtidsströmbehandling
återanvändbarhet
Feltolerans
Stöd flera språk
Integrerad med Hadoop
Kostnadseffektiv
Avancerad analys
In-minnesdatorer

Installation

Installera Apache Spark på Ubuntu 18.04

Kör kommandot för att ladda ner Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Extrahera TAR -filen med kommandot nedan.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Flytta den extraherade katalogen.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Öppna .Bashrc -filen och lägg till nedan i den i den.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktivera miljön med följande kommando.

$ source ~/.bashrc

Starta Spark Master Server.

$ start-master.sh

Öppna webbläsaren och ange http: // server-ip: 8080 för åtkomst till webbgränssnittet.

Utforska

Du kan hitta följande länkar relevanta:

Topp 5 Open Source Big Data Tools 2021