Apache Spark Nemokamas didelis duomenų įrankis

Atminimo duomenų apdorojimas naudojant nemokamą „Big Data“ įrankį

Lankstus, lengvas ir greitesnis vieningas analizės variklis didelio masto duomenų apdorojimui. Integruota su „Hadoop“ ir palaiko kelias kalbas.

Apžvalga

„Apache Spark“ yra nemokamas ir atvirojo kodo „Big Data“ apdorojimo variklis. Jis pagrįstas „Hadoop MapReduce“ ir yra skirtas greitai skaičiuoti. „Apache Spark“ išplečia „Hadoop MapReduce“ modelį, kad būtų galima efektyviau atlikti daugiau rūšių skaičiavimų, tokių kaip interaktyvios užklausos ir srauto apdorojimas. Tai palaiko „Memory“ klasterio skaičiavimą, kuris padidina programos apdorojimo greitį. „Apache Spark“ tvarko įvairius darbo krūvius, įskaitant iteracinius algoritmus, interaktyvias užklausas ir srautą. Jis pateikiamas su tokiomis funkcijomis kaip gedimų tolerancija, išplėstinė analizė, tingus įvertinimas, realaus laiko srauto apdorojimas, atminties duomenų apdorojimas ir daugelis kitų. „Apache Spark“ galima įsigyti daugiau nei 80 aukšto lygio operatorių, kurie gali būti naudojami kuriant lygiagrečias programas. Tai taip pat apima API, leidžiančią apdoroti realiuoju laiku. „Apache“ kibirkštyje visos transformacijos yra tinginio pobūdžio. Tai reiškia, kad užuot nedelsiant pateikęs rezultatą, jis sukuria naują RDD iš esamos. Dėl to sistemos veikimas pagerėja. „Apache Spark“ palaiko kelias kalbas, tokias kaip „Java“, „R“, „Scala“, „Python“, o „Hadoop“ palaiko tik „Java“ kalbą. „Apache Spark“ leidžia atmintyje apdoroti užduotis, kurios padidina didžiulį greitį. „Apache Spark“ gerai veikia su „Hadoop“ HDFS failų sistema ir keliais failų formatais, tokiais kaip „Parquet“, „JSON“, CSV, ORC. „Hadoop“ galima lengvai integruoti su „Apache Spark“ kaip įvesties duomenų šaltinis arba paskirties vieta.

Sistemos reikalavimai

Norėdami įdiegti „Apache Spark“, turite turėti šias programines įrangas:

Java
Scala

Funkcijos

Toliau pateikiamos pagrindinės „Apache Spark“ savybės:

Nemokamas ir atviras kodas
greitas apdorojimo greitis
Lankstus ir lengvai naudojamas
realaus laiko srauto apdorojimas
pakartotinis naudojimas
Tolerancija dėl gedimų
Palaikykite kelias kalbas
Integruota su „Hadoop“
Ekonstrolė
Išplėstinė analizė
Atmmoginis skaičiavimas

diegimas

Įdiekite „Apache Spark“ ant ubuntu 18.04

Vykdykite komandą, kad atsisiųstumėte „Apache Spark“.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Ištraukite deguto failą naudodami žemiau esančią komandą.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Perkelkite ištrauktą katalogą.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Atidarykite .BASHRC failą ir pridėkite žemiau esančias eilutes.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Suaktyvinkite aplinką naudodami šią komandą.

$ source ~/.bashrc

Pradėkite „Spark Master“ serverį.

$ start-master.sh

Atidarykite naršyklę ir įveskite http: // server-ip: 8080, kad galėtumėte pasiekti žiniatinklio sąsają.

tyrinėti

Galite rasti šias tinkamas nuorodas:

5 geriausi atvirojo kodo didžiųjų duomenų įrankiai 2021 m.