Apache Spark Δωρεάν εργαλείο μεγάλων δεδομένων

Επεξεργασία δεδομένων εντός μνήμης με δωρεάν εργαλείο μεγάλων δεδομένων

Ευέλικτος, ελαφρύς και ταχύτερος κινητήρας Unified Analytics για επεξεργασία δεδομένων μεγάλης κλίμακας. Ενσωματωμένο με Hadoop και υποστηρίζει πολλές γλώσσες.

ΣΦΑΙΡΙΚΗ ΕΙΚΟΝΑ

Το Apache Spark είναι ένας μηχανισμός επεξεργασίας μεγάλων δεδομένων και ανοικτού κώδικα. Βασίζεται στο Hadoop MapReduce και έχει σχεδιαστεί για γρήγορο υπολογισμό. Το Apache Spark επεκτείνει το μοντέλο Hadoop MapReduce για να επιτρέψει περισσότερους τύπους υπολογισμών, όπως διαδραστικά ερωτήματα και επεξεργασία ροής, να εκτελούνται πιο αποτελεσματικά. Υποστηρίζει υπολογισμό συμπλέγματος σε μνήμη, η οποία ενισχύει την ταχύτητα επεξεργασίας μιας εφαρμογής. Το Apache Spark χειρίζεται μια ποικιλία φόρτων εργασίας, συμπεριλαμβανομένων επαναληπτικών αλγορίθμων, διαδραστικών ερωτημάτων και ροής. Έρχεται με χαρακτηριστικά εκτός κουτιού, όπως ανοχή σφάλματος, προηγμένες αναλύσεις, τεμπέλης αξιολόγηση, επεξεργασία ροής σε πραγματικό χρόνο, επεξεργασία δεδομένων στη μνήμη και πολλά άλλα. Πάνω από 80 χειριστές υψηλού επιπέδου διατίθενται στο Apache Spark, το οποίο μπορεί να χρησιμοποιηθεί για τη δημιουργία παράλληλων εφαρμογών. Περιλαμβάνει επίσης ένα API που επιτρέπει την επεξεργασία ροής σε πραγματικό χρόνο. Στο Apache Spark, όλοι οι μετασχηματισμοί είναι τεμπέλης στη φύση. Υπονοεί ότι αντί να παρέχει αμέσως το αποτέλεσμα, δημιουργεί ένα νέο RDD από το υπάρχον. Ως αποτέλεσμα, η απόδοση του συστήματος βελτιώνεται. Το Apache Spark υποστηρίζει πολλές γλώσσες όπως η Java, R, Scala, Python, ενώ ο Hadoop υποστηρίζει μόνο τη γλώσσα Java. Το Apache Spark επιτρέπει την επεξεργασία των εργασιών σε μνήμη που αυξάνουν την τεράστια ταχύτητα. Το Apache Spark λειτουργεί καλά με το σύστημα αρχείων HDFS του Hadoop και πολλαπλές μορφές αρχείων όπως το Parquet, το JSON, το CSV, το ORC. Το Hadoop μπορεί εύκολα να ενσωματωθεί στο Apache Spark είτε ως πηγή δεδομένων εισόδου είτε ως προορισμός εισόδου.

Απαιτήσεις συστήματος

Για να εγκαταστήσετε το Apache Spark, πρέπει να έχετε τα ακόλουθα λογισμικά:

Java
Σκάλα

Χαρακτηριστικά

Ακολουθούν τα βασικά χαρακτηριστικά του Apache Spark:

Δωρεάν και ανοιχτή πηγή
Γρήγορη ταχύτητα επεξεργασίας
ευέλικτο και ευκολία για χρήση
Επεξεργασία ροής σε πραγματικό χρόνο
επαναχρησιμοποίηση
Ανοχή σε σφάλματα
Υποστηρίξτε πολλές γλώσσες
Ενσωματωμένο με Hadoop
οικονομικά αποδοτική
Προηγμένη ανάλυση
Υπολογισμός σε μνήμη

Εγκατάσταση

Εγκαταστήστε το Apache Spark στο Ubuntu 18.04

Εκτέλεση εντολής για να κατεβάσετε το Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Εξαγάγετε το αρχείο TAR χρησιμοποιώντας την παρακάτω εντολή.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Μετακινήστε τον κατάλογο που εξάγεται.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Ανοίξτε το αρχείο .bashrc και προσθέστε τις παρακάτω γραμμές σε αυτό.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Ενεργοποιήστε το περιβάλλον με την ακόλουθη εντολή.

$ source ~/.bashrc

Ξεκινήστε τον κύριο διακομιστή Spark.

$ start-master.sh

Ανοίξτε το πρόγραμμα περιήγησης και εισαγάγετε το http: // server-ip: 8080 για πρόσβαση στη διεπαφή ιστού.

Εξερευνήστε

Μπορείτε να βρείτε τους ακόλουθους συνδέσμους που σχετίζονται με τους συνδέσμους:

Top 5 Εργαλεία μεγάλων δεδομένων ανοιχτού κώδικα το 2021