Pemrosesan data besar

Apache Spark Alat Data Besar Gratis

Pemrosesan data dalam memori dengan alat data besar gratis

Mesin analitik terpadu yang fleksibel, ringan, dan lebih cepat untuk pemrosesan data skala besar. Terintegrasi dengan Hadoop dan mendukung berbagai bahasa.

Ringkasan

Apache Spark adalah mesin pemrosesan data besar yang gratis dan open. Ini didasarkan pada Hadoop MapReduce dan dirancang untuk perhitungan cepat. Apache Spark memperluas model Hadoop MapReduce untuk memungkinkan lebih banyak jenis perhitungan, seperti kueri interaktif dan pemrosesan aliran, untuk dilakukan secara lebih efisien. Ini mendukung komputasi cluster in-memory, yang meningkatkan kecepatan pemrosesan aplikasi. Apache Spark menangani berbagai beban kerja termasuk algoritma iteratif, pertanyaan interaktif, dan streaming. Muncul dengan fitur out-of-the-box seperti toleransi kesalahan, analitik canggih, evaluasi malas, pemrosesan aliran waktu nyata, pemrosesan data dalam memori, dan banyak lagi. Lebih dari 80 operator tingkat tinggi tersedia di Apache Spark, yang dapat digunakan untuk membuat aplikasi paralel. Ini juga termasuk API yang memungkinkan pemrosesan aliran waktu nyata. Dalam Apache Spark, semua transformasi bersifat malas. Ini menyiratkan bahwa alih -alih memberikan hasilnya segera, itu menciptakan RDD baru dari yang sudah ada. Akibatnya, kinerja sistem ditingkatkan. Apache Spark mendukung berbagai bahasa seperti Java, R, Scala, Python sedangkan Hadoop hanya mendukung bahasa Java. Apache Spark memungkinkan pemrosesan tugas dalam memori yang meningkatkan kecepatan besar. Apache Spark bekerja dengan baik dengan sistem file HDFS Hadoop dan beberapa format file seperti parket, json, csv, orc. Hadoop dapat dengan mudah diintegrasikan dengan Apache Spark baik sebagai sumber data input atau tujuan.

Persyaratan sistem

Untuk menginstal Apache Spark, Anda harus memiliki perangkat lunak berikut:

  • Java
  • Scala

Fitur

Berikut ini adalah fitur utama Apache Spark:

  • Sumber Gratis dan Terbuka
  • Kecepatan pemrosesan cepat
  • fleksibel dan kemudahan untuk digunakan
  • Pemrosesan aliran waktu nyata
  • Reusability
  • Toleransi kesalahan
  • Dukung banyak bahasa
  • Terintegrasi dengan Hadoop
  • Biaya efisien
  • Analisis Lanjutan
  • Komputasi dalam memori

Instalasi

Instal Apache Spark di Ubuntu 18.04

Jalankan perintah untuk mengunduh Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Ekstrak file tar menggunakan perintah di bawah ini.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Pindahkan direktori yang diekstraksi.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Buka file .bashrc dan tambahkan baris di bawah ke dalamnya.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktifkan lingkungan dengan perintah berikut.

$ source ~/.bashrc

Mulai Server Spark Master.

$ start-master.sh

Buka browser dan masukkan http: // server-IP: 8080 untuk mengakses antarmuka web.

Mengeksplorasi

Anda mungkin menemukan tautan berikut yang relevan:

 Indonesia