Xử lý dữ liệu lớn

Apache Spark Công cụ dữ liệu lớn miễn phí

Xử lý dữ liệu trong bộ nhớ với công cụ dữ liệu lớn miễn phí

Công cụ phân tích thống nhất linh hoạt, nhẹ và nhanh hơn để xử lý dữ liệu quy mô lớn. Được tích hợp với Hadoop và hỗ trợ nhiều ngôn ngữ.

Tổng quan

Apache Spark là một công cụ xử lý dữ liệu lớn miễn phí và nguồn mở. Nó dựa trên Hadoop MapReduce và được thiết kế để tính toán nhanh. Apache Spark mở rộng mô hình Hadoop MapReduce để cho phép nhiều loại tính toán hơn, chẳng hạn như truy vấn tương tác và xử lý luồng, được thực hiện hiệu quả hơn. Nó hỗ trợ điện toán cụm trong bộ nhớ, giúp tăng tốc độ xử lý của ứng dụng. Apache Spark xử lý một loạt các khối lượng công việc bao gồm các thuật toán lặp, truy vấn tương tác và phát trực tuyến. Nó đi kèm với các tính năng vượt trội như dung sai lỗi, phân tích nâng cao, đánh giá lười biếng, xử lý luồng thời gian thực, xử lý dữ liệu trong bộ nhớ và nhiều hơn nữa. Hơn 80 toán tử cấp cao có sẵn trong Apache Spark, có thể được sử dụng để tạo các ứng dụng song song. Nó cũng bao gồm một API cho phép xử lý luồng thời gian thực. Trong Apache Spark, tất cả các biến đổi đều lười biếng trong tự nhiên. Nó ngụ ý rằng thay vì cung cấp kết quả ngay lập tức, nó tạo ra một RDD mới từ hiện có. Do đó, hiệu suất của hệ thống được cải thiện. Apache Spark hỗ trợ nhiều ngôn ngữ như Java, R, Scala, Python trong khi Hadoop chỉ hỗ trợ ngôn ngữ Java. Apache Spark cho phép xử lý trong bộ nhớ của các nhiệm vụ làm tăng tốc độ lớn. Apache Spark hoạt động tốt với hệ thống tệp HDFS của Hadoop và nhiều định dạng tệp như Parquet, JSON, CSV, ORC. Hadoop có thể dễ dàng tích hợp với Apache Spark dưới dạng nguồn dữ liệu đầu vào hoặc đích.

Yêu cầu hệ thống

Để cài đặt Apache Spark, bạn phải có các phần mềm sau:

  • Java
  • Scala

Đặc trưng

Sau đây là các tính năng chính của Apache Spark:

  • Nguồn miễn phí và mở
  • Tốc độ xử lý nhanh
  • Linh hoạt và dễ sử dụng
  • Xử lý luồng thời gian thực
  • Khả năng tái sử dụng
  • Khả năng chịu lỗi
  • Hỗ trợ nhiều ngôn ngữ
  • Tích hợp với Hadoop
  • Chi phí hiệu quả
  • Phân tích nâng cao
  • Điện toán trong bộ nhớ

Cài đặt

Cài đặt Apache Spark trên Ubuntu 18.04

Thực thi lệnh để tải xuống Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Trích xuất tệp TAR bằng lệnh bên dưới.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Di chuyển thư mục trích xuất.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Mở tệp .bashrc và thêm các dòng bên dưới vào nó.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Kích hoạt môi trường với lệnh sau.

$ source ~/.bashrc

Bắt đầu Máy chủ SPARK.

$ start-master.sh

Mở trình duyệt và nhập http: // server-IP: 8080 để truy cập giao diện web.

Khám phá

Bạn có thể tìm thấy các liên kết sau có liên quan:

 Tiếng Việt