Nguồn mở công cụ dữ liệu lớn

Hadoop Công cụ dữ liệu lớn miễn phí

Phân tích các bộ dữ liệu phức tạp với phần mềm phân tích dữ liệu lớn

Xử lý nhanh hơn các dữ liệu phức tạp với các công cụ dữ liệu lớn miễn phí và nguồn mở. Đối phó với khối lượng lớn, nhiều bộ dữ liệu và cải thiện việc ra quyết định kinh doanh.

Tổng quan

Hadoop là một công cụ dữ liệu lớn miễn phí và nguồn mở. Nó là phần mềm phân tích dữ liệu lớn mạnh mẽ, đáng tin cậy và có thể mở rộng. HDFS (Hệ thống tệp phân tán cao), MapReduce và Sợi là ba thành phần chính của Hadoop. HDFS là một lớp lưu trữ được tạo thành từ hai loại nút: NameNodes và Datanodes. Siêu dữ liệu về vị trí của một khối được lưu trữ trong Namenode. Trong một khoảng thời gian được xác định trước, Datanodes lưu trữ khối và gửi các báo cáo khối tới NAMENODE. Lớp xử lý MapReduce được chia thành hai giai đoạn: pha MAP và pha giảm. Nó được dự định để xử lý dữ liệu đồng thời được phân phối trên một số nút. Trong Hadoop Dữ liệu lớn, Sợi là lớp lập kế hoạch công việc và quản lý tài nguyên. Hadoop là một trong những phần mềm dữ liệu lớn tốt nhất để xử lý dữ liệu lớn. Cụm Hadoop có khả năng mở rộng cao, vì vậy nó cho phép tỷ lệ ngang và dọc đến khung Hadoop. Nó có chức năng dung sai lỗi dựa trên cơ chế sao chép để đảm bảo khả năng chịu lỗi. Hadoop đảm bảo rằng dữ liệu vẫn có sẵn, ngay cả khi mọi thứ không suôn sẻ. Nếu một trong các DataNodes thất bại, người dùng có thể truy cập dữ liệu từ các Datanod khác có bản sao của cùng một dữ liệu. Hadoop là một hệ thống lưu trữ dữ liệu phân tán cho phép xử lý dữ liệu thông qua một cụm các nút. Kết quả là, nó cung cấp cho các khả năng xử lý nhanh của Hadoop Framework.

Yêu cầu hệ thống

Để cài đặt Hadoop, bạn phải có các phần mềm sau:

  • Java
  • Người dùng có đặc quyền sudo

Đặc trưng

Sau đây là các tính năng chính của Hadoop:

  • Nguồn miễn phí và mở
  • Xử lý dữ liệu nhanh hơn
  • Quá trình đóng góp
  • Khả năng chịu lỗi
  • Đáng tin cậy và có thể mở rộng
  • Dễ sử dụng và tiết kiệm chi phí
  • địa phương dữ liệu
  • Tính khả dụng cao của dữ liệu

Cài đặt

Cài đặt Hadoop trên Ubuntu

Đầu tiên, chạy lệnh bên dưới để cài đặt OpenSsh Server và Client.

sudo apt install openssh-server openssh-client -y

Thực thi lệnh để tải xuống hadoop.

wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

Trích xuất các tập tin để bắt đầu cài đặt Hadoop.

tar xzf hadoop-3.2.1.tar.gz

Khám phá

Bạn có thể tìm thấy các liên kết sau có liên quan:

 Tiếng Việt