Công cụ xử lý dữ liệu thực tế

Apache Storm Công cụ dữ liệu lớn miễn phí

Các công cụ phân tích dữ liệu lớn miễn phí để xử lý luồng dữ liệu

Nhanh chóng xử lý một lượng lớn dữ liệu trong một phương pháp có thể mở rộng theo lỗi và có thể mở rộng theo chiều ngang bằng cách sử dụng công cụ xử lý dữ liệu lớn và truy cập phân tích dữ liệu thời gian thực.

Tổng quan

Apache Storm là một công cụ xử lý dữ liệu thời gian thực nguồn mở. Đây là một công cụ xử lý dữ liệu lớn đơn giản, thân thiện với người dùng, hoạt động với bất kỳ ngôn ngữ lập trình nào. Nó có thể được kết hợp trong cả doanh nghiệp nhỏ và lớn. Nó có khả năng mở rộng cao và có thể duy trì hiệu quả ngay cả khi tải tăng, bằng cách thêm tài nguyên theo cách tuyến tính. Apache Storm xử lý các luồng dữ liệu trong thời gian thực, trong khi Hadoop xử lý dữ liệu theo lô. Các công nghệ xếp hàng và cơ sở dữ liệu hiện tại có thể được tích hợp với Apache Storm. Nó đảm bảo xử lý dữ liệu ngay cả khi một hoặc nhiều nút được liên kết của cụm bị lỗi hoặc tin nhắn bị mất. Apache Storm có bốn thành phần bao gồm tuple, stream, vòi và bu lông. Trong Apache Storm, tuple là cấu trúc dữ liệu chính. Nó hỗ trợ tất cả các loại dữ liệu và có một danh sách các yếu tố được đặt hàng. Luồng là một chuỗi không có thứ tự của các bộ dữ liệu. Spouts là một nguồn luồng được sử dụng để đọc dữ liệu từ các nguồn dữ liệu. Giao diện chính để thực hiện vòi là ispout. Hơn nữa, có rất nhiều giao diện có sẵn, bao gồm Irichspout, Baserichspout và Kafkaspout. Bu lông là các thành phần của xử lý logic. Spouts gửi thông tin đến quy trình bu lông và bu lông, dẫn đến một luồng đầu ra mới. Giao diện trung tâm để thực hiện các bu lông được gọi là “Ibolt.” Hơn nữa, Apache Storm là công cụ phân tích dữ liệu lớn REE nổi tiếng. Do đó, nhiều tập đoàn lớn sử dụng nó như Twitter, Navisite, Wego, Yahoo và nhiều tập đoàn khác. Công cụ phân tích thời gian thực này được phát triển bằng ngôn ngữ Java. Giấy phép cho công cụ xử lý dữ liệu thời gian thực này là Apache 2.0.

Yêu cầu hệ thống

Để cài đặt Apache Storm, bạn phải có các phần mềm sau:

  • Java
  • Người dùng có đặc quyền sudo

Đặc trưng

Sau đây là các tính năng chính của Apache Storm:

  • Nguồn miễn phí và mở
  • Xử lý dữ liệu thời gian thực
  • Nhanh chóng và đáng tin cậy
  • Có khả năng mở rộng cao và có thể song song
  • Khả năng chịu lỗi
  • API đơn giản
  • Sử dụng với bất kỳ ngôn ngữ nào
  • Dễ sử dụng và triển khai
  • Tích hợp với hệ thống xếp hàng và cơ sở dữ liệu

Cài đặt

Cài đặt Apache Storm trên Ubuntu 18.04

Cài đặt khung vườn thú

Đầu tiên, cài đặt Khung Zookeeper trên máy chủ. Tạo thư mục và điều hướng vào nó.

$ mkdir ~/bigdata
$ cd ~/bigdata

Thực thi lệnh để tải xuống khung ZooKeeper.

$ wget https://downloads.apache.org/zookeeper/zookeeper-3.6.0/apache-zookeeper-3.6.0-bin.tar.gz

Trích xuất các tệp và thay đổi thư mục bằng cách chạy các lệnh bên dưới.

$ tar xfvz apache-zookeeper-3.6.0-bin.tar.gz
$ cd apache-zookeeper-3.6.0-bin.tar.gz

Sao chép tệp cấu hình mẫu với tên mới.

$ cp conf/zoo_sample.cfg conf/zoo.cfg

Mở tệp Conf/Zoo.cfg và thêm mã sau vào đó.

admin.enableServer=true
admin.serverPort=9990

Chạy lệnh để bắt đầu ZooKeeper.

$ bin/zkServer.sh start

Cài đặt Apache Storm

Thực thi lệnh để tải xuống Apache Storm.

$ wget ftp://apache.uib.no/pub/apache/storm/apache-storm-2.1.0/apache-storm-2.1.0.tar.gz

Trích xuất tệp TAR và thay đổi thư mục bằng các lệnh bên dưới.

$ tar -zxf apache-storm-2.1.0.tar.gz
$ cd apache-storm-2.1.0

Mở tệp Conf/Storm.yaml và thêm các dòng bên dưới vào nó.

storm.zookeeper.servers:
 - "localhost"
nimbus.seeds: [ "localhost" ]

Chạy lệnh để bắt đầu Nimbus.

$ bin/storm nimbus

Bắt đầu người giám sát bằng cách chạy bên dưới lệnh.

$ bin/storm supervisor

Bắt đầu UI.

$ bin/storm ui

Mở trình duyệt của bạn và nhập http: // localhost: 8080 để truy cập thông tin cụm bão và cấu trúc liên kết chạy của nó.

Khám phá

Bạn có thể tìm thấy các liên kết sau có liên quan:

 Tiếng Việt