Narzędzie do przetwarzania danych rzeczywistych

Apache Storm Bezpłatne narzędzie Big Data

Bezpłatne narzędzia do analizy dużych danych do przetwarzania strumieni danych

Szybko przetwarzaj dużą ilość danych w tolerancyjnej i poziomej skalowalnej metodzie przy użyciu narzędzia do przetwarzania dużych danych i uzyskuj dostęp do analizy danych w czasie rzeczywistym.

Przegląd

Apache Storm to narzędzie do przetwarzania danych w czasie rzeczywistym w czasie rzeczywistym. Jest to proste, przyjazne dla użytkownika narzędzie do przetwarzania dużych danych, które działa z dowolnym językiem programowania. Można go włączyć zarówno do małych, jak i dużych firm. Jest wysoce skalowalny i może zachować wydajność, nawet gdy obciążenie wzrasta, dodając zasoby w sposób liniowy. Apache Storm przetwarza strumienie danych w czasie rzeczywistym, podczas gdy Hadoop przetwarza dane w partiach. Istniejące technologie w kolejce i baz danych można zintegrować z Apache Storm. Gwarantuje przetwarzanie danych, nawet jeśli jeden lub więcej połączonych węzłów klastra się nie powiedzie lub wiadomości zostaną utracone. Apache Storm ma cztery komponenty, w tym krotność, strumień, wyrzuty i śruby. W Apache Storm krotek jest główną strukturą danych. Obsługuje wszystkie typy danych i ma listę uporządkowanych elementów. Strumień to nieo uporządkowana sekwencja krotek. Wyrzuty jest źródłem strumieni używanych do odczytu danych ze źródeł danych. Głównym interfejsem do implementacji wylewków jest IsPout. Ponadto dostępne jest wiele interfejsów, w tym IrichSpout, BaserichSpout i Kafkaspout. Śruby są składnikami logicznego przetwarzania. Wyrzuty wysyłają informacje do procesu śrub i śrub, co powoduje nowy strumień wyjściowy. Centralny interfejs do implementacji śrub nazywa się „Ibolt”. Ponadto Apache Storm jest znanym narzędziem analizy Big Data Big Data. W rezultacie wiele dużych korporacji używa go, takich jak Twitter, Navisite, Wego, Yahoo i wielu innych. To narzędzie analityczne w czasie rzeczywistym jest opracowywane w języku Java. Licencja na to narzędzie przetwarzania danych w czasie rzeczywistym to Apache 2.0.

Wymagania systemowe

Aby zainstalować burzę Apache, musisz mieć następujące oprogramowanie:

Java
Użytkownik z uprawnieniami sudo

Cechy

Poniżej znajdują się kluczowe cechy Stormu Apache:

Bezpłatne i open source
Przetwarzanie danych w czasie rzeczywistym
Szybki i niezawodny
wysoce skalowalne i równoległe
Tolerancja błędów
Prosty interfejs API
Używaj z dowolnym językiem
Łatwe w użyciu i wdrożeniu
Zintegruj z systemami kolejkowania i baz danych

Instalacja

Zainstaluj burzę Apache na Ubuntu 18.04

Zainstaluj Zookeeper Framework

Najpierw zainstaluj Zookeeper Framework na serwerze. Utwórz katalog i przejdź do niego.

$ mkdir ~/bigdata
$ cd ~/bigdata

Wykonaj polecenie, aby pobrać Zookeeper Framework.

$ wget https://downloads.apache.org/zookeeper/zookeeper-3.6.0/apache-zookeeper-3.6.0-bin.tar.gz

Wyodrębnij pliki i zmień katalog, uruchamiając poniżej polecenia.

$ tar xfvz apache-zookeeper-3.6.0-bin.tar.gz
$ cd apache-zookeeper-3.6.0-bin.tar.gz

Skopiuj przykładowy plik konfiguracyjny o nowej nazwie.

$ cp conf/zoo_sample.cfg conf/zoo.cfg

Otwórz plik CONF/ZOO.CFG i dodaj do niego następujący kod.

admin.enableServer=true
admin.serverPort=9990

Uruchom komendę, aby uruchomić Zookeeper.

$ bin/zkServer.sh start

Zainstaluj burzę Apache

Wykonaj polecenie, aby pobrać Apache Storm.

$ wget ftp://apache.uib.no/pub/apache/storm/apache-storm-2.1.0/apache-storm-2.1.0.tar.gz

Wyodrębnij plik TAR i Zmień katalog za pomocą poniższych poleceń.

$ tar -zxf apache-storm-2.1.0.tar.gz
$ cd apache-storm-2.1.0

Otwórz plik Conf/Storm.yaml i dodaj do niego poniżej linie.

storm.zookeeper.servers:
 - "localhost"
nimbus.seeds: [ "localhost" ]

Uruchom polecenie, aby uruchomić Nimbus.

$ bin/storm nimbus

Rozpocznij przełożonego, uruchamiając poniżej polecenie.

$ bin/storm supervisor

Rozpocznij interfejs użytkownika.

$ bin/storm ui

Otwórz przeglądarkę i wprowadź http: // localhost: 8080, aby uzyskać dostęp do informacji o klastrze Storm i jej działającej topologii.

Badać

Możesz znaleźć istotne następujące linki:

Top 5 narzędzi dużych zbiorów danych typu open source w 2021