Ferramenta de processamento de dados do tempo real

Apache Storm Ferramenta de big data grátis

Ferramentas gratuitas de análise de big data para processamento de fluxos de dados

Processe rapidamente uma grande quantidade de dados em um método escalável tolerante a falhas e horizontal usando a ferramenta de processamento de big data e acesse a análise de dados em tempo real.

Visão geral

A Apache Storm é uma ferramenta de processamento de dados em tempo real em tempo real. É uma ferramenta de processamento de big data simples e fácil de usar que funciona com qualquer linguagem de programação. Pode ser incorporado em pequenas e grandes empresas. É altamente escalável e pode manter a eficiência, mesmo quando a carga aumenta, adicionando recursos de maneira linear. O Apache Storm processa fluxos de dados em tempo real, enquanto o Hadoop processa dados em lotes. As tecnologias de filas e bancos de dados existentes podem ser integrados à Storm Apache. Ele garante o processamento de dados, mesmo que um ou mais dos nós vinculados do cluster falhem ou as mensagens sejam perdidas. A Apache Storm possui quatro componentes, incluindo tupla, fluxo, bicos e parafusos. Em Apache Storm, a tupla é a principal estrutura de dados. Ele suporta todos os tipos de dados e possui uma lista de elementos ordenados. O fluxo é uma sequência não ordenada de tuplas. O SPOUTS é uma fonte de fluxos usados para ler dados de fontes de dados. A principal interface para implementar bicos é o ISPOUT. Além disso, existem inúmeras interfaces disponíveis, incluindo Irichspout, Baserichspout e Kafkaspout. Os parafusos são componentes do processamento lógico. Os bicos enviam informações para o processo de parafusos e parafusos, o que resulta em um novo fluxo de saída. A interface central para a implementação de parafusos é chamada de “iBolt”. Além disso, o Apache Storm é bem conhecido ferramenta de análise de big data. Como resultado, muitas grandes empresas o usam, como Twitter, Navisite, Wego, Yahoo e muitas outras. Essa ferramenta de análise em tempo real é desenvolvida no idioma Java. A licença para essa ferramenta de processamento de dados em tempo real é o Apache 2.0.

Requisitos de sistema

Para instalar o Apache Storm, você deve ter os seguintes softwares:

Java
Usuário com privilégios sudo

Características

A seguir, estão as principais características da Apache Storm:

código aberto e de código aberto
Processamento de dados em tempo real
rápido e confiável
altamente escalável e paralelável
Tolerância ao erro
API simples
Use com qualquer idioma
Fácil de usar e implantar
integrar -se aos sistemas de filas e bancos de dados

Instalação

Instale o Apache Storm no Ubuntu 18.04

Instale a estrutura do Zookeeper

Primeiro, instale a estrutura do Zookeeper no servidor. Crie diretório e navegue nele.

$ mkdir ~/bigdata
$ cd ~/bigdata

Execute o comando para baixar a estrutura do Zookeeper.

$ wget https://downloads.apache.org/zookeeper/zookeeper-3.6.0/apache-zookeeper-3.6.0-bin.tar.gz

Extraia os arquivos e altere o diretório executando os comandos abaixo.

$ tar xfvz apache-zookeeper-3.6.0-bin.tar.gz
$ cd apache-zookeeper-3.6.0-bin.tar.gz

Copie o arquivo de configuração da amostra com o novo nome.

$ cp conf/zoo_sample.cfg conf/zoo.cfg

Abra o arquivo conf/zoo.cfg e adicione o seguinte código nele.

admin.enableServer=true
admin.serverPort=9990

Execute o comando para iniciar o Zookeeper.

$ bin/zkServer.sh start

Instale o Apache Storm

Execute o comando para baixar o Apache Storm.

$ wget ftp://apache.uib.no/pub/apache/storm/apache-storm-2.1.0/apache-storm-2.1.0.tar.gz

Extraia o arquivo TAR e altere o diretório usando os comandos abaixo.

$ tar -zxf apache-storm-2.1.0.tar.gz
$ cd apache-storm-2.1.0

Abra o arquivo conf/storm.yaml e adicione as linhas abaixo.

storm.zookeeper.servers:
 - "localhost"
nimbus.seeds: [ "localhost" ]

Execute o comando para iniciar o nimbus.

$ bin/storm nimbus

Inicie o supervisor executando o comando abaixo.

$ bin/storm supervisor

Comece a interface do usuário.

$ bin/storm ui

Abra seu navegador e digite http: // localhost: 8080 para acessar as informações do cluster de tempestades e sua topologia em execução.

Explore

Você pode encontrar os seguintes links relevantes:

5 principais ferramentas de big data de código aberto em 2021