Herramienta de procesamiento de datos de verdad

Apache Storm Herramienta gratuita de big data

Herramientas gratuitas de análisis de big data para procesar flujos de datos

Procese rápidamente una gran cantidad de datos en un método escalable tolerante a fallas y horizontal utilizando la herramienta de procesamiento de big data y acceda a análisis de datos en tiempo real.

Descripción general

Apache Storm es una herramienta de procesamiento de datos en tiempo real de código abierto. Es una herramienta de procesamiento de big data simple y fácil de usar que funciona con cualquier lenguaje de programación. Se puede incorporar en pequeñas y grandes empresas. Es altamente escalable y puede mantener la eficiencia incluso cuando la carga aumenta, agregando recursos de manera lineal. Apache Storm procesa los flujos de datos en tiempo real, mientras que Hadoop procesa datos en lotes. Las tecnologías existentes de colas y bases de datos se pueden integrar con Apache Storm. Garantiza el procesamiento de datos incluso si uno o más de los nodos vinculados del clúster falla o se pierden mensajes. Apache Storm tiene cuatro componentes que incluyen tupla, transmisión, picos y pernos. En Apache Storm, la tupla es la estructura de datos primaria. Admite todos los tipos de datos y tiene una lista de elementos ordenados. Stream es una secuencia desordenada de tuplas. Spouts es una fuente de transmisiones que se utiliza para leer datos de fuentes de datos. La interfaz principal para implementar Souts es ISpout. Además, hay numerosas interfaces disponibles, incluidas Irichspout, Baserichspout y Kafkaspout. Los pernos son componentes del procesamiento lógico. Las boquillas envían información al proceso de pernos y pernos, lo que resulta en una nueva secuencia de salida. La interfaz central para implementar pernos se llama “Ibolt”. Además, Apache Storm es la conocida herramienta de análisis de Big Data REE. Como resultado, muchas grandes corporaciones lo usan como Twitter, Navisite, Wego, Yahoo y muchas otras. Esta herramienta de análisis en tiempo real se desarrolla en lenguaje Java. La licencia para esta herramienta de procesamiento de datos en tiempo real es Apache 2.0.

Requisitos del sistema

Para instalar Apache Storm, debe tener los siguientes software:

Java
Usuario con privilegios de sudo

Características

Las siguientes son las características clave de Apache Storm:

código abierto y abierto
Procesamiento de datos en tiempo real
Rápido y confiable
Altamente escalable y paralelo
Tolerancia a fallos
API simple
Use con cualquier idioma
Fácil de usar e implementar
Integrarse con los sistemas de colas y bases de datos

Instalación

Instale la tormenta Apache en Ubuntu 18.04

Instale el marco Zookeeper

Primero, instale el marco Zookeeper en el servidor. Cree directorio y navegue hacia él.

$ mkdir ~/bigdata
$ cd ~/bigdata

Ejecutar el comando para descargar Zookeeper Framework.

$ wget https://downloads.apache.org/zookeeper/zookeeper-3.6.0/apache-zookeeper-3.6.0-bin.tar.gz

Extraiga los archivos y cambie el directorio ejecutando los comandos a continuación.

$ tar xfvz apache-zookeeper-3.6.0-bin.tar.gz
$ cd apache-zookeeper-3.6.0-bin.tar.gz

Copie el archivo de configuración de muestra con el nuevo nombre.

$ cp conf/zoo_sample.cfg conf/zoo.cfg

Abra el archivo conf/zoo.cfg y agregue el siguiente código.

admin.enableServer=true
admin.serverPort=9990

Ejecutar el comando para iniciar Zookeeper.

$ bin/zkServer.sh start

Instale la tormenta Apache

Ejecutar el comando para descargar Apache Storm.

$ wget ftp://apache.uib.no/pub/apache/storm/apache-storm-2.1.0/apache-storm-2.1.0.tar.gz

Extraiga el archivo TAR y cambie el directorio utilizando los comandos a continuación.

$ tar -zxf apache-storm-2.1.0.tar.gz
$ cd apache-storm-2.1.0

Abra el archivo Conf/Storm.yaml y agregue las líneas a continuación.

storm.zookeeper.servers:
 - "localhost"
nimbus.seeds: [ "localhost" ]

Ejecutar el comando para iniciar el nimbus.

$ bin/storm nimbus

Inicie el supervisor ejecutando el siguiente comando.

$ bin/storm supervisor

Empiece la interfaz de usuario.

$ bin/storm ui

Abra su navegador e ingrese http: // localhost: 8080 para acceder a la información del clúster de tormenta y su topología de ejecución.

Explorar

Puede encontrar los siguientes enlaces relevantes:

Top 5 herramientas de big data de código abierto en 2021