Apache Spark Ferramenta de big data grátis
Processamento de dados na memória com ferramenta gratuita de big data
Motor de análise unificado flexível, leve e mais rápido para processamento de dados em larga escala. Integrado ao Hadoop e suporta vários idiomas.
Visão geral
O Apache Spark é um mecanismo de processamento de big data de código aberto e gratuito. É baseado no Hadoop MapReduce e foi projetado para computação rápida. O Apache Spark estende o modelo Hadoop MapReduce para permitir que mais tipos de cálculos, como consultas interativas e processamento de fluxos, sejam executados com mais eficiência. Ele suporta computação de cluster em memória, que aumenta a velocidade de processamento de um aplicativo. O Apache Spark lida com uma variedade de cargas de trabalho, incluindo algoritmos iterativos, consultas interativas e streaming. Ele vem com recursos prontos para uso, como tolerância a falhas, análise avançada, avaliação preguiçosa, processamento de fluxos em tempo real, processamento de dados na memória e muito mais. Mais de 80 operadores de alto nível estão disponíveis no Apache Spark, que pode ser usado para criar aplicativos paralelos. Ele também inclui uma API que permite o processamento de fluxos em tempo real. Em Apache Spark, todas as transformações são preguiçosas por natureza. Isso implica que, em vez de fornecer o resultado imediatamente, ele cria um novo RDD a partir do existente. Como resultado, o desempenho do sistema é aprimorado. O Apache Spark suporta vários idiomas como Java, R, Scala, Python, enquanto o Hadoop só suporta o idioma Java. O Apache Spark permite o processamento na memória de tarefas que aumentam a velocidade maciça. O Apache Spark funciona bem com o sistema de arquivos HDFS do Hadoop e vários formatos de arquivo como Parquet, JSON, CSV, ORC. O Hadoop pode ser facilmente integrado ao Apache Spark como uma fonte de dados de entrada ou destino.
Características
A seguir estão os principais recursos do Apache Spark:
- código aberto e de código aberto
- velocidade de processamento rápido
- flexível e facilidade de usar
- Processamento de fluxo em tempo real
- reutilização
- Tolerância ao erro
- Suporte a vários idiomas
- integrado ao Hadoop
- Custo benefício
- análise avançada
- Computação na memória
Instalação
Instale o Apache Spark no Ubuntu 18.04
Execute o comando para baixar o Apache Spark.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Extraia o arquivo TAR usando o comando abaixo.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Mova o diretório extraído.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Abra o arquivo .bashrc e adicione as linhas abaixo.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Ative o ambiente com o seguinte comando.
$ source ~/.bashrc
Inicie o Spark Master Server.
$ start-master.sh
Abra o navegador e digite http: // server-ip: 8080 para acessar a interface da web.