Apache Spark Бесплатный инструмент больших данных

Обработка данных в памяти с бесплатным инструментом больших данных

Гибкий, легкий и более быстрый унифицированный аналитический двигатель для крупномасштабной обработки данных. Интегрированный с Hadoop и поддерживает несколько языков.

Обзор

Apache Spark - это бесплатный и открытый механизм обработки больших данных. Он основан на Hadoop MapReduce и предназначен для быстрых вычислений. Apache Spark расширяет модель Hadoop MapReduce, чтобы обеспечить больше типов вычислений, таких как интерактивные запросы и обработка потоков, для более эффективного выполнения. Он поддерживает кластерные вычисления в памяти, что повышает скорость обработки приложения. Apache Spark обрабатывает множество рабочих нагрузок, включая итерационные алгоритмы, интерактивные запросы и потоковую передачу. Он поставляется с необычными функциями, такими как толерантность к разлому, усовершенствованная аналитика, ленивая оценка, обработка потока в реальном времени, обработка данных в памяти и многое другое. Более 80 операторов высокого уровня доступны в Apache Spark, которую можно использовать для создания параллельных приложений. Он также включает в себя API, который позволяет обрабатывать потоковую передачу в реальном времени. В Apache Spark все преобразования ленивы по своей природе. Это подразумевает, что вместо того, чтобы немедленно предоставить результат, он создает новый RDD из существующего. В результате производительность системы улучшается. Apache Spark поддерживает несколько языков, таких как Java, R, Scala, Python, тогда как Hadoop поддерживает только язык Java. Apache Spark позволяет в память о обработке задач, которые увеличивают массовую скорость. Apache Spark хорошо работает с файловой системой HDFS от Hadoop и несколькими форматами файлов, такими как Parquet, JSON, CSV, ORC. Hadoop может быть легко интегрирован с Apache Spark в качестве источника входных данных или пункта назначения.

Системные Требования

Чтобы установить Apache Spark, вы должны иметь следующие программные материалы:

Джава
Скала

Функции

Ниже приведены ключевые особенности Apache Spark:

Бесплатный и открытый исходный код
быстрая скорость обработки
Гибкий и простой в использовании
Обработка потока в реальном времени
повторно использование
Отказоустойчивость
Поддерживать несколько языков
Интегрирован с Hadoop
Экономическая эффективность
Расширенная аналитика
Учитывание в памяти

Монтаж

Установить Apache Spark на Ubuntu 18.04

Выполнить команду, чтобы загрузить Apache Spark.

$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz

Извлеките файл TAR, используя команду ниже.

$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz

Переместите извлеченный каталог.

$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark

Откройте файл .bashrc и добавьте в него строки ниже.

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Активируйте среду со следующей командой.

$ source ~/.bashrc

Запустите Spark Master Server.

$ start-master.sh

Откройте браузер и введите http: // server-ip: 8080 для доступа к веб-интерфейсу.

Исследовать

Вы можете найти следующие ссылки актуальными:

5 лучших инструментов больших данных с открытым исходным кодом в 2021 году