Apache Spark Бесплатный инструмент больших данных
Обработка данных в памяти с бесплатным инструментом больших данных
Гибкий, легкий и более быстрый унифицированный аналитический двигатель для крупномасштабной обработки данных. Интегрированный с Hadoop и поддерживает несколько языков.
Обзор
Apache Spark - это бесплатный и открытый механизм обработки больших данных. Он основан на Hadoop MapReduce и предназначен для быстрых вычислений. Apache Spark расширяет модель Hadoop MapReduce, чтобы обеспечить больше типов вычислений, таких как интерактивные запросы и обработка потоков, для более эффективного выполнения. Он поддерживает кластерные вычисления в памяти, что повышает скорость обработки приложения. Apache Spark обрабатывает множество рабочих нагрузок, включая итерационные алгоритмы, интерактивные запросы и потоковую передачу. Он поставляется с необычными функциями, такими как толерантность к разлому, усовершенствованная аналитика, ленивая оценка, обработка потока в реальном времени, обработка данных в памяти и многое другое. Более 80 операторов высокого уровня доступны в Apache Spark, которую можно использовать для создания параллельных приложений. Он также включает в себя API, который позволяет обрабатывать потоковую передачу в реальном времени. В Apache Spark все преобразования ленивы по своей природе. Это подразумевает, что вместо того, чтобы немедленно предоставить результат, он создает новый RDD из существующего. В результате производительность системы улучшается. Apache Spark поддерживает несколько языков, таких как Java, R, Scala, Python, тогда как Hadoop поддерживает только язык Java. Apache Spark позволяет в память о обработке задач, которые увеличивают массовую скорость. Apache Spark хорошо работает с файловой системой HDFS от Hadoop и несколькими форматами файлов, такими как Parquet, JSON, CSV, ORC. Hadoop может быть легко интегрирован с Apache Spark в качестве источника входных данных или пункта назначения.
Системные Требования
Чтобы установить Apache Spark, вы должны иметь следующие программные материалы:
- Джава
- Скала
Функции
Ниже приведены ключевые особенности Apache Spark:
- Бесплатный и открытый исходный код
- быстрая скорость обработки
- Гибкий и простой в использовании
- Обработка потока в реальном времени
- повторно использование
- Отказоустойчивость
- Поддерживать несколько языков
- Интегрирован с Hadoop
- Экономическая эффективность
- Расширенная аналитика
- Учитывание в памяти
Монтаж
Установить Apache Spark на Ubuntu 18.04
Выполнить команду, чтобы загрузить Apache Spark.
$ wget https://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
Извлеките файл TAR, используя команду ниже.
$ tar -zxf spark-3.1.1-bin-hadoop3.2.tgz
Переместите извлеченный каталог.
$ sudo mv spark-3.1.1-bin-hadoop3.2 /opt/spark
Откройте файл .bashrc и добавьте в него строки ниже.
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Активируйте среду со следующей командой.
$ source ~/.bashrc
Запустите Spark Master Server.
$ start-master.sh
Откройте браузер и введите http: // server-ip: 8080 для доступа к веб-интерфейсу.