开源大数据工具

Hadoop 免费的大数据工具

使用大数据分析软件分析复杂的数据集

使用免费和开源的大数据工具更快地处理复杂数据。处理大量批量,各种数据集并改善业务决策。

概述

Hadoop是一个免费的开源大数据工具。它是强大,可靠和可扩展的大数据分析软件。 HDFS(高分布文件系统),MapReduce和Yarn是Hadoop的三个关键组件。 HDFS是由两种节点组成的存储层:纳米诺德和datanodes。关于一个块的位置的元数据存储在Namenode中。在预定的时期内,Datanodes将块存储并将块报告发送到Namenode。 MAPREDUCE处理层分为两个阶段:地图相位和减少相。它旨在同时处理在几个节点上分布的数据。在Hadoop大数据中,纱线是工作计划和资源管理层。 Hadoop是用于处理大数据的最佳大数据软件之一。 Hadoop群集具有高度可扩展的,因此它允许水平和垂直缩放到Hadoop框架。它具有依赖复制机制以确保容错性的容错函数。 Hadoop确保数据仍然可用,即使情况不顺利。如果其中一个数据码失败,则用户可以从具有相同数据副本的其他数据台上访问数据。 Hadoop是一个分布式数据存储系统,可通过一组节点来处理数据。结果,它赋予了Hadoop Framework闪电处理功能。

系统要求

为了安装Hadoop,您必须具有以下软件: -Java

  • 具有sudo特权的用户

特征

以下是Hadoop的关键特征:

  • 免费和开源
  • 更快的数据处理
  • 分布式处理
  • 容错
  • 可靠且可扩展
  • 易于使用和成本效益
  • 数据局部性
  • 数据可用性高

安装

在Ubuntu上安装Hadoop

首先,在下面运行命令以安装OpenSSH服务器和客户端。

sudo apt install openssh-server openssh-client -y

执行命令下载Hadoop。

wget https://downloads.apache.org/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz

提取文件以启动Hadoop安装。

tar xzf hadoop-3.2.1.tar.gz

探索

您可能会发现以下链接相关:

 简体中文