Cómo instalar Apache Hadoop en CentOS 8

En este tutorial, le mostraremos cómo instalar Apache Hadoop en CentOS 8. Para aquellos de ustedes que no sabían, Apache Hadoop es un marco de código abierto que se utiliza para el almacenamiento distribuido, así como para el procesamiento distribuido de grandes datos en grupos de computadoras que se ejecutan en hardware básico. En lugar de depender del hardware para brindar alta disponibilidad, la biblioteca en sí está diseñada para detectar y manejar fallas en la capa de la aplicación, por lo que brinda un servicio de alta disponibilidad sobre un grupo de computadoras, cada una de las cuales puede ser propensa a fallas.

Este artículo asume que tiene al menos un conocimiento básico de Linux, sabe cómo usar el shell y, lo que es más importante, aloja su sitio en su propio VPS. La instalación es bastante simple y se supone que está ejecutando en la cuenta raíz, si no, es posible que deba agregar ‘sudo‘ a los comandos para obtener privilegios de root. Te mostraré la instalación paso a paso de Apache Hadoop en un servidor CentOS 8.

requisitos previos

  • Un servidor que ejecuta uno de los siguientes sistemas operativos: CentOS 8.
  • Se recomienda que utilice una instalación de sistema operativo nueva para evitar posibles problemas.
  • Acceso SSH al servidor (o simplemente abra la Terminal si está en una computadora de escritorio).
  • Ynon-root sudo usero acceder a laroot user. Recomendamos actuar como unnon-root sudo usersin embargo, puede dañar su sistema si no tiene cuidado al actuar como raíz.

Instalar Apache Hadoop en CentOS 8

Paso 1. Primero, comencemos asegurándonos de que su sistema esté actualizado.

sudo dnf update

Paso 2. Instalación de Java.

Apache Hadoop está escrito en Java y solo es compatible con la versión 8 de Java. Puede instalar OpenJDK 8 con el siguiente comando:

sudo dnf install java-1.8.0-openjdk ant

Compruebe la versión de Java:

java -version

Paso 3. Instalación de Apache Hadoop CentOS 8.

Se recomienda crear un usuario normal para configurar Apache Hadoop, crea un usuario usando el siguiente comando:

useradd hadoop
passwd hadoop

A continuación, necesitaremos configurar la autenticación SSH sin contraseña para el sistema local:

su - hadoop
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 640 ~/.ssh/authorized_keys

Verifique la configuración de ssh sin contraseña con el comando:

ssh localhost

Siguientes pasos, descargue la última versión estable de Apache Hadoop, al momento de escribir este artículo es la versión 3.2.1:

wget https://apachemirror.wuchna.com/hadoop/common/hadoop-3.2.1/hadoop-3.2.1.tar.gz
tar -xvzf hadoop-3.2.1.tar.gz
mv hadoop-3.2.1 hadoop

Luego, deberá configurar las variables de entorno de Hadoop y Java en su sistema:

nano ~/.bashrc
export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk-1.8.0.232.b09-2.el8_1.x86_64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Ahora activamos las variables de entorno con el siguiente comando:

source ~/.bashrc

A continuación, abra el archivo de variables de entorno de Hadoop:

nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk-1.8.0.232.b09-2.el8_1.x86_64/

Hadoop tiene muchos archivos de configuración, que deben configurarse según los requisitos de su infraestructura de Hadoop. Comencemos con la configuración con una configuración básica de clúster de un solo nodo de Hadoop:

cd $HADOOP_HOME/etc/hadoop

Edite core-site.xml:

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Cree los directorios namenode y datanode en la página de inicio del usuario de hadoop/home/hadoopdirectorio:

mkdir -p ~/hadoopdata/hdfs/{namenode,datanode}

Para editarhdfs-site.xml:

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

Para editarmapred-site.xml:

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

Editar hilo-sitio.xml:

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

Ahora formatee namenode usando el siguiente comando, no olvide verificar el directorio de almacenamiento:

hdfs namenode -format

Inicie los demonios NameNode y DataNode utilizando los scripts proporcionados por Hadoop:

start-dfs.sh

Paso 4. Configure el cortafuegos.

Ejecute el siguiente comando para permitir Apache Conexiones de Hadoop a través del firewall:

firewall-cmd --permanent --add-port=9870/tcp
firewall-cmd --permanent --add-port=8088/tcp
firewall-cmd --reload

Paso 5. Acceso Apache Hadoop.

Apache Hadoop estará disponible en el puerto HTTP 9870 y el puerto 50070 de forma predeterminada. Abra su navegador favorito y vaya ahttps://your-domain.com:9870ohttps://your-server-ip:9870.

¡Felicidades! Ha instalado con éxito Apache Hadoop. Gracias por usar este tutorial para instalar Hadoop en el sistema CentOS 8. Para obtener ayuda adicional o información útil, le recomendamos que consulteel oficial Apache Sitio web de Hadoop.