Kif tinstalla u tikkonfigura Apache Hadoop fuq Nodu Uniku f'CentOS 7


Apache Hadoop huwa mibni ta' qafas ta' Sors Miftuħ għall-ħażna u l-ipproċessar tad-dejta mqassma ta' Big Data f'raggruppamenti ta' kompjuters. Il-proġett huwa bbażat fuq il-komponenti li ġejjin:

  1. Hadoop Common – fih il-libreriji u l-utilitajiet Java meħtieġa minn moduli Hadoop oħra.
  2. HDFS – Hadoop Distributed File System – Sistema ta' fajls skalabbli bbażata fuq Java distribwita f'nodi multipli.
  3. MapReduce – Qafas YARN għall-ipproċessar parallel ta' big data.
  4. Hadoop YARN: Qafas għall-ġestjoni tar-riżorsi tal-clusters.

Dan l-artikolu jiggwidak dwar kif tista 'tinstalla Apache Hadoop fuq cluster ta' nodi wieħed f'CentOS 7 (jaħdem ukoll għal verżjonijiet RHEL 7 u Fedora 23+). Dan it-tip ta 'konfigurazzjoni huwa wkoll referenzjat bħala Hadoop Pseudo-Distributed Mode.

Pass 1: Installa Java fuq CentOS 7

1. Qabel ma tipproċedi bl-installazzjoni Java, l-ewwel illoginja mal-utent tal-għeruq jew utent bi privileġġi tal-għeruq issettja l-isem tal-host tal-magna tiegħek bil-kmand li ġej.

# hostnamectl set-hostname master

Ukoll, żid rekord ġdid fil-fajl hosts bil-magna tiegħek stess FQDN biex tipponta lejn l-Indirizz IP tas-sistema tiegħek.

# vi /etc/hosts

Żid il-linja hawn taħt:

192.168.1.41 master.hadoop.lan

Ibdel l-isem tal-host u r-rekords tal-FQDN ta' hawn fuq bis-settings tiegħek stess.

2. Sussegwentement, mur fil-paġna tat-tniżżil ta' Oracle Java u aqbad l-aħħar verżjoni ta' Java SE Development Kit 8 fis-sistema tiegħek bl-għajnuna tal-kmand tal-curl:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Wara li jintemm it-tniżżil binarju Java, installa l-pakkett billi toħroġ il-kmand hawn taħt:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Pass 2: Installa Hadoop Framework f'CentOS 7

4. Sussegwentement, oħloq kont ta 'utent ġdid fis-sistema tiegħek mingħajr poteri ta' l-għeruq li aħna ser nużawh għall-mogħdija ta 'installazzjoni ta' Hadoop u l-ambjent tax-xogħol. Id-direttorju tad-dar tal-kont il-ġdid se joqgħod fid-direttorju /opt/hadoop.

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. Fil-pass li jmiss żur il-paġna Apache Hadoop sabiex tikseb il-link għall-aħħar verżjoni stabbli u tniżżel l-arkivju fis-sistema tiegħek.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Oħroġ l-arkivju l-kopja tal-kontenut tad-direttorju għall-passaġġ tad-dar tal-kont hadoop. Ukoll, kun żgur li tibdel il-permessi tal-fajls ikkupjati kif xieraq.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Sussegwentement, illoggja mal-utent ta 'hadoop u kkonfigura Hadoop u Java Environment Variables fis-sistema tiegħek billi teditja l-fajl .bash_profile.

# su - hadoop
$ vi .bash_profile

Ehmeż il-linji li ġejjin fl-aħħar tal-fajl:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Issa, inizjalizza l-varjabbli ambjentali u ċċekkja l-istatus tagħhom billi toħroġ il-kmandi hawn taħt:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Fl-aħħarnett, ikkonfigura l-awtentikazzjoni bbażata fuq iċ-ċavetta ssh għall-kont hadoop billi tħaddem il-kmandi ta 'hawn taħt (issostitwixxi l-hostname jew l-FQDN kontra l-kmand ssh-copy-id kif xieraq).

Ukoll, ħalli l-passphrase ffajljata vojta sabiex tilloggja awtomatikament permezz ta' ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan