Kif Tinstalla u Twaqqaf Apache Spark fuq Ubuntu/Debian


Apache Spark huwa qafas ta' komputazzjoni distribwit ta' sors miftuħ li huwa maħluq biex jipprovdi riżultati ta' komputazzjoni aktar mgħaġġla. Hija magna komputazzjonali fil-memorja, li jfisser li d-dejta tiġi pproċessata fil-memorja.

Spark jappoġġja diversi APIs għal streaming, ipproċessar tal-grafiċi, SQL, MLLib. Jappoġġja wkoll Java, Python, Scala, u R bħala l-lingwi preferuti. Spark huwa installat l-aktar fi clusters Hadoop iżda tista 'wkoll tinstalla u tikkonfigura spark f'modalità waħedha.

F'dan l-artikolu, se nkunu qed naraw kif ninstallaw Apache Spark fid-distribuzzjonijiet ibbażati fuq Debian u Ubuntu.

Installa Java u Scala f'Ubuntu

Biex tinstalla Apache Spark f'Ubuntu, jeħtieġ li jkollok Java u Scala installati fuq il-magna tiegħek. Ħafna mid-distribuzzjonijiet moderni jiġu b'Java installat b'mod awtomatiku u tista 'tivverifikaha billi tuża l-kmand li ġej.

$ java -version

Jekk l-ebda output, tista 'tinstalla Java billi tuża l-artiklu tagħna dwar kif tinstalla Java fuq Ubuntu jew sempliċement tħaddem il-kmandi li ġejjin biex tinstalla Java fuq Ubuntu u distribuzzjonijiet ibbażati fuq Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Sussegwentement, tista 'tinstalla Scala mir-repożitorju apt billi tħaddem il-kmandi li ġejjin biex tfittex scala u tinstallaha.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Biex tivverifika l-installazzjoni ta 'Skala, mexxi l-kmand li ġej.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installa Apache Spark f'Ubuntu

Issa mur fil-kmand wget uffiċjali biex tniżżel il-fajl direttament fit-terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Issa iftaħ it-terminal tiegħek u aqleb fejn jitqiegħed il-fajl imniżżel tiegħek u mexxi l-kmand li ġej biex tiġbed il-fajl tal-qatran Apache Spark.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Fl-aħħarnett, ċċaqlaq id-direttorju Spark estratt għal /opt direttorju.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Ikkonfigura Varjabbli Ambjentali għal Spark

Issa trid tistabbilixxi ftit varjabbli ambjentali fil-fajl .profile tiegħek qabel ma tibda l-ispark.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Biex jiġi żgurat li dawn il-varjabbli tal-ambjent il-ġodda jkunu jistgħu jintlaħqu fil-qoxra u jkunu disponibbli għal Apache Spark, huwa wkoll obbligatorju li tħaddem il-kmand li ġej biex il-bidliet riċenti jidħlu fis-seħħ.

$ source ~/.profile

Il-binarji kollha relatati mal-ispark biex jibdew u jwaqqfu s-servizzi huma taħt il-folder sbin.

$ ls -l /opt/spark

Ibda Apache Spark f'Ubuntu

Mexxi l-kmand li ġej biex tibda s-servizz kaptan Spark u servizz slave.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Ladarba s-servizz jinbeda mur fil-browser u ittajpja l-paġna li ġejja tal-ispark tal-aċċess għall-URL. Mill-paġna, tista 'tara s-servizz tal-kaptan u l-iskjavi tiegħi beda.

http://localhost:8080/
OR
http://127.0.0.1:8080

Tista 'wkoll tiċċekkja jekk ispark-shell taħdimx tajjeb billi tniedi l-kmand spark-shell.

$ spark-shell

Dak hu għal dan l-artikolu. Aħna ser naqbduk b'artiklu ieħor interessanti dalwaqt.