Apache Spark é um framework de processamento distribuído que permite a análise de grandes volumes de dados em alta velocidade.
Ao instalar o Apache Spark em seu Ubuntu 20.04, você terá acesso a uma plataforma distribuída de processamento de dados em larga escala, capaz de lidar com enormes volumes de dados.
Além disso, oferece uma API intuitiva em diversas linguagens de programação, permitindo a realização de análises de dados avançadas e criação de aplicações de processamento de dados personalizadas.
Quer aproveitar os recursos do Spark e executar comandos Spark Shell para analisar dados em seu ambiente Ubuntu? Então, acompanhe este guia e descubra como instalar.
Vamos começar?
Para fazer a instalação, siga os passos abaixo:
-
- Abra o terminal e atualize a lista de pacotes disponíveis com o comando: sudo apt update
- Instale o Java Development Kit (JDK) com o seguinte comando: sudo apt install default-jdk
- Baixe a última versão do Apache Spark do site oficial. Selecione o pacote "Pre-built for Apache Hadoop" e a versão mais recente.
- Abra o terminal e vá até a pasta onde o pacote do Apache Spark foi baixado. Descompacte o arquivo usando o comando: tar xvf spark-<versão>.tgz. Substitua <versão> com a versão do Apache Spark baixada.
- Mova a pasta extraída para o diretório /opt com o comando: sudo mv spark-<versão>/ /opt/spark. Substitua <versão> com a versão do Apache Spark baixada.
- Defina a variável de ambiente SPARK_HOME para o caminho da pasta do Apache Spark com o comando: export SPARK_HOME=/opt/spark
- Adicione o caminho do diretório bin do Apache Spark ao PATH do sistema com o comando: export PATH=$PATH:$SPARK_HOME/bin
- Para garantir que as alterações feitas nos passos anteriores permaneçam mesmo após a reinicialização do sistema, adicione as duas linhas (com export) do passo 6 e 7 no arquivo ~/.bashrc. Para fazer isso, execute o comando: nano ~/.bashrc. Na última linha, adicione: export SPARK_HOME=/opt/spark e export PATH=$PATH:$SPARK_HOME/bin. Pressione Ctrl + X para sair, confirme a alteração e pressione Enter.
Por fim, verifique se o Spark está instalado corretamente, executando o seguinte comando: spark-shell. Se tudo estiver configurado, você verá a interface do Spark Shell.