Tutorial hadoop - Guia prático de um cluster com 3 computadores

Seu chefe disse que para aumentar o lucro da empresa é necessário criar um buscador de site (ex.: Google), ou seja, fazer uma pesquisa de forma eficiente em um arquivo com 10GB de tamanho por exemplo. Então conheça na prática como a ferramenta hadoop pode lhe ajudar.

[ Hits: 36.311 ]

Por: Ronaldo Borges em 21/12/2015 | Blog: https://www.facebook.com/ronyjah1


Possíveis problemas



Caso edite algum arquivo de configuração do hadoop, deverá replicar para todas as outras máquinas, deletar nos slaves o diretório /tmp/hadoop-[USUARIO HADOOP], realizar os passos descritos na página "iniciando cluster hadoop.

Sempre que reiniciar as máquinas verifique se perdeu a configuração de hostname, pelo comando hostname -f.

Teste máquinas com 10 GB de espaço livre. Testei com 1 GB e não subiu serviço corretamente.

Eu editei diretamente o arquivo hadoop-env.sh para configurar dois parâmetros: local do diretório do java e parâmetros de execução do runtime do java. No primeiro caso, você pode ter instalado o java em outro local. Então para testar se informou o local corretamente, teste o comando abaixo dentro do diretório do hadoop:

bin/hadoop version

Resultado esperado:

Hadoop 2.6.2
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 0cfd050febe4a30b1ee1551dcc527589509fb681
Compiled by jenkins on 2015-10-22T00:42Z
Compiled with protoc 2.5.0
From source with checksum f9ebb94bf5bf9bec892825ede28baca
This command was run using /opt/hadoop/hadoop/share/hadoop/common/hadoop-common-2.6.2.jar


Se acaso, executar o comando sbin/start-dfs.sh e aparecer mensagens como:

VM: ssh: Could not resolve hostname VM: Name or service not known
You: ssh: Could not resolve hostname You: Name or service not known


Edite o arquivo hadoop-env.sh conforme abaixo.

De:

export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true"

Para:

export HADOOP_OPTS="$HADOOP_OPTS -XX:-PrintWarnings -Djava.net.preferIPv4Stack=true"

Página anterior    

Páginas do artigo
   1. Descrição
   2. Configurando o ambiente nos computadores para receber o cluster hadoop
   3. Instalação e configuração do hadoop
   4. Iniciando o cluster hadoop
   5. Testando o cluster Hadoop
   6. Possíveis problemas
Outros artigos deste autor

Tutorial - Aplicação em C para transferência de arquivo usando socket TCP e Thread

Leitura recomendada

Zoneminder: Substituindo um Unifi NVR

PPoE Mikrotik - QoS Dinâmico e Individual

Montagem de Cluster

Tutorial de instalação e configuração do CACIC 3.1.15

Como encontrar o NetID e o Broadcast de uma determinada rede

  
Comentários
[1] Comentário enviado por Ed_slacker em 21/12/2015 - 13:55h

Para fins de estudo e conhecimento o cenário proposto pelo artigo é valido. Em ambiente real não. Só pelo overhead gerado pelas tecnologias citadas mais a infraestrutura, a aplicação desta solução não vale a pena. O ecossistema Haddop deve preferencialmente ser usado quando REALMENTE o desafio de coleta, processamento e análise de dados demandam artilharia pesada! Deixo como sugestão a leitura desta apresentação e veja como problemas similares com um volume muito mais brutal de dados foram analisados usando apenas LINUX! http://slides.com/ronie/fbp_2015#/

[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!

[3] Comentário enviado por ronyjah em 28/12/2015 - 20:44h


[2] Comentário enviado por Lwkas em 28/12/2015 - 17:35h

Muito bom!


Fico agradecido por seu elogio, especialmente se este artigo for útil.

[4] Comentário enviado por HenriqueSantana em 17/05/2016 - 23:03h

Cara, parabéns. Ótimo post de material riquíssimo.


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts