Computação Distribuída com TORQUE Resource Manager

O TORQUE Resource Manager fornece controle sobre trabalhos de grupo e recursos de computação distribuída. É um produto Open Source avançado, baseado no projeto original PBS e incorpora o melhor da comunidade e do desenvolvimento profissional. Ele está atualmente em uso em dezenas de milhares de aplicações governamentais, acadêmicas e sites comerciais em todo o mundo.

[ Hits: 23.764 ]

Por: Juno Kim em 28/08/2013 | Blog: http://www.kim.eti.br


O que é o TORQUE?



O TORQUE Resource Manager fornece controle sobre trabalhos de grupo e recursos de computação distribuída.

É um produto Open Source avançado, baseado no projeto original PBS e incorpora o melhor da comunidade e do desenvolvimento profissional. Ele incorpora avanços significativos nas áreas de escalabilidade, confiabilidade e funcionalidade e está atualmente em uso em dezenas de milhares de aplicações governamentais, acadêmicas e sites comerciais em todo o mundo.

O TORQUE pode ser utilizado livremente, modificado e distribuído de acordo com as restrições da licença inclusa.

Um pouco da história do TORQUE

Antes, ele era chamado Sistema de Lotes Portátil (Portable Batch System ou, simplesmente, PBS), que é o nome do programa para computador que executa trabalho de programação. Sua principal tarefa é a de atribuir tarefas computacionais, ou seja, trabalhos em lote, entre os recursos computacionais disponíveis. Ele é frequentemente usado em conjunto com ambientes de cluster UNIX.

PBS é executado como um mecanismo agendador de tarefas por vários meta-programadores incluindo Moabe com recursos de cluster (que se tornou Adaptive Computing Enterprises Inc.)

PBS foi originalmente desenvolvido para a NASA em um projeto de contrato, que começou em 17 de junho de 1991. O contratante principal, que desenvolveu o código original, foi MRJ Soluções em Tecnologia. A MRJ foi adquirida pela Veridian no final de 1990.

E a Altair Engineering adquiriu os direitos de toda a tecnologia PBS e de propriedade intelectual de Veridian em 2003. A Altair Engineering atualmente possui e mantém a propriedade intelectual associada com PBS, e também emprega a equipe de desenvolvimento original da NASA.


As seguintes versões do PBS estão disponíveis atualmente:

OpenPBS :: versão original de código aberto lançado por MRJ em 1998:
TORQUE :: um variação do OpenPBS que é mantida pela Adaptive Computing Enterprises, Inc. (antiga Cluster Resources, Inc.):
PBS Works :: versão comercial de PBS oferecido pela Altair Engineering:
    Próxima página

Páginas do artigo
   1. O que é o TORQUE?
   2. Instalação e configuração - I
   3. Instalação e configuração - II
   4. Testes dos cluster
   5. Revisão
Outros artigos deste autor

A essência de ser Livre

Computação Distribuída com TORQUE Resource Manager - Parte 2

Configurando o proftpd com autenticação de usuário pelo passwd

Leitura recomendada

Saiba como ativar dois ou mais fbpagers no Fluxbox

Impressora JPG no Linux compartilhada para Windows

Daemons com shell script

Ovos de Páscoa no GNU/Linux

Instalando o asterisk no Debian GNU/Linux

  
Comentários
[1] Comentário enviado por leodamasceno em 28/08/2013 - 13:45h

Muito interessante. Tenho total interesse em testar essa ferramenta. Parabens pelo artigo.

[2] Comentário enviado por edul0pes em 29/08/2013 - 15:56h

Parabéns pelo artigo.

[3] Comentário enviado por gnumoksha em 02/09/2013 - 13:41h

Interessante. Obrigado pelo artigo.

Em tempo, por que tanta memoria swap?

[4] Comentário enviado por juno em 02/09/2013 - 17:12h

Olá amigo tobiasgnu,
O motivo de ter a memória extensa é para precaver os nós de travarem pois rodamos um programa de reconhecimento de fala que ocupa 100% da memória física em quanto carrega.


[5] Comentário enviado por fabiofima em 08/04/2016 - 13:30h

Olá, primeiramente, obrigado pelo tutorial, como sempre desse site, muito bem explicado e didático.
Instalei o toque no nosso cluster aqui, tal contendo 1 head node e 6 slaves. A instalação e configuração deu tudo certo, o pbsnodes -a mostra corretamente os nodos, em estado "free". Se submeto um submitionfile.sh com um comando básico, como por exemplo wget ou uma sequencia de locates, ele consegue escalonar o job, executa, ficando em R no qstat até acabar e finaliza... Mas quando submeto uma execução de um software que usamos aqui chamado Gromacs, que tem instalado em todos os slave nodes, ele vai para estado E e C no qstat, sem deixar nenhum log, erro, output, nada... Nem no "Torque/serv_logs"... Se executo o mesmo comando, localmente no nodo, sem usar o torque, ele executa e fica correto como precisava ser.
Alguém poderia me ajudar? Não forneci mais informações porque não sei nem achar qual é o erro.
Obrigado desde já!!!


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts