Difference between revisions of "Como rodar seu experimento"

From VeRLab Wiki
Jump to: navigation, search
(O que você precisa)
(Durante a execução do seu experimento)
Line 40: Line 40:
 
<br>
 
<br>
 
Para monitorar seu experimento, é sugerido:
 
Para monitorar seu experimento, é sugerido:
# use um multiplexador de terminais, por exemplo, [https://www.hostinger.com.br/tutoriais/como-usar-tmux-lista-de-comandos/ tmux]  ou [https://byobu.org/ byobu]
+
# usar um multiplexador de terminais para manter sua sessão executando em segundo plano após desconectar o ssh. Nas máquinas da rede VeRLab/JLab temos instalado [https://www.verlab.dcc.ufmg.br/mediawiki/index.php/Trabalhando_remotamente tmux e byobu (link para tutoriais)]
#* usando um painel com htop (filtrando seu usuário, ou nome do executável)
+
# usar uma "pane" com htop, filtrando seu usuário, ou nome do executável;
#* usando outro painel com <code> watch nvidia-smi </code> (a tela é atualizada a cada 2 segundos)
+
# usar outra "pane" com <code> watch nvidia-smi </code> (a tela é atualizada a cada 2 segundos)
 
<br><br><br>
 
<br><br><br>

Revision as of 12:11, 16 June 2023

Página em construção

Os passos a seguir atendem para a grande maioria dos experimentos, se tem necessidade de algo diferente ou mais específico, procure um membro da equipe de infraestrutura do VeRLab/JLab.

O que você precisa

  1. Possuir um login no laboratório
  2. Criar seu ambiente de execução usando o Singularity
  3. Procurar na planilha de "Dados Gerais das Máquinas" um servidor de processamentos que atenda a seus requisitos de hardware na na área restrita do site (mesma credencial das máquinas)
  4. Preencher a intenção de uso da máquina na planilha de "Utilização e Experimentos com GPUs e CPUs" na área restrita do site (mesma credencial das máquinas)




Antes de rodar seu experimento

Grafana-exemplo.jpg
Tmux-exemplo.jpg
  1. Verifique se a máquina não está com os recursos ocupados:
    • Pode-se ter uma ideia geral na página da Grafana que tem link e instruções de login na área restrita do site do Verlab
      Infelizmente a Grafana está desativada no momento, precisamos de ajuda para colocar ela online novamente!
    • Parte 1: uso da CPU e RAM pode-se usar o htop ( como usar o htop )
    • Parte 2: uso da GPU (placa de vídeo) , pode-se rodar nvidia-smi .
      Os processos que estiverem carregados na memória da GPU além o Xorg (mesmo que com zero de processamento) mostram que tem usuários utilizando e vão precisar de algum recurso de CPU e RAM para a troca de contexto de seu experimento.
  2. Se a máquina estiver ocupada, pode-se conversar com quem está usando para saber quando termina seu experimento ou combinar um compartilhamento do uso




Durante a execução do seu experimento

Tmux-exemplo.jpg

Monitore o uso de recursos do seu experimento para garantir que ele não está vazando memória RAM e/ou consumindo todos recursos da máquina. Principalmente se a máquina for um chunkserver do storage (confira na lista de máquinas área restrita do site do Verlab).
O serviço de armazenamento distribuído, que chamamos de storage, contém todas as imagens singularity, datasets e é responsável pelo experimento de todos os colegas do Verlab/J.
Se seu experimento exaurir os recursos computacionais das máquinas chunkserver, todo sistema de storage fica lento e atrapalha o experimento de todos!


Para monitorar seu experimento, é sugerido:

  1. usar um multiplexador de terminais para manter sua sessão executando em segundo plano após desconectar o ssh. Nas máquinas da rede VeRLab/JLab temos instalado tmux e byobu (link para tutoriais)
  2. usar uma "pane" com htop, filtrando seu usuário, ou nome do executável;
  3. usar outra "pane" com watch nvidia-smi (a tela é atualizada a cada 2 segundos)