Difference between revisions of "Como rodar seu experimento"

From VeRLab Wiki
Jump to: navigation, search
(Página em construção)
(O que você precisa)
Line 5: Line 5:
 
# Possuir um login no laboratório
 
# Possuir um login no laboratório
 
# Criar seu ambiente de execução usando o [[Singularity]]
 
# Criar seu ambiente de execução usando o [[Singularity]]
# Procurar na planilha de "'''Dados Gerais das Máquinas'''" um servidor de processamentos que atenda a seus requisitos de hardware ( [https://www.verlab.dcc.ufmg.br/restrict-area/ Disponível na área restrita aos membros Verlab/J, mesma credencial das máquinas])
+
# Procurar na planilha de "'''Dados Gerais das Máquinas'''" um servidor de processamentos que atenda a seus requisitos de hardware na [https://www.verlab.dcc.ufmg.br/restrict-area/ na área restrita do site (mesma credencial das máquinas)]
 +
# Preencher a intenção de uso da máquina na planilha de "'''Utilização e Experimentos com GPUs e CPUs'''" [https://www.verlab.dcc.ufmg.br/restrict-area/ na área restrita do site (mesma credencial das máquinas)]
 
<br><br><br>
 
<br><br><br>
  

Revision as of 16:04, 14 June 2023

Página em construção

Os passos a seguir atendem para a grande maioria dos experimentos, se tem necessidade de algo diferente ou mais específico, procure um membro da equipe de infraestrutura do VeRLab/JLab.

O que você precisa

  1. Possuir um login no laboratório
  2. Criar seu ambiente de execução usando o Singularity
  3. Procurar na planilha de "Dados Gerais das Máquinas" um servidor de processamentos que atenda a seus requisitos de hardware na na área restrita do site (mesma credencial das máquinas)
  4. Preencher a intenção de uso da máquina na planilha de "Utilização e Experimentos com GPUs e CPUs" na área restrita do site (mesma credencial das máquinas)




Antes de rodar seu experimento

Grafana-exemplo.jpg
Tmux-exemplo.jpg
  1. Verifique se a máquina não está com os recursos ocupados:
    • Pode-se ter uma ideia geral na página da Grafana que tem link e instruções de login na área restrita do site do Verlab
      Infelizmente a Grafana está desativada no momento, precisamos de ajuda para colocar ela online novamente!
    • Parte 1: uso da CPU e RAM pode-se usar o htop ( como usar o htop )
    • Parte 2: uso da GPU (placa de vídeo) , pode-se rodar nvidia-smi .
      Os processos que estiverem carregados na memória da GPU além o Xorg (mesmo que com zero de processamento) mostram que tem usuários utilizando e vão precisar de algum recurso de CPU e RAM para a troca de contexto de seu experimento.
  2. Se a máquina estiver ocupada, pode-se conversar com quem está usando para saber quando termina seu experimento ou combinar um compartilhamento do uso




Durante a execução do seu experimento

Tmux-exemplo.jpg

Monitore o uso de recursos do seu experimento para garantir que ele não está vazando memória RAM e/ou consumindo todos recursos da máquina. Principalmente se a máquina for um chunkserver do storage (confira na lista de máquinas área restrita do site do Verlab).
O serviço de armazenamento distribuído, que chamamos de storage, contém todas as imagens singularity, datasets e é responsável pelo experimento de todos os colegas do Verlab/J.
Se seu experimento exaurir os recursos computacionais das máquinas chunkserver, todo sistema de storage fica lento e atrapalha o experimento de todos!


Para monitorar seu experimento, é sugerido:

  1. use um multiplexador de terminais, por exemplo, tmux ou byobu
    • usando um painel com htop (filtrando seu usuário, ou nome do executável)
    • usando outro painel com watch nvidia-smi (a tela é atualizada a cada 2 segundos)