Difference between revisions of "Como rodar seu experimento"
From VeRLab Wiki
Mauferrari (talk | contribs) (→O que você precisa) |
Mauferrari (talk | contribs) (→Durante a execução do seu experimento) |
||
| Line 40: | Line 40: | ||
<br> | <br> | ||
Para monitorar seu experimento, é sugerido: | Para monitorar seu experimento, é sugerido: | ||
| − | # | + | # usar um multiplexador de terminais para manter sua sessão executando em segundo plano após desconectar o ssh. Nas máquinas da rede VeRLab/JLab temos instalado [https://www.verlab.dcc.ufmg.br/mediawiki/index.php/Trabalhando_remotamente tmux e byobu (link para tutoriais)] |
| − | # | + | # usar uma "pane" com htop, filtrando seu usuário, ou nome do executável; |
| − | # | + | # usar outra "pane" com <code> watch nvidia-smi </code> (a tela é atualizada a cada 2 segundos) |
<br><br><br> | <br><br><br> | ||
Revision as of 12:11, 16 June 2023
Contents
Página em construção
Os passos a seguir atendem para a grande maioria dos experimentos, se tem necessidade de algo diferente ou mais específico, procure um membro da equipe de infraestrutura do VeRLab/JLab.
O que você precisa
- Possuir um login no laboratório
- Criar seu ambiente de execução usando o Singularity
- Procurar na planilha de "Dados Gerais das Máquinas" um servidor de processamentos que atenda a seus requisitos de hardware na na área restrita do site (mesma credencial das máquinas)
- Preencher a intenção de uso da máquina na planilha de "Utilização e Experimentos com GPUs e CPUs" na área restrita do site (mesma credencial das máquinas)
Antes de rodar seu experimento
- Verifique se a máquina não está com os recursos ocupados:
-
Pode-se ter uma ideia geral na página da Grafana que tem link e instruções de login na área restrita do site do VerlabInfelizmente a Grafana está desativada no momento, precisamos de ajuda para colocar ela online novamente! - Parte 1: uso da CPU e RAM pode-se usar o htop ( como usar o htop )
- Parte 2: uso da GPU (placa de vídeo) , pode-se rodar
nvidia-smi.
Os processos que estiverem carregados na memória da GPU além o Xorg (mesmo que com zero de processamento) mostram que tem usuários utilizando e vão precisar de algum recurso de CPU e RAM para a troca de contexto de seu experimento.
-
- Se a máquina estiver ocupada, pode-se conversar com quem está usando para saber quando termina seu experimento ou combinar um compartilhamento do uso
Durante a execução do seu experimento
Monitore o uso de recursos do seu experimento para garantir que ele não está vazando memória RAM e/ou consumindo todos recursos da máquina. Principalmente se a máquina for um chunkserver do storage (confira na lista de máquinas área restrita do site do Verlab).
O serviço de armazenamento distribuído, que chamamos de storage, contém todas as imagens singularity, datasets e é responsável pelo experimento de todos os colegas do Verlab/J.
Se seu experimento exaurir os recursos computacionais das máquinas chunkserver, todo sistema de storage fica lento e atrapalha o experimento de todos!
Para monitorar seu experimento, é sugerido:
- usar um multiplexador de terminais para manter sua sessão executando em segundo plano após desconectar o ssh. Nas máquinas da rede VeRLab/JLab temos instalado tmux e byobu (link para tutoriais)
- usar uma "pane" com htop, filtrando seu usuário, ou nome do executável;
- usar outra "pane" com
watch nvidia-smi(a tela é atualizada a cada 2 segundos)