Instruções para o Monitoramento do OSG
Preliminares
- Use uma maquina Linux, de preferência o console da
SPRACE
, que é grande.
- Use o Firefox. Fica mais fácil pois possue tabs.
- No Firefox, clique com o botão da direita na barra de links e crie um folder (e.g. Monitoring).
- Nesse Folder inclua os seguintes links:
- Use os desktops para abrir os logs em tela inteira. Por exemplo:
-
Desktop 1
para emails e outras atividades pessoais.
-
Desktop 2
para monitoramento da web.
-
Desktop 3
para monitoramento dos logs.
-
Desktop 4
para abrir os terminais de trabalho.
- Para abrir o ambiente gráfico na
SPRACE
, logue-se no console em modo texto e depois digite
Iniciando o monitoramento pela Web
- Abra o Firefox no
Desktop 2
e no Folder Monitoring clique em Open in Tabs.
- No primeiro tab se abrirá o monitoramento de todas as máquinas do cluster. Mande ordenar por ordem decrescente, assim se alguma máquina estiver com o load muito alto ela aparecerá em primeiro lugar.
- No segundo tab se abrirá o monitoramento do OSG.
- No terceiro tab se abrirá o monitoramento de nosso dCache.
- No quarto tab se abrirá o monitoramento do PhEDex.
- No quinto tab se abrirá o monitoramento da rede. Vá para
Internet2
onde aparecerá o monitoramento de nosso link internacional (Ampath/Abilene STM-4). Clique em estatística
.
Iniciando o monitoramento dos logs dos serviços
- No
Desktop 3
abra 4 terminais e os distribua pela tela de modo que apareçam todos ao mesmo tempo.
- Terminal A: Monitoramento do log do gatekeeper
-
[user@sprace] ssh spgrid
-
[user@spgrid] tail -f /OSG/globus/var/globus-gatekeeper.log
- Terminal B: Monitoramento do log do PhEDex
-
[user@sprace] ssh spdc00
-
[user@spcd00] tail -f /home/phedex/logs/download-master
- Terminal C: Monitoramento do log do dCache:
-
[user@sprace] ssh spdc00
-
[user@spdc00] tail -f /var/log/srm-spdc00Domain.log
- Terminal D:
Durante a sessão
- Durante o monitoramento, uma vez por hora verifique:
- No Ganglia:
- Se todas as maquinas estão ligadas.
- Se algum Node tem load maior do que 3.
- Se o load de algum dos servidores está maior que 50.
- Se está havendo tráfego na rede. Linha verde por volta de 5 MBps.
- No OSG o status de nosso Computing Element (SPRACE) e Storage Element (SPRACE:srm_v1):
- Veja se todas as luzes estao verdes.
- Clique na luz e veja se todos os testes foram bem sucedidos.
- O funcionamento do dCache. Os links a serem monitorados são o Cell Services e o Pool Usage:
- No link Cell Services veja se a tabela se parece com esta:
CellName | DomainName | Requests | Pending | Threads | Ping | Creation Time |
DCap | doorDomain | 0 | 4 | 54 msec | 09/19 | 16:03:07 |
GFTP-spraid | gridftp-spraidDomain | 0 | 4 | 55 msec | 09/19 | 16:07:10 |
LoginBroker | httpdDomain | 0 | 2 | 4 msec | 09/19 | 16:03:21 |
PnfsManager | pnfsDomain | 0 | 5 | 17 msec | 09/19 | 16:03:36 |
PoolManager | dCacheDomain | 0 | 4 | 19 msec | 09/19 | 16:02:53 |
SRM-spdc00 | srm-spdc00Domain | 0 | 3 | 24 msec | 09/19 | 16:03:51 |
SRM-spraid | srm-spraidDomain | 0 | 3 | 44 msec | 09/19 | 16:07:17 |
spraid_1 | spraidDomain | 0 | 74 | 137 msec | 09/19 | 16:08:32 |
spraid_2 | spraidDomain | 0 | 54 | 135 msec | 09/19 | 16:09:20 |
spraid_3 | spraidDomain | 0 | 74 | 135 msec | 09/19 | 16:09:33 |
spraid_4 | spraidDomain | 0 | 84 | 134 msec | 09/19 | 16:09:46 |
srm-LoginBroker | httpdDomain | 0 | 2 | 4 msec | 09/19 | 16:03:21 |
- No link Pool Usage uma tabela como esta:
CellName | DomainName | Total Space/MB | Free Space/MB | Precious Space/MB | Layout |
spraid_1 | spraidDomain | 1536000 | 1321136 | 190101 |
spraid_2 | spraidDomain | 1536000 | 1317930 | 190865 |
spraid_3 | spraidDomain | 1536000 | 1320870 | 189242 |
spraid_4 | spraidDomain | 1536000 | 1319567 | 185505 |
- O status do PhEDex. Devemos manter funcionando os agentes
FileDownload
, FileExport
, FilePFNExport
, FileRouter
e InfoDropStatus
das instâncias SC4 e Production. O nome de nossa Tier 2 é T2_SPRACE
.
- No Component Status do Database CS04, verifique que o Node T2_SPRACE esteja verde.
- No Component Status do Database Prod, verifique que o Node T2_SPRACE esteja verde.
- AMPATH. O tráfego que chega no nosso cluster é o verde. A rede da USP está em
Outros > USP (Net)
. Neste caso, o tráfego que chega para nós é o azul. Verifique se está passando tráfego pelo link.
- De uma olhada em cada um dos logs, e verifique pela hora que os serviços estejam funcionando. A ocorrência de um certo número erros são normais. A ocorrência de um número grande de erros deve ser notificada.
Outros logs importantes
- OSG:
- Globus:
- $VDT_LOCATION/globus/var/globus-gatekeeper.log
- $VDT_LOCATION/globus/var/accounting.log
- GUMS:
- $VDT_LOCATION/tomcat/v5/logs/gums-*
- Monalisa:
- $VDT_LOCATION/MonaLisa/Service/VDTFarm/ML0.log
- D-Cache:
- Monitoring in http://spdc00.if.usp.br:2288/
- On each dCache machines, check /var/log/*Domain.log.
- The most important ones are
- srm*Domain.log
- gridftp*Domain.log
- `hostname`*Domain.log
- Phedex:
- On spdc00, as user phedex, the phedex logs are found in ~/logs. The most useful is:
- /home/phedex/logs/download-master
- Procure em Instruções para Operação do SPRACE como realizar as ações necessárias.
- Se não souber o que fazer, ligue para Eduardo (3177-9005) ou mande um email (email:gregores@fnal.gov)
Encerramento:
-- EduardoGregores - 18 Sep 2006