Instruções para o Monitoramento do OSG

Preliminares

Use uma maquina Linux, de preferência o console da SPRACE, que é grande.
Use o Firefox. Fica mais fácil pois possue tabs.
No Firefox, clique com o botão da direita na barra de links e crie um folder (e.g. Monitoring).
Nesse Folder inclua os seguintes links:
- Ganglia: http://spgrid.if.usp.br/ganglia/
- GridCat: http://osg-cat.grid.iu.edu/index.php?whichmap=samerica
- dCache: http://spdc00.if.usp.br:2288/
- PhEDex: http://cms-project-phedex.web.cern.ch/cms-project-phedex/cgi-bin/browser
- Nara: http://www.nara.org.br/monitor
Use os desktops para abrir os logs em tela inteira. Por exemplo:
- Desktop 1 para emails e outras atividades pessoais.
- Desktop 2 para monitoramento da web.
- Desktop 3 para monitoramento dos logs.
- Desktop 4 para abrir os terminais de trabalho.
Para abrir o ambiente gráfico na SPRACE, logue-se no console em modo texto e depois digite
- [user@sprace] startx

Abra o Firefox no Desktop 2 e no Folder Monitoring clique em Open in Tabs.
No primeiro tab se abrirá o monitoramento de todas as máquinas do cluster. Mande ordenar por ordem decrescente, assim se alguma máquina estiver com o load muito alto ela aparecerá em primeiro lugar.
No segundo tab se abrirá o monitoramento do OSG.
No terceiro tab se abrirá o monitoramento de nosso dCache.
No quarto tab se abrirá o monitoramento do PhEDex.
No quinto tab se abrirá o monitoramento da rede. Vá para Internet2 onde aparecerá o monitoramento de nosso link internacional (Ampath/Abilene STM-4). Clique em estatística.

No Desktop 3 abra 4 terminais e os distribua pela tela de modo que apareçam todos ao mesmo tempo.
Terminal A: Monitoramento do log do gatekeeper
- [user@sprace] ssh spgrid
- [user@spgrid] tail -f /OSG/globus/var/globus-gatekeeper.log
Terminal B: Monitoramento do log do PhEDex
- [user@sprace] ssh spdc00
- [user@spcd00] tail -f /home/phedex/logs/download-master
Terminal C: Monitoramento do log do dCache:
- [user@sprace] ssh spdc00
- [user@spdc00] tail -f /var/log/srm-spdc00Domain.log
Terminal D:

Durante o monitoramento, uma vez por hora verifique:

No Ganglia:
- Se todas as maquinas estão ligadas.
- Se algum Node tem load maior do que 3.
- Se o load de algum dos servidores está maior que 50.
- Se está havendo tráfego na rede. Linha verde por volta de 5 MBps.
No OSG o status de nosso Computing Element (SPRACE) e Storage Element (SPRACE:srm_v1):
- Veja se todas as luzes estao verdes.
- Clique na luz e veja se todos os testes foram bem sucedidos.

O funcionamento do dCache. Os links a serem monitorados são o Cell Services e o Pool Usage:

No link Cell Services veja se a tabela se parece com esta:

No link Pool Usage uma tabela como esta:

O status do PhEDex. Devemos manter funcionando os agentes FileDownload, FileExport, FilePFNExport, FileRouter e InfoDropStatus das instâncias SC4 e Production. O nome de nossa Tier 2 é T2_SPRACE.
- No Component Status do Database CS04, verifique que o Node T2_SPRACE esteja verde.
- No Component Status do Database Prod, verifique que o Node T2_SPRACE esteja verde.
AMPATH. O tráfego que chega no nosso cluster é o verde. A rede da USP está em Outros > USP (Net). Neste caso, o tráfego que chega para nós é o azul. Verifique se está passando tráfego pelo link.
De uma olhada em cada um dos logs, e verifique pela hora que os serviços estejam funcionando. A ocorrência de um certo número erros são normais. A ocorrência de um número grande de erros deve ser notificada.

OSG:
- Globus:
  - $VDT_LOCATION/globus/var/globus-gatekeeper.log
  - $VDT_LOCATION/globus/var/accounting.log
- GUMS:
  - $VDT_LOCATION/tomcat/v5/logs/gums-*
- Monalisa:
  - $VDT_LOCATION/MonaLisa/Service/VDTFarm/ML0.log
D-Cache:
- Monitoring in http://spdc00.if.usp.br:2288/
- On each dCache machines, check /var/log/*Domain.log.
- The most important ones are
  - srm*Domain.log
  - gridftp*Domain.log
  - `hostname`*Domain.log
Phedex:
- On spdc00, as user phedex, the phedex logs are found in ~/logs. The most useful is:
  - /home/phedex/logs/download-master

Procure em Instruções para Operação do SPRACE como realizar as ações necessárias.
Se não souber o que fazer, ligue para Eduardo (3177-9005) ou mande um email (email:gregores@fnal.gov)