Tags:
create new tag
,
view all tags
---+!! *Instruções para o Monitoramento do OSG* %TOC{depth="4"}% ---+ Preliminares * Use uma maquina Linux, de preferência o console da =SPRACE=, que é grande. * Use o Firefox. Fica mais fácil pois possue tabs. * No Firefox, clique com o botão da direita na barra de links e crie um folder (e.g. _Monitoring_). * Nesse Folder inclua os seguintes links: * Ganglia: http://spgrid.if.usp.br/ganglia/ * !GridCat: http://osg-cat.grid.iu.edu/index.php?whichmap=samerica * !dCache: http://spdc00.if.usp.br:2288/ * !PhEDex: http://cms-project-phedex.web.cern.ch/cms-project-phedex/cgi-bin/browser * Nara: http://www.nara.org.br/monitor * Use os desktops para abrir os logs em tela inteira. Por exemplo: * =Desktop 1= para emails e outras atividades pessoais. * =Desktop 2= para monitoramento da web. * =Desktop 3= para monitoramento dos logs. * =Desktop 4= para abrir os terminais de trabalho. * Para abrir o ambiente gráfico na =SPRACE=, logue-se no console em modo texto e depois digite * =[user@sprace] startx= ---+ Iniciando o monitoramento pela Web * Abra o Firefox no =Desktop 2= e no Folder _Monitoring_ clique em _Open in Tabs_. * No primeiro tab se abrirá o monitoramento de todas as máquinas do cluster. Mande ordenar por ordem decrescente, assim se alguma máquina estiver com o load muito alto ela aparecerá em primeiro lugar. * No segundo tab se abrirá o monitoramento do OSG. * No terceiro tab se abrirá o monitoramento de nosso !dCache. * No quarto tab se abrirá o monitoramento do !PhEDex. * No quinto tab se abrirá o monitoramento da rede. Vá para =Internet2= onde aparecerá o monitoramento de nosso link internacional (Ampath/Abilene STM-4). Clique em =estatística=. ---+ Iniciando o monitoramento dos logs dos serviços * No =Desktop 3= abra 4 terminais e os distribua pela tela de modo que apareçam todos ao mesmo tempo. * Terminal A: Monitoramento do log do gatekeeper * =[user@sprace] ssh spgrid= * =[user@spgrid] tail -f /OSG/globus/var/globus-gatekeeper.log= * Terminal B: Monitoramento do log do !PhEDex * =[user@sprace] ssh spdc00= * =[user@spcd00] tail -f /home/phedex/logs/download-master= * Terminal C: Monitoramento do log do !dCache: * =[user@sprace] ssh spdc00= * =[user@spdc00] tail -f /var/log/srm-spdc00Domain.log= * Terminal D: ---+ Durante a sessão * Durante o monitoramento, uma vez por hora verifique: * No Ganglia: * Se todas as maquinas estão ligadas. * Se algum Node tem load maior do que 3. * Se o load de algum dos servidores está maior que 50. * Se está havendo tráfego na rede. Linha verde por volta de 5 MBps. * No OSG o status de nosso Computing Element (SPRACE) e Storage Element (SPRACE:srm_v1): * Veja se todas as luzes estao verdes. * Clique na luz e veja se todos os testes foram bem sucedidos. * O funcionamento do !dCache. Os links a serem monitorados são o _Cell Services_ e o _Pool Usage_: * No link _Cell Services_ veja se a tabela se parece com esta: |!CellName |!DomainName |Requests |Pending |Threads |Ping |Creation Time| |!DCap |!doorDomain |0 |4 |54 msec |09/19 |16:03:07| |!GFTP-spraid |!gridftp-spraidDomain |0 |4 |55 msec |09/19 |16:07:10| |!LoginBroker |!httpdDomain |0 |2 |4 msec |09/19 |16:03:21| |!PnfsManager |!pnfsDomain |0 |5 |17 msec |09/19 |16:03:36| |!PoolManager |!dCacheDomain |0 |4 |19 msec |09/19 |16:02:53| |!SRM-spdc00 |!srm-spdc00Domain |0 |3 |24 msec |09/19 |16:03:51| |!SRM-spraid |!srm-spraidDomain |0 |3 |44 msec |09/19 |16:07:17| |spraid_1 |!spraidDomain |0 |74 |137 msec |09/19 |16:08:32| |spraid_2 |!spraidDomain |0 |54 |135 msec |09/19 |16:09:20| |spraid_3 |!spraidDomain |0 |74 |135 msec |09/19 |16:09:33| |spraid_4 |!spraidDomain |0 |84 |134 msec |09/19 |16:09:46| |!srm-LoginBroker |!httpdDomain |0 |2 |4 msec |09/19 |16:03:21| * No link _Pool Usage_ uma tabela como esta: |!CellName |!DomainName |Total Space/MB |Free Space/MB |Precious Space/MB |Layout| |spraid_1 |spraidDomain |1536000 |1321136 |190101 || |spraid_2 |spraidDomain |1536000 |1317930 |190865 || |spraid_3 |spraidDomain |1536000 |1320870 |189242 || |spraid_4 |spraidDomain |1536000 |1319567 |185505 || * O status do !PhEDex. Devemos manter funcionando os agentes =FileDownload=, =FileExport=, =FilePFNExport=, =FileRouter= e =InfoDropStatus= das instâncias _SC4_ e _Production_. O nome de nossa Tier 2 é =T2_SPRACE=. * No _Component Status_ do Database CS04, verifique que o Node T2_SPRACE esteja verde. * No _Component Status_ do Database Prod, verifique que o Node T2_SPRACE esteja verde. * AMPATH. O tráfego que chega no nosso cluster é o verde. A rede da USP está em =Outros > USP (Net)=. Neste caso, o tráfego que chega para nós é o azul. Verifique se está passando tráfego pelo link. * De uma olhada em cada um dos logs, e verifique pela hora que os serviços estejam funcionando. A ocorrência de um certo número erros são normais. A ocorrência de um número grande de erros deve ser notificada. ---++Outros logs importantes * *OSG:* * Globus: * $VDT_LOCATION/globus/var/globus-gatekeeper.log * $VDT_LOCATION/globus/var/accounting.log * GUMS: * $VDT_LOCATION/tomcat/v5/logs/gums-* * Monalisa: * $VDT_LOCATION/MonaLisa/Service/VDTFarm/ML0.log * *D-Cache:* * Monitoring in http://spdc00.if.usp.br:2288/ * On each dCache machines, check /var/log/*Domain.log. * The most important ones are * srm*Domain.log * gridftp*Domain.log * `hostname`*Domain.log * *Phedex:* * On spdc00, as user phedex, the phedex logs are found in ~/logs. The most useful is: * /home/phedex/logs/download-master * Procure em *Instruções para Operação do SPRACE* como realizar as ações necessárias. * Se não souber o que fazer, ligue para Eduardo (3177-9005) ou mande um email (email:gregores@fnal.gov) ---+ Encerramento: * Anote aqui seus [[SpraceMonitoringLog][Comentários e Observações]]. * Feche todos os terminais e janelas. -- Main.EduardoGregores - 18 Sep 2006
E
dit
|
A
ttach
|
P
rint version
|
H
istory
: r3
<
r2
<
r1
|
B
acklinks
|
V
iew topic
|
Ra
w
edit
|
M
ore topic actions
Topic revision: r3 - 2006-09-20
-
EduardoGregores
Home
Site map
Main web
Sandbox web
TWiki web
Main Web
Users
Groups
Index
Search
Changes
Notifications
RSS Feed
Statistics
Preferences
P
P
View
Raw View
Print version
Find backlinks
History
More topic actions
Edit
Raw edit
Attach file or image
Edit topic preference settings
Set new parent
More topic actions
Account
Log In
Copyright © 2008-2025 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback