Restart do cluster da OSG

Description

Hoje as 07h20 a spdc00 respondia a ping mas nao entrava via ssh. Tambem o monitoramento via web acusava anormalidades: tanto o gridcat tinha os teste com falha (menos o condor) e o ganglia nao conectava. Outra coisa anormal foi a ocupacao maxima dos /raid# da spraid. Estou ainda seguindo o esquema para rebootar a spraid e spdc00.

Updates

No boot a spraid apresentou problema ao restartar o ntpd, como ja previsto nos procedimentos do manual:

 #service ntpd restart

e ja fiz isso na spgrid. Rebootei os n'os. O node24 teve de ser rebootado duas vezes, o que e estranho pois essa maquina ja apresentou um problema anteriormente no processo de boot, em outra situacao. Agora o monitoramento no ganglia esta ok. A spdc00 subiu com problemas no servico nfs (failed, no route to host) e no dcache-core ( inode number mismatch) mas o ultimo ate que subiu. Montei os diretorios NFS na mao:

#mount /home
#mount /OSG

sem problemas. Alguns problemas ocorreram na spraid ao executar:

# /opt/d-cache/bin/dcache-core start
/pnfs/if.usp.br/ not mounted - going to mount it now ...
[ERROR] Still not mounted. Apparently no pnfs server running on ad$
        node spdc00. Exiting.

Entao reiniciei na spdc00

/etc/init.d/dcache-pool stop
/etc/init.d/dcache-core stop
/etc/init.d/dcache-core start
/etc/init.d/dcache-core start

(a mesma reclamacao sobre os inodes) agora a spraid esta ok. Ao reiniciar o Phedex houve algumas reclamacoes quanto a spg00 nao responder em tempo, mas ela acusa "still tryng" e depois ( ainda bem "spg00 Ok") -___________________

Todos os monitoramentos ok, condor_status ok

Topic revision: r1 - 2006-09-27 - MarcoAndreFerreiraDias

antalya escort bursa escort eskisehir escort istanbul escort izmir escort