Restart do cluster da OSG
Description
Hoje as 07h20 a spdc00 respondia a ping mas nao entrava via
ssh. Tambem o monitoramento via web acusava anormalidades:
tanto o gridcat tinha os teste com falha (menos o condor) e o
ganglia nao conectava.
Outra coisa anormal foi a ocupacao maxima dos /raid# da
spraid.
Estou ainda seguindo o esquema para rebootar a spraid e
spdc00.
Updates
No boot a spraid apresentou problema ao restartar o ntpd, como ja previsto nos procedimentos do
manual:
#service ntpd restart
e ja fiz isso na spgrid.
Rebootei os n'os. O node24 teve de ser rebootado duas vezes, o que e
estranho pois essa maquina ja apresentou um problema anteriormente no
processo de boot, em outra situacao.
Agora o monitoramento no ganglia esta ok.
A spdc00 subiu com problemas no servico nfs (failed, no route to host) e
no dcache-core ( inode
number mismatch) mas o ultimo ate que subiu. Montei os diretorios NFS na mao:
#mount /home
#mount /OSG
sem problemas.
Alguns problemas ocorreram na spraid ao executar:
# /opt/d-cache/bin/dcache-core start
/pnfs/if.usp.br/ not mounted - going to mount it now ...
[ERROR] Still not mounted. Apparently no pnfs server running on ad$
node spdc00. Exiting.
Entao reiniciei na spdc00
/etc/init.d/dcache-pool stop
/etc/init.d/dcache-core stop
/etc/init.d/dcache-core start
/etc/init.d/dcache-core start
(a mesma reclamacao sobre os inodes) agora a spraid esta ok.
Ao reiniciar o Phedex houve algumas reclamacoes quanto a spg00 nao
responder em tempo, mas ela acusa "still tryng" e depois ( ainda bem
"spg00 Ok")
-___________________
Todos os monitoramentos ok, condor_status ok