Desligar e Ligar a Farm.
Description
Desligar
1)Desligue o gatekeeper (na osg-ce) para que a farm não receba mais jobs:
/etc/init.d/xinetd stop
2)desligue os pools do dcache (spraid01 e spraid02)
/opt/d-cache/bin/dcache stop
3)Desligue o PhEDEx na osg-se
su -
su - phedex
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Debug stop
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Prod stop
exit
4)Desligue o dCache e o chimera na osg-se , como root
/opt/d-cache/bin/dcache stop
/etc/init.d/chimera-nfs-run.sh stop
Feito isso você pode desligar a spraid01, spraid02 e osg-se.
shutdown -h now
5)Desligue o condor nos nodes, a partir da osg-ce como root:
clcmd /etc/init.d/condor stop
6)desligue os nodes
clcmd shutdown -h now
7)desligue a access
shutdown -h now
8)desligue a osg-ce
shutdown -h now
Ligando a farm
Os serviços iniciam automaticamente e se houver algum problema na inicialização de serviços, podemos iniciá-los manualmente:
1) Ligue a spserv01. Os serviços iniciam automaticamente e se houver algum problema na inicialização de serviços podemos iniciá-los manualmente:
Neste servidor são necessários os seguintes serviços:
NTP
/etc/init.d/ntpd restart
NIS
/etc/init.d/ypserv restart
Squid do CMS:
/etc/init.d/frontier-squid.sh start
Gateway do 192.168.1.0
/etc/init.d/firewall restart
GUMS Server
/etc/init.d/mysql5 start
/etc/init.d/tomcat-55 start
/etc/init.d/apache start
OSG-RSV (condor-cron)
/etc/init.d/condor-cron start
/etc/init.d/osg-rsv start
Visualização do GUMS-RSV:
https://spserv01.sprace.org.br:8443/gums
https://spserv01.sprace.org.br:8443/rsv
Instalação dos nós via kick start
DHCP, TFTP, mirror do S.L.
Nagios e
CacTI
/etc/init.d/nagios start
/etc/init.d/httpd start
Podemos ver na página se está tudo OK:
https://spserv01.sprace.org.br/nagios
2) Ligue a osg-ce e verifique se todos os serviços subiram corretamente. Restarte os problemáticos, como o
/etc/init.d/ntp
.
DNS (named - sprace.org.br)
/etc/init.d/named restart
GATEKEEPER
Estes serviços iniciam automaticamente:
globus,
CeMon, BDII, mysql, tomcat-55, Globus-WS, Monalisa (mld)
Parando o gatekeeper (para impedir entrada de jobs para processsamento)
/etc/init.d/xinetd stop
Condor Master (condor_q; condor_status)
/etc/init.d/condor start
Acompanhe os logs para verificar se está tudo OK:
tail -f /scratch/condor/log/MasterLog
3)Ligue a
access
. Certifique-se que o
/home_osgce
,
/home/OSG_app
e o
/OSG
estão montados. Inicie o
condor
nesta máquina com
/etc/init.d/condor start
.
Certifique-se, com um
ps -afx
, se o
httpd
está rodando, pois ele é necessário para os servicos do
pingER
. Caso não,
/etc/init.d/httpd restart
Confirmado isso retorne a
osg-ce
e monte o
/hdacs
mount /hdacs
clcmd mount /hdacs
4)Ligue os nodes de processamento, verifique se todos estão montando o /OSG corretamente . Ligue o condor e monte o hdacs - isso já está automatizado. Se houver algum problema:
clcmd /etc/init.d/condor start
clcmd mount /hdacs
5)Tudo correndo bem, ligue o gatekeeper (verifique se ele não está ligado antes!)
/etc/init.d/xinetd start
Verificar se está tudo OK:
/OSG/verify/site_verify.pl
6)Ligue a osg-se. Verifique se os serviços subiram corretamente e
após verificar se a máquina montou o diretório de certificados da ce,
/OSG/globus/TRUSTED_CA
aumente o número de arquivos abertos que a máquina pode ter e reinicie os servicos:
ulimit -n 32000
/etc/init.d/postgresql restart
/etc/init.d/chimera-nfs-run.sh
/opt/d-cache/bin/dcache start
Se você tiver algum problema com o java ao inicializar, tente reiniciar a sequencia acima novamente.
Para publicar informações sobre o storage para o CMS (infoDomain):
/opt/d-cache/bin/dcache start info
7) Ligue a spraid01 e spraid02. Verifique se elas montaram corretamente o
/OSG/globus/TRUSTED_CA
. Inicie o dcache
ulimit -n 3200
/opt/d-cache/bin/dcache start
Acompanhar o log:
tail -f /var/log/spraid0NDomain.log
pela web:
http://osg-se.sprace.org.br:2288/UsageInfo
8)Volte a osg-se. Ligue o
PhEDEx:
su -
su - phedex
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Debug start
Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Prod start
exit
Fulano em dd/mm/aaaa
Coloca o que fez.
Ciclano em dd/mm/aaaa
Mais comentarios
--
AllanSzu - 06 Jan 2010
--
MarcoAndreFerreiraDias - 09 Nov 2008