Tags:
create new tag
,
view all tags
---+ Desligar e Ligar a Farm. ---++Description ---+++ Desligar 1)Desligue o gatekeeper (na osg-ce) para que a farm não receba mais jobs: <pre> /etc/init.d/xinetd stop </pre> 2)desligue os pools do dcache (spraid01 e spraid02) <pre> /opt/d-cache/bin/dcache stop </pre> 3)Desligue o !PhEDEx na osg-se <pre> su - su - phedex Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Debug stop Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Prod stop exit </pre> 4)Desligue o dCache e o chimera na osg-se , como root <pre> /opt/d-cache/bin/dcache stop /etc/init.d/chimera-nfs-run.sh stop </pre> Feito isso você pode desligar a spraid01, spraid02 e osg-se. <pre> shutdown -h now </pre> 5)Desligue o condor nos nodes, a partir da osg-ce como root: <pre> clcmd /etc/init.d/condor stop </pre> 6)desligue os nodes <pre> clcmd shutdown -h now </pre> 7)desligue a access <pre> shutdown -h now </pre> 8)desligue a osg-ce <pre> shutdown -h now </pre> ---+++ Ligando a farm Os serviços iniciam automaticamente e se houver algum problema na inicialização de serviços, podemos iniciá-los manualmente: 1) Ligue a spserv01. Os serviços iniciam automaticamente e se houver algum problema na inicialização de serviços podemos iniciá-los manualmente: Neste servidor são necessários os seguintes serviços: NTP <pre>/etc/init.d/ntpd restart</pre> NIS <pre>/etc/init.d/ypserv restart</pre> Squid do CMS: <pre>/etc/init.d/frontier-squid.sh start</pre> Gateway do 192.168.1.0 <pre>/etc/init.d/firewall restart</pre> GUMS Server <pre>/etc/init.d/mysql5 start /etc/init.d/tomcat-55 start /etc/init.d/apache start</pre> OSG-RSV (condor-cron) <pre>/etc/init.d/condor-cron start /etc/init.d/osg-rsv start</pre> Visualização do GUMS-RSV: https://spserv01.sprace.org.br:8443/gums <br> https://spserv01.sprace.org.br:8443/rsv Instalação dos nós via kick start DHCP, TFTP, mirror do S.L. Nagios e CacTI <pre>/etc/init.d/nagios start /etc/init.d/httpd start</pre> Podemos ver na página se está tudo OK: https://spserv01.sprace.org.br/nagios 2) Ligue a osg-ce e verifique se todos os serviços subiram corretamente. Restarte os problemáticos, como o =/etc/init.d/ntp=. DNS (named - sprace.org.br) <pre>/etc/init.d/named restart</pre> GATEKEEPER<br> Estes serviços iniciam automaticamente: globus, CeMon, BDII, mysql, tomcat-55, Globus-WS, Monalisa (mld) Parando o gatekeeper (para impedir entrada de jobs para processsamento) <pre>/etc/init.d/xinetd stop </pre> Condor Master (condor_q; condor_status) <pre>/etc/init.d/condor start</pre> Acompanhe os logs para verificar se está tudo OK: <pre>tail -f /scratch/condor/log/MasterLog</pre> 3)Ligue a =access= . Certifique-se que o =/home_osgce=, =/home/OSG_app= e o =/OSG= estão montados. Inicie o =condor= nesta máquina com =/etc/init.d/condor start= . Certifique-se, com um =ps -afx=, se o =httpd= está rodando, pois ele é necessário para os servicos do =pingER= . Caso não, <pre> /etc/init.d/httpd restart </pre> Confirmado isso retorne a =osg-ce= e monte o =/hdacs= <pre> mount /hdacs clcmd mount /hdacs </pre> 4)Ligue os nodes de processamento, verifique se todos estão montando o /OSG corretamente . Ligue o condor e monte o hdacs - isso já está automatizado. Se houver algum problema: <pre>clcmd /etc/init.d/condor start clcmd mount /hdacs </pre> 5)Tudo correndo bem, ligue o gatekeeper (verifique se ele não está ligado antes!) <pre> /etc/init.d/xinetd start</pre> Verificar se está tudo OK: <pre>/OSG/verify/site_verify.pl </pre> 6)Ligue a osg-se. Verifique se os serviços subiram corretamente e *após verificar se a máquina montou o diretório de certificados da ce*, =/OSG/globus/TRUSTED_CA= aumente o número de arquivos abertos que a máquina pode ter e reinicie os servicos: <pre> ulimit -n 32000 /etc/init.d/postgresql restart /etc/init.d/chimera-nfs-run.sh /opt/d-cache/bin/dcache start </pre> Se você tiver algum problema com o java ao inicializar, tente reiniciar a sequencia acima novamente. Para publicar informações sobre o storage para o CMS (infoDomain): <pre>/opt/d-cache/bin/dcache start info</pre> 7) Ligue a spraid01 e spraid02. Verifique se elas montaram corretamente o =/OSG/globus/TRUSTED_CA= . Inicie o dcache <pre> ulimit -n 3200 /opt/d-cache/bin/dcache start </pre> Acompanhar o log: <pre> tail -f /var/log/spraid0NDomain.log</pre> pela web: http://osg-se.sprace.org.br:2288/UsageInfo 8)Volte a osg-se. Ligue o PhEDEx: <pre> su - su - phedex Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Debug start Master -config ~/SITECONF/SPRACE/PhEDEx/Config.Prod start exit </pre> ---+++Fulano em dd/mm/aaaa Coloca o que fez. ---+++Ciclano em dd/mm/aaaa Mais comentarios -- Main.AllanSzu - 06 Jan 2010<br> -- Main.MarcoAndreFerreiraDias - 09 Nov 2008
E
dit
|
A
ttach
|
P
rint version
|
H
istory
: r4
<
r3
<
r2
<
r1
|
B
acklinks
|
V
iew topic
|
Ra
w
edit
|
M
ore topic actions
Topic revision: r4 - 2010-01-19
-
MarcoAndreFerreiraDias
Home
Site map
Main web
Sandbox web
TWiki web
Main Web
Users
Groups
Index
Search
Changes
Notifications
RSS Feed
Statistics
Preferences
P
View
Raw View
Print version
Find backlinks
History
More topic actions
Edit
Raw edit
Attach file or image
Edit topic preference settings
Set new parent
More topic actions
Account
Log In
Copyright © 2008-2025 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback