Tags:
,
view all tags
---+ Plantões Computacionais %Completo_3_% %BR% #TheMotivation ---++ Descrição Manter os procedimentos para monitoração da farm em uma checklist para sistematizar e agilizar esse procedimento <TABLE width="85%" cellpadding="2%" cellspacing="1%"> <TR> <TD valign="top"> #LatestNews ---++ Últimas notícias * *[19 Set 2008]* Problemas no Jobrobot ---++ Table of contents %TOC{title="Nessa Twiki você encontrará:"}% </TD> <TD valign="top"> ---++Links importantes * [[http://www.example.com][link nao existe]] </TD> </TR> </TABLE> #ShiftTasks ---++ Tarefas para o pessoal em plantão O plantonista deve 1. *Monitorar e reportar os problemas*:O plantonista deve repassar a lista rapidamente (*somente os itens com a barra verde*) e, em caso de problemas, reportar ao resto do pessoal, repassando esta checklist a cada 2 horas. Assim os outros membros podem ter uma resposta mais rápida sobre os problemas da farm. Quando você for fazer o report, o faça pelo e-mail sprace_ops@googlegroups.com, com o link e o maior número de informações possível. <HR> ---+++ Antes de começar * Verificar o *Estado Geral do Cluster* --- %Completo_4_% * Faça o *Monitoramento pelo Ganglia* %Completo_5_% %TWISTY{id="FARMGANGLIA" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Reporte a quantidade de nós "down" que você vê em [[http://osg-ce.sprace.org.br/ganglia/][URL-1]]. Verifique se algum node possui load> 5. Veja ainda se na tabela "OSG-CE Cluster Network Last Hour" um valor maior que (86 hosts vezes 100 MB/S)= 8,6 GB/S se mantém por mais de 20 minutos, indicando que a rede está saturada.%ENDTWISTY% * Verifique os *Emails do Logwatch* %Completo_0_% %TWISTY{id="FARMEMAIL" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% %ENDTWISTY% * Verificar o *Estado Geral do Computer Element* %Completo_4_% * Verifique o *Load da OSG-CE* %Completo_5_%%TWISTY{id="LOADCE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Use [[http://osg-ce.sprace.org.br/ganglia/][URL-1]] para verificar um load maior do que 20. Caso positivo reporte. %ENDTWISTY% * Verifique o *Status do OSG* %Completo_2_% %TWISTY{id="OSGdaCE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Observe a sequência de comandos abaixo e tente reproduzi-la<pre> ssh osg-ce.sprace.org.br . /OSG/setup.sh /OSG/verify/site_verify.pl </pre> Qualquer erro neste script reporte a lista.%ENDTWISTY% * Verifique o *Status do Condor* %Completo_5_% %TWISTY{id="CONDORdaCE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Você deverá verificar duas coisas: a primeira é se algum node não está com o condor funcionando:<pre> condor_status</pre>. A segunda é verificar a quantidade de jobs que estão rodando na farm<pre> condor_q </pre>verifique somente a última linha deste comando. Se houver algum job em estado "held" reporte a lista. Se a quantidade de jobs "idle" form maior do que 1000, também.%ENDTWISTY% * Verificar o *Estado Geral do Storage Element* %Completo_3_% %TWISTY{id="STATUSSE" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% %ENDTWISTY% ---+++ OSG-RSV * Verifique o Estado do OSG-RSV %Completo_5_% %TWISTY{id="OSG-RSV" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Observe nossa própria monitoração [[https://osg-ce.sprace.org.br:8443/rsv/][URL-1]] (valores em amarelo para cacert-crl-expiry são ok). Verifique se as datas de alguns probes estão conferindo com o que você vê em [[https://lcg-sam.cern.ch:8443/sam/sam.py?sensors=OSGCE®ions=OpenScienceGrid&vo=ops&order=SiteName&funct=ShowSensorTests][URL-2]]. Qualquer probe em vermelho, ou as datas não correspondem reporte pelo e-mail.%ENDTWISTY% ---+++ !PhEDEx * Verifique os Agentes do !PhEDEx %Completo_5_% %TWISTY{id="PhEDExAgent" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Esses agentes devem ficar verdes (tolerância de 30 min, pois eles podem estar "busy" com alguma transferência). Check [[http://cmsweb.cern.ch/phedex/prod/Components::Status][URL1]] e [[http://cmsweb.cern.ch/phedex/debug/Components::Status][URL2]] %ENDTWISTY% * Verifique a *Qualidade de transferências no !PhEDEx* %Completo_5_%%TWISTY{id="PhEDExTransfer" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Verifique a qualidade das transferências na instância Debug [[http://cmsweb.cern.ch/phedex/debug/Activity::QualityPlots?graph=quality_all&entity=link&src_filter=.*&dest_filter=T2_BR_SPRACE&no_mss=true&period=l96h&upto=][URL-1]] e na instância Production [[http://cmsweb.cern.ch/phedex/prod/Activity::QualityPlots?src_filter=.*;period=l96h;no_mss=true;dest_filter=T2_BR_SPRACE;upto=;entity=link;graph=quality_all][URL-2]]. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.%ENDTWISTY% * Verifique a *Taxa de transferências no !PhEDEx* %Completo_1_% %TWISTY{id="PhEDExTax" mod="div" showlink="Mostrar instruções " hidelink="Esconder " remember="off" showimgright="%ICONURLPATH{toggleopen-small}%" hideimgright="%ICONURLPATH{toggleclose-small}%" start="show" }% Verifique a qualidade das transferências na instância Debug [[http://cmsweb.cern.ch/phedex/debug/Activity::QualityPlots?graph=quality_all&entity=link&src_filter=.*&dest_filter=T2_BR_SPRACE&no_mss=true&period=l96h&upto=][URL-1]] e na instância Production [[http://cmsweb.cern.ch/phedex/prod/Activity::QualityPlots?src_filter=.*;period=l96h;no_mss=true;dest_filter=T2_BR_SPRACE;upto=;entity=link;graph=quality_all][URL-2]]. Caso apareça um "No data Returned by DB Query" neste último significa que não temos transferências programada. Reporte nos dois casos quando a qualidade das transferências ficar abaixo de 50% por mais de 3 horas.%ENDTWISTY% ---++ Comentários sobre a checklist %TWISTY{mode="div" showlink="feedback do Marco" hidelink="Hide Feedback do Marco" remember="off" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%"hideimgleft="%ICONURLPATH{toggleclose-small}%"}% * Comparar a atividade %ENDTWISTY% %TWISTY{mode="div" showlink="Other comments" hidelink="Hide other comments" remember="off" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%"hideimgleft="%ICONURLPATH{toggleclose-small}%"}% * %ENDTWISTY% ---++ Inscrição para os plantões %TWISTY{mode="div" showlink="Lista para se inscrever" hidelink="Esconder lista" remember="on" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%"hideimgleft="%ICONURLPATH{toggleclose-small}%"}% %EDITTABLE{format="|date, 10, %SERVERTIME{"$day/$month/$year"}%, %d/%b/%Y |text,20|"}% | *Data* | *Nome* | | 19/Oct/2008 | Marco Dias | %ENDTWISTY% #AvailableShifters ---++ Lista de plantonistas disponíveis Abaixo a lista de pessoas disponíveis e quantidade de plantões até agora | *Nome* | *Quantidade*| | Marco Dias| 1 dia| #ImportantContacts ---++ Contatos * Qualquer problema entre em contato com <a href="mailto:mafd@cern.ch">mafd@cern.ch</a> <BR> #ReviewStatus ---++ Revisões %TWISTY{mode="div" showlink="Show reviews" hidelink="Hide reviews" remember="off" firststart="hide" showimgleft="%ICONURLPATH{toggleopen-small}%" hideimgleft="%ICONURLPATH{toggleclose-small}%"}% | *Data* | *Autor* | *Página Modificada?* | *Comentários*| | 19 Outubro 2008 | Marco Dias | sim | Criação da página | %ENDTWISTY% <!-- * Set Completo_0_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete0.png" alt="COMPLETE0" title="COMPLETE0" /> * Set Completo_1_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete1.png" alt="COMPLETE1" title="COMPLETE1" /> * Set Completo_2_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete2.png" alt="COMPLETE2" title="COMPLETE2" /> * Set Completo_3_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete3.png" alt="COMPLETE3" title="COMPLETE3" /> * Set Completo_4_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete4.png" alt="COMPLETE4" title="COMPLETE4" /> * Set Completo_5_ = <img src="http://hep.ift.unesp.br/Twiki/Images/complete5.png" alt="COMPLETE5" title="COMPLETE5" /> --> -- Main.MarcoAndreFerreiraDias - 19 Oct 2008
Edit
|
Attach
|
P
rint version
|
H
istory
:
r11
|
r4
<
r3
<
r2
<
r1
|
B
acklinks
|
V
iew topic
|
Raw edit
|
More topic actions...
Topic revision: r1 - 2008-10-19
-
MarcoAndreFerreiraDias
Home
Site map
Main web
Sandbox web
TWiki web
Main Web
Users
Groups
Index
Search
Changes
Notifications
RSS Feed
Statistics
Preferences
P
View
Raw View
Print version
Find backlinks
History
More topic actions
Edit
Raw edit
Attach file or image
Edit topic preference settings
Set new parent
More topic actions
Account
Log In
Copyright © 2008-2025 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki?
Send feedback