Ligando e Desligando Máquinas e Serviços
Ligando a Farm
Com todas as máquinas
desligadas, realizar na sequência indicada as operações descritas
Ligando o Cluster do OSG
- Ligar a
SPGRID
.
- O serviço de NIS(YP) do cluster será iniciado automaticamente.
- O home dos usuários estará disponível para ser exportado via NFS ao cluster.
- O software do OSG estará disponível para ser exportado via NFS ao cluster.
- Os serviços do OSG (Job-managers, GUMS, Monalisa, etc..) serão iniciados automaticamente.
- O serviço central do Condor será iniciado automaticamente.
- Ligar a
SPRAID
.
- O home dos usuários fornecido pela
SPGRID
(SPG00
) será montado.
- O espaço de armazenamento compartilhado estará disponível para ser exportado via NFS ao cluster.
- Montar o storage do OSG na
SPGRID
:
-
[root@spgrid] mount /raid0
- Ligar os nós de processamento do OSG.
- Node01 a Node18 e de Node21 a Node23.
- Todos os pontos de montagem e os serviços do cluster estarão disponíveis aos nós para serem executados automaticamente.
- Ligar a
SPDC00
.
- O home dos usuários e o software do OSG fornecidos pelo
SPGRID
serão montados automaticament.
- Os serviços de pnfs, dcache-core e squid serão iniciados automaticamente
- Iniciar o dcache na
SPRAID
:
-
{root@spraid] /opt/d-cache/bin/dcache-core start
-
{root@spraid] /opt/d-cache/bin/dcache-pool start
- Iniciar o phedex na
SPDC00
:
-
[root@spraid] su - phedex
- Certifique-se que o proxy do phedex não esteja vencido. Siga as instruções em CMS Operation.
-
[phedex@spraid] Master -config ~/SITECONF/local/PhEDEx/Config.SC4 start
-
[phedex@spraid] Master -config ~/SITECONF/local/PhEDEx/Config.Prod start
Ligando o Cluster do SAMGrid
- Ligar a
SPRACE
.
- Os serviços de NIS e NFS serão iniciados automaticamente.
- O serviço central do Condor será iniciado automaticamente.
- Iniciar manualmente os serviços do SamGrid:
-
[root@sprace] su - sam
-
[sam@sprace] ups start sam_bootstrap
-
[sam@sprace] ups run server_run
- Ligar os nós de processamento do SAMGrid.
- Node24 a Node54.
- Os serviços de NIS e Condor serão iniciados automaticamente.
Notas:
- Reinicie os serviços de data no
SPRAID
e SPDC00
, eles costumam falhar.
-
[root@host] service ntpd restart
- Certifique-se que o Condor esteja funcionando no OSG
-
[root@spgrid] . /OSG/setup
-
[root@spgrid] condor_status
- Todos os nós devem aparecer listados.
- Certifique-se que o Condor esteja funcionando no SAMGrid
-
[root@sprace] setup vdt
-
[root@sprace] condor_status
- Todos os nós devem aparecer listados.
Desligando a Farm
Para realizar o shutdown ordenado da Farm realizar as operações na sequência indicada
Desligando o Cluster do OSG
- Notifique o Grid Control Center que a farm estará sendo desligada.
- Desligue o gatekeeper e, se possivel, espere a farm esvaziar:
-
[root@spgrid] service xinetd stop
- Cancele os trabalhos na fila do condor:
-
[root@spgrid] . /OSG/setup.sh
-
[root@spgrid] condor_rm -all
- Desligue os nós de processamento a partir da
SPGRID
:
-
[root@spgrid] clcmd shutdown -h now
- Desmonte o storage na
SPGRID
:
-
[root@spgrid] umount /raid0
- Desligue o Phedex na
SPDC00
:
-
[root@spdc00] su - phedex
-
[phedex@spdc00] Master -config ~/SITECONF/local/PhEDEx/Config.SC4 stop
-
[phedex@spdc00] Master -config ~/SITECONF/local/PhEDEx/Config.Prod stop
- Desligue o dcache na
SPRAID
:
-
[root@spraid] /opt/d-cache/bin/dcache-pool stop
-
[root@spraid] /opt/d-cache/bin/dcache-core stop
- Desligue o dcache e pnfs na
SPDC00
:
-
[root@spdc00] /opt/d-cache/bin/dcache-core stop
-
[root@spdc00] /opt/pnfs/bin/pnfs stop
- Desligue a
SPDC00
-
[root@spdc00] shutdown -h now
- Desligue a
SPRAID
-
[root@spraid] shutdown -h now
- Desligue a
SPGRID
-
[root@spgrid] shutdown -h now
Desligando o Cluster do SAMGrid
- Esvazie a fila do condor:
-
[root@sprace] setup vdt
-
[root@sprace] condor_rm -all
- Desligue os nós de processamento a partir da
SPRACE
:
-
[root@sprace] clcmd shutdown -h now
- Desligue os seviços do SAMGrid na
SPRACE
:
-
[root@sprace] su - sam
-
[sam@sprace] setup ups
-
[sam@sprace] ups stop server_run
-
[sam@sprace] ups stop sam_bootstrap
- Desligue a
SPRACE
:
-
[root@sprace] shutdown -h now
Ligando/Desligando Máquinas Individuais
[Ligando | Desligando] SPRAID
- Para curtas operações, não é preciso interromper o processamento.
- Para desligar siga as operações de cima para baixo.
- Ao ligar de volta siga as operações de baixo para cima.
- [Desmonte | Monte] o raid dos nós de processamento e spgrid
-
[root@spgrid] clcmd [umount | mount] /raid0
-
[root@spgrid] [umount | mount] /raid0
- [Desligue | Ligue] o Phedex na
SPDC00
-
[root@spdc00] su - phedex
-
[phedex@spdc00] Master -config ~/SITECONF/local/PhEDEx/Config.SC4 [stop | start]
-
[phedex@spdc00] Master -config ~/SITECONF/local/PhEDEx/Config.Prod [stop | start]
- [Desligue | Ligue] o dCache na
SPRAID
-
[root@spraid] /opt/d-cache/bin/dcache-pool [stop | start]
-
[root@spraid] /opt/d-cache/bin/dcache-core [stop | start]
- Reboote a
SPRAID
-
[root@spraid] shutdown -r now
Serviços do Cluster
Os serviços que os diversos servidores oferecem ao cluster são:
Server |
Serviços |
SPGrid |
OSG Head Node, NFS, NIS, Home |
SPRaid |
NFS, dCache-Pool, dCache-Core, GSIFtp |
SPDC00 |
PNFS, Phedex, SRM, Frontier, dCache-Core |
SPRace |
Samgrid Head Node, NFS, NIS |
--
EduardoGregores - 17 Sep 2006