Equipe Técnica (Operacional)

Essa página discute a divisão de trabalho e responsabilidades entre os membros da equipe técnica responsável pela parte operacional do Datacenter e os cluster/grid GridUNESP e SPRACE. Foi considerado que será uma única equipe que vai administrar todos esses recursos.

A divisão será baseada em papeis ("roles"). Sobre os papeis:

  • Cada papel deve ser ocupado por duas pessoas: um responsável e um suplente
  • Quando houver diferença de conhecimento entre o responsável e o suplente, deve-se usar as atividades cotidianas como parte do treinamento.
  • Nenhuma pessoa pode ser responsável por mais de 1 papel.
  • Não poderá haver cruzamento( A ser responsável do papel 1, tendo B como seu suplente e B responsável pelo papel 2 tendo A como seu suplente).
  • O suplente deve ser trocado a cada período (2 ou 3 meses).
  • O responsável não pode ficar com o mesmo papel por mais de três períodos.
  • Um papel deve ser estimado para ocupar até 60% da carga de trabalho de uma pessoa.

Nota: Não gosto do termo suplente (nem imediato). Não deve implicar que exista uma relação hierárquica. Ajudem com sugestões

Papeis

Hoje são previstos 4 papeis, exigindo uma equipe com no mínimo 4 pessoas e no máximo 8.

Hardware:

  • Manter/substituir todo o hardware (GridUNESP, SPRACE, ServicosCompartilhados)
  • Contato com fornecedores para troca/compra de peças de reposição
  • Gerenciamento da rede ("camada 1 e 2")
  • Métricas e alarmes:
    • Temperatura
    • Falha de disco/RAID
    • Tráfego de rede

S.O. ou Cluster:

  • Manter atualizado e operacional todos os nós e servidores (GridUNESP, SPRACE, mas NÃO ServicosCompartilhados)
  • Replicar os servidores GridUNESP para o interior
  • Manter o LDAP ativo e replicado
  • ?? Responsável pelo Condor
  • "Responsável por todos os comandos RPM ou YUM"
  • Métricas:
    • Uptime
    • Vulnerabilidades
    • CPU / Memória / Disk Load

Middleware de Grid:

  • Manter o stack OSG atualizado e operacional
  • Reuniões OSG
  • Gerenciamento dos storages OSG
  • "Responsável por todos os comandos pacman"
  • Métricas e alarmes:
    • OSG (Monalisa, .....)

ServicosCompartilhados:

  • Manter (incluindo S.O.) todos os ServicosCompartilhados do Datacenter
  • Gerenciar usuários e grupos
  • Gerenciar a C.A. (quando houver uma)

-- GabrielWinckler - 25 May 2009

Topic revision: r1 - 2009-05-25 - GabrielWinckler
 

This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort