Equipe Técnica (Operacional)
Essa página discute a divisão de trabalho e responsabilidades entre os membros da equipe técnica responsável pela parte operacional do Datacenter e os cluster/grid GridUNESP e SPRACE. Foi considerado que será uma única equipe que vai administrar todos esses recursos.
A divisão será baseada em papeis ("roles"). Sobre os papeis:
- Cada papel deve ser ocupado por duas pessoas: um responsável e um suplente
- Quando houver diferença de conhecimento entre o responsável e o suplente, deve-se usar as atividades cotidianas como parte do treinamento.
- Nenhuma pessoa pode ser responsável por mais de 1 papel.
- Não poderá haver cruzamento( A ser responsável do papel 1, tendo B como seu suplente e B responsável pelo papel 2 tendo A como seu suplente).
- O suplente deve ser trocado a cada período (2 ou 3 meses).
- O responsável não pode ficar com o mesmo papel por mais de três períodos.
- Um papel deve ser estimado para ocupar até 60% da carga de trabalho de uma pessoa.
Nota: Não gosto do termo suplente (nem imediato). Não deve implicar que exista uma relação hierárquica. Ajudem com sugestões
Papeis
Hoje são previstos 4 papeis, exigindo uma equipe com no mínimo 4 pessoas e no máximo 8.
Hardware:
- Manter/substituir todo o hardware (GridUNESP, SPRACE, ServicosCompartilhados)
- Contato com fornecedores para troca/compra de peças de reposição
- Gerenciamento da rede ("camada 1 e 2")
- Métricas e alarmes:
- Temperatura
- Falha de disco/RAID
- Tráfego de rede
S.O. ou Cluster:
- Manter atualizado e operacional todos os nós e servidores (GridUNESP, SPRACE, mas NÃO ServicosCompartilhados)
- Replicar os servidores GridUNESP para o interior
- Manter o LDAP ativo e replicado
- ?? Responsável pelo Condor
- "Responsável por todos os comandos RPM ou YUM"
- Métricas:
- Uptime
- Vulnerabilidades
- CPU / Memória / Disk Load
Middleware de Grid:
- Manter o stack OSG atualizado e operacional
- Reuniões OSG
- Gerenciamento dos storages OSG
- "Responsável por todos os comandos pacman"
- Métricas e alarmes:
- Manter (incluindo S.O.) todos os ServicosCompartilhados do Datacenter
- Gerenciar usuários e grupos
- Gerenciar a C.A. (quando houver uma)
--
GabrielWinckler - 25 May 2009