Ata da Reunião do Grupo 3 (S.O.)

Autor inicial: Gabriel Winckler

Data: 17/09/08

Local: Edifício Milênio

Presentes: Allan Szu, Eduardo Bach, Gabriel Winckler, Jadir Silva, Marco Dias (via Skype), Sergio Lietti, Thomaz (SUN)

Resumo: Reunião inicial do grupo, sem todos os seus membros presentes. O Thomaz, da SUN, apresentou diversos detalhes sobre o equipamento a ser entregue e que o mesmo será desmembrado para a instalação e testes, disponibilizando os clusters do interior na SUN por um período máximo de 2 a 3 meses. Discutimos diversos aspectos de configuração, a serem amplamente discutidos na próxima reunião (em 2 dias). A distribuição linux adotada será o CentOS, na última versão estável (5.2).


Inicialmente o Thomaz apresentou diversas informações sobre o hardware adquirido, incluindo um histórico de como se chegou nessa configuração.

Ele também informou que o hardware deixará amanhã a alfandega (não sei se essa é a denominação correta) para um armazém/galpão alugado de uma empresa onde os equipamentos poderão der manuseados. O cluster principal será mantido lá até o término da construção do datacenter. Os clusters do interior serão movidos para a SUN. Foi indagado sobre a necessidade de nossa presença nessa operação, e disse que não era necessária.

A SUN vai realizar uma série de checagens nos equipamentos e preparar a instalação, um rack por vez. O equipamento estará também a nossa disposição com acesso físico e remoto, para eventuais testes e colaboração no processo de instalação. Para isso está prevista uma janela de, no máximo, 2 ou 3 meses.

É possível que parte do equipamento seja utilizado no treinamento oferecido pela SUN, em especial o tópico de InfiniBand. Todo esse processo terá inicio em algum momento da semana que vem, quando alguém da SUN entrará em contato para organizar esses eventos.

Discutimos a distribuição linux a ser adotada. Ele contou o histórico da discussão, e indicou que, como fornecedor, algo baseado em RHEL era indicado. Com isso e o que foi argumentado por email nos dias anteriores, em especial pelo Rogério[1], decidimos fechar essa questão adotando o CentOS na última versão estável (5.2).

Também iniciamos a discussão sobre a forma de provisionamento. Novamente o Thomaz comentou sobre a ferramenta da SUN para provisionamento e gerenciamento LOM (Lights Out Management). A ferramenta _(esqueci o nome) é utilizada em grandes centros como uma interface gráfica para LOM, e nesse aspecto está bastante madura e ele tem interesse em adotá-la. Porém a parte de provisionamento é rescente e se baseia na cópia de imagens inteiras dos discos quando o nó está off-line. Ele indica uma solução na linha do systemless (diskless com swap e scratch em disco local usando NFS boot). Decidimos não tomar uma decisão agora, esperando até sexta para incluir todos os membros do grupo.

Se segiu uma discussão sobre storages. De discussões amplas como "o futuro dos storages" até questões bastante práticas, como o aumento da performance de dCache sobre solaris/zfs contra linux. Os pontos mais importantes foram o detalhamento do hardware do servidores do cluster grande, que pode ser resumido como:

  • 4 x servidores (Thumper) X4500 com muito disco 24 ou 48 TB cada (a confirmar)
  • 2 x servidores com 16 cores, 32 Gb RAM
  • 2 x servidores com 16 cores, 32 Gb RAM + canal de Fibre Channel
  • 1 x storage fibre channel (2 portas) 48 Tb.

Uma discussão sobre virtualização teve início. Concluímos que o núcleo da questão é não é qual técnica de virtualização, mas se precisamos ou não dela. Para responder isso, precisamos levantar quais são os serviços necessários, seu workload e seu nível de redundância aceitável. Existem diversos serviços que seriam melhor gerenciados se fossem máquinas distintas, criando conteiners. Porém não temos tantas máquinas reais disponíveis e quanto maior o número de servidores, maior o trabalho de atualização. Essa questão também ficou em aberto, sendo que na próxima reunião serão levantados os serviços e suas distribuições por servidores.

Por fim, duas questões periféricas surgiram:

  1. Para o desenvolvimento de aplicações para cluster é indispensável o uso de um ambiente muito próximo ao de produção. Assim precisamos pensar em possibilitar que o cluster seja usado em processos interativos e cuidar para que essa possibilidade não seja abusada (incluir isso na autenticação PAM).
  2. Diversas aplicações para cluster fazem uso dos dados on-line (montado). Se as Thumper forem alocadas exclusivamente para dCache, o único espaço disponível é parte do storage de 48TB. Apesar de achar que isso é mais que suficiente, seria necessária a confirmação.

Anexos:

[1] Trecho do email do Rogério

Distribuição de GNU/Linux

Eu também tenho a distribuição Debian como a minha favorita. Nos meus tempos de CCE eu fazia parte da comunidade de entusiastas de lá. Porém, os argumentos abaixo me parecem fortes o suficiente p/ mostrar porque, ao menos nesse momento, é importante centrar esforços na distribuiçao CentOS (ou qquer outra redhat-like):

- fornecedores de hardware garantem a compatibilidade dos drivers (os drivers das controladoras do IB funcionam garantidamente no CentOS, segundo a Sun nos informou. Não há garantias em relação ao Debian).

- fornecedores de software garantem a compatibilidade de seus produtos (e tem vários que já foram fornecidos, pela Intel e pela Sun: compiladores, ferramentas de desenvolvimento e análise, etc. Todas funcionam em distribuições redhat-like)

- experiência acumulada em 4 anos de operaçao do SPRACE

- ficamos alinhados c/ a maioria dos sites OSG

- podemos justificar a escolha à comunidade que não é da física de altas energias usando como argumento (a meu ver forte) o fato de que temos que ficar alinhados com a comunidade OSG

- alguns pacotes comerciais muito usados pela comunidade científica (e.g. Gaussian) só dispõem de versões p/ redhat e SuSE (vide http://www.gaussian.com/g03_plat.htm)

Topic revision: r2 - 2008-09-18 - SergioLietti
 

This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback

antalya escort bursa escort eskisehir escort istanbul escort izmir escort