O Agility Tech Center realizou testes com a tecnologia de MetroCluster em modo Stretch da Netapp. Esse é o primeiro de uma série de artigos para discutir as experiências e requisitos de instalação, operação e testes de alta disponibilidade com a funcionalidade de MetroCluster.
O que é o MetroCluster?
O MetroCluster é uma funcionalidade para disponibilidade contínua de dados e aplicações criada pela Netapp para algumas de suas famílias de storage. A tecnologia pode ser utilizada desde em configurações de alta disponibilidade em distâncias de Campus (até 500 metros) através do modo Stretch, quanto em distâncias metropolitanas (de até 200 Km) para soluções mais robustas de recuperação de desastres. Os requisitos para o tipo de configuração em Stretch mode serão discutidos nessa série de artigos.
Diferenças entre HA Síncrono e MetroCluster
O MetroCluster trabalha com duas controladoras e dois pares de storage em localidades distintas utilizando replicação síncrona e funcionalidades nativas de proteção de dados da Netapp.
É interessante, no entanto, diferenciar o MetroCluster de uma solução de storage em HA com replicação síncrona de dados (no caso da Netapp, uma par em HA utilizando SyncMirror).
Quando uma controladora falha em um par da HA com SyncMirror (sem MetroCluster), a controladora parceira detecta a falha e automaticamente (se habilitada para essa função) realiza o takeover para assumir a responsabilidade de servir os dados. Parte desse processo depende da controladora sobrevivente ler informações dos discos da controladora que falhou. Se esse conjunto de discos não estiver disponível, o takeover automático não irá ocorrer.
Em uma configuração de MetroCluster, quando a mesma situação acima ocorre, a execução de um simples comando (cf forcetakeover –d) permite que o takeover ocorra independentemente da disponibilidade dos discos do lado que falhou.
Esse processo de takeover forçado quebra a relação de espelhamento entre o par de storages de forma a disponibilizar os dados do site que falhou no site secundário.
O MetroCluster provê espelhamento síncrono de dados e a capacidade de iniciar um failover de forma rápida (RTO próximo de zero) em caso de desastre completo do site principal, sem a necessidade de quebrar o espelhamento dos arrays e colocar manualmente os dados disponíveis novamente no site secundário. Tudo isso ocorre de forma automática a partir da execução do comando cf forcetakeover -d.
Da mesma forma, o retorno dos dados para o site principal é muito facilitado e ocorre com rapidez de acordo com os testes realizados no laboratório do ATC.
Usuários que se beneficiariam do uso do MetroCluster incluem instituições que necessitem de RPO zero e RTO muito próximo a zero (a virada em caso de declaração de desastre pode ocorrer de forma muito rápida).
Outras vantagens interessantes da funcionalidade incluem:
1. Facilita o planejamento e execução de testes de DR que seguem as regulamentações de muitos negócios.
2. Integra-se muito bem a soluções de alta disponibilidade em ambientes virtualizados. Um exemplo seria a solução de HA (High Availability) e FT (Fault Tolerance) da VMware. É também possível criar cenários que utilizem fluxos de trabalho com o SRM (Site Recovery Manager) da VMware ou ferramentas de outros fabricantes.
3. Uma vez que o MetroCluster está disponível tanto em famílias menores de storage quanto em equipamentos do topo da linha da Netapp, a funcionalidade permite a criação de cenários robustos e flexíveis de alta disponibilidade e com simplicidade operacional suficiente para que a carga de trabalho seja alterada entre diferentes localidades de forma preventiva.
Os artigos dessa série irão discutir diversos pontos operacionais da tecnologia de MetroCluster.
Referências
Esta série de artigos utiliza como referência testes realizados no laboratório do Agility Tech Center e os seguintes documentos da Netapp:
- System Administration Guide for 7-Mode (versão 8.2 do Data ONTAP)
- High Availability and MetroCluster Configuration Guide for 7-Mode (versão 8.2 do Data ONTAP)
- Network Management Guide For 7-Mode (versão 8.2 do Data ONTAP)
- Best Practices for MetroCluster Design and Implementation (TR-3548)