Após a configuração inicial do MetroCluster, recomenda-se testar todas as funcionalidades referentes ao HA, assim como os cenários de falha parciais e falha completa de um site antes de colocar o par de storages em produção.
Testes básicos após a implantação do MetroCluster
Após a configuração inicial do MetroCluster, é recomendada a realização de testes antes de colocar o ambiente em produção. Da mesma forma, é importante salvar as saídas de log durantes os testes para que possa ser criado um perfil de comportamento nos casos de falha testados. O baseline de funcionamento em estado normal pode ser obtido através dos comandos discutidos no artigo MetroCluster de A a Z (7 de 12): Verificação do Ambiente de HA.
Os seguintes testes são recomendados (testes adicionais podem ser criados para complementar o perfil):
- Testar a desconexão de cabos das shelves para a controladora principal
- Testar a desconexão de cabos entre a controladora principal e a do site de DR
- Desligar a força das shelves do site principal
- Desligar a força das controladora do site principal
- Testar a funcionalidade de failover e de giveback através de comandos entre o site principal e secundário
- Testar um DR completo desligando a força da controladora e das shelves do site principal e executando o comando cd forcetakeover -f no site secundário
- Testar o retorno do DR para o site principal
Troubleshooting do HA
Se durante os testes o takeover ou o giveback falharem para um par em MetroCluster, ou se o HA não for estabelecido, é necessário verificar seu status e proceder com a análise do problema de acordo com as mensagens recebidas.
Passos básicos para a análise de problemas com o HA:
1. Verificar a configuração de HA entre os nós local e remoto através do comando a seguir e observar as mensagens recebidas:
cf status
2. Com as mensagens de erro, verifique as seguintes situações:
3. Utilizar o script da Netapp HA Configuration Checker:
- Através do site de suporte da Netapp (support.netapp.com), vá em Downloads –> Utility ToolChest -> HA Configuration Checker (cf-config-check.cgi). Siga as instruções da página para utilizar a ferramenta.
4. Corrigir quaisquer erros de configuração apontados pelo script
5. Reinicializar o par de HA e rodar os testes de takeover e giveback novamente.
6. Se necessário, contatar o suporte da Netapp. Recomenda-se também sempre ativar a funcionalidade de auto-support dos dispositivos.
Próximo artigo da série: MetroCluster de A a Z (11 de 12): Teste de Disaster Recovery
Referências
Esta série de artigos utiliza como referências testes realizados no laboratório do Agility Tech Center e os seguintes documentos da Netapp:
- System Administration Guide for 7-Mode (versão 8.2 do Data ONTAP)
- High Availability and MetroCluster Configuration Guide for 7-Mode (versão 8.2 do Data ONTAP)
- Network Management Guide For 7-Mode (versão 8.2 do Data ONTAP)
- Best Practices for MetroCluster Design and Implementation (TR-3548)