Blog Agility

Verificando a saúde do Cluster Nutanix e executando Stress Test

Este artigo aborda a execução do Stress Test utilizando a ferramenta de diagnósticos da Nutanix. Estes procedimentos são os próximos passos a serem executados logo após a criação do Storage Pool e Container.

A ferramenta de diagnósticos da Nutanix permite executar testes de performance no Cluster. Esta ferramenta é de extrema utilidade para testar uma nova implementação Nutanix, ou para identificar a origem de problemas de performance de um cluster em produção.

A ferramenta de diagnósticos cria uma nova VM de diagnóstico em cada nó do Cluster. Estas novas VMs de diagnóstico serão controladas pelas Controller VMs da Nutanix, executando os testes de performance em seus respectivos Hosts e reportando os resultados de volta para o Cluster.

Os testes de diagnóstico provêm as seguintes informações:

Sequential Write Bandwith
Sequential Read Bandwith
Random Read IOPS
Random Write IOPS

Após a execução dos testes, é necessário rodar o script de limpeza para remover as novas VMs de diagnóstico criadas pelo Stress Test.

Verificando a saúde do Cluster

1. Para verificar a saúde do Cluster Nutanix, conectamos na console de qualquer uma das Controller VMs participantes do Cluster (via console ou via Putty) e executamos o comando “ncli cluster status | grep –A 15 ip_da_controller_vm”, conforme imagem a seguir:

Imagem 1: Cluster Status
Este comando retorna o status dos serviços Nutanix e deve ser executado em todas as Controller VMs

Executando Stress Test com a ferramenta de diagnósticos

1. Após a validação da saúde do Cluster, podemos prosseguir com o Stress Test. Na console de qualquer uma das Controller VMs participantes do Cluster, rodamos o comando “~/diagnostics/diagnostics.py run”, conforme a imagem a seguir:

Imagem 2: Diagnostico
2. Após a execução do comando podemos observar o início da execução do script e a criação das VMs de diagnósticos em cada Controller VM pertencente ao Cluster:

Imagem 3: Execucao do diagnostico
3. Observando através da console de gerenciamento do Hypervisor em questão (no nosso caso estamos utilizando o ESX da VMware), podemos acompanhar a criação das VMs de diagnóstico:

Imagem 4: Console ESX
4. Após a criação das VMs de diagnóstico, o script começa a gerar carga nos discos do Cluster. Podemos acompanhar a evolução dos testes através da console da Controller VM. Além disso, por meio da console WEB de gerenciamento da Nutanix, podemos observar que o parâmetro [Cluster IOPS] encontra-se baixo no início do teste:

Imagem 5: inicio do teste
5. Podemos acompanhar durante a execução do Stress Test os resultados de cada um dos parâmetros testados:

Imagem 6: Acompanhamento

6. Observando novamente a console WEB de gerenciamento da Nutanix, podemos observar o aumento do parâmetro [Disk IOPS] conforme o avanço dos testes:

Imagem 7: Disk IOPS

7. Ao término da execução do Stress Test teremos a mensagem “Tests Done” conforme imagem a seguir:

Imagem 8: Fim do teste

8. Ao final do teste podemos observar na console de gerenciamento WEB da Nutanix as informações do Storage, no momento da execução dos testes:

Imagem 9: Console WEB

É importante lembrar que os valores de resultado dos testes reportados na console WEB da Nutanix, são reportados diretamente pelos Hosts Hypervisors e as informações apresentadas na console de execução do Stress Test é reportado diretamente pelas Controller VMs. Por isso pode haver alguma divergência nos valores apresentados.

9. Após o término do Stress Test é necessário rodar o script de limpeza da Nutanix, o qual irá remover todas as VMs de diagnósticos criadas durante a execução dos testes. Para rodar o script de limpeza, rodamos o comando “~/diagnostics/diagnostics.py cleanup” conforme imagem a seguir:

Imagem 10: Script de limpeza

10. Após a execução do script de limpeza, podemos observar que as VMs de diagnóstico foram removidas com sucesso do ambiente ESX:

Imagem 11: Ambiente limpo

O script de testes da Nutanix é uma ferramenta extremamente útil para testar o funcionamento e performance de uma nova implementação Nutanix e serve também para ajudar a identificar problemas de performance em um Cluster Nutanix existente.