Nutanix

Troubleshooting: Identificando SSD o HDD en mal estado

Los últimos artículos de troubleshooting o errores que me encuentro tienen relación con el Lifecycle Manager de Nutanix, tiene especial sentido por qué estamos haciendo más de 1600 upgrades de firmware, drivers, AOS y ESXi. El potencial de Nutanix LCM para mantener una infraestructura actualizada con unos pocos clicks es brutal sin dudas.

Tras actualizar unos pocos nodos de un cluster, pude ver que el proceso de LCM se ha detenido por falta de espacio. Como podéis ver en el mensaje, el dispositivo /dev/sde no dispone de espacio suficiente. El mensaje me ha extrañado como tal y en un primer momento llegué a pensar que Nutanix DSF no estaba distribuyendo o balanceando bien los datos entre todos los discos y servidores.

Lo primero que hice fue conectarme a la CVM de la imagen y usar los típicos comando para averiguar si realmente era un problema de espacio o se trataba de otro problema:

# df -h

Viendo esa imagen, podemos deducir que por espacio no se trata, por qué el uso real es de 1%.

Procedí a ejecutar el siguiente comando para ver el espacio libre en todas las CVM y aquí es donde empecé a notar una diferencia:

# allssh df -h

Como podéis ver, todas las CVM de arriba tienen 6 dispositivos (SSD) y en último CVM, la que está dando problemas, solo enseña 5 dispositivos.

Entonces decidí listar todos los discos de esta CVM con problemas:

# list_disks

Como podéis ver en la imagen, el slot 5 está enseñando un tamaño diferente al resto, siendo todos los discos del mismo tamaño.

El siguiente comando nos proporcionará mucha mas información sobre el dispositivo y lo que descubrí es que había un fallo con la versión del firmware «ERRORMOD».

sudo smartctl -T permissive -a -x /dev/<device Partition>

Con esa información ya estaba casi seguro que ese dispositivo estaba con errores y que lo más probable sea reemplazar el disco, aún así, os quiero enseñar un par de comandos más para estar 100% seguros del problema.

# edit-hades -p

Si tras escribir ese comando encuentras un flag «is_bad=true» es 100% seguro un problema de disco:

En la ruta ~/data/logs/ puedes encontrar muchos logs, para nuestro caso me centré en log hades.out que es donde se guarda toda la información relacionada con los discos:

# ~/data/logs/hades.out | grep SerialNumber

Con esta información y ya que estamos 100% seguros, tocaría abrir un caso de soporte y solicitar la sustitución del disco, aun así, nutanix te pedirá que le pase la salida de algunos de estos comandos junto a un NCC del cluster.

Esto ha sido todo, espero que estos apuntes os sirvan y como siempre, si os ha gustado o servido, no te olvides de compartirlo.

Leandro Ariel Leonhardt es experto en Virtualización de Sistemas especializado en Nutanix y VMware. Nutanix NCAP, NCS-A, NCS-C, NCSC-CA, NCSC-FL, NCSC-FI, NCP-MCI, NCSE 1 & Nutanix Technology Champions (NTC) 2018/2017. Nombrado vExpert PRO y vExpert desde el año 2013, vExpert vSAN 2019/18/17/16 & vExpert Cloud 2017. Ex-VCI, VCAP-DCA, VCP-DCV & VCP-NV. Co-autor del libro https://www.vmwareporvexperts.com | Más información sobre mi trayectoria en: https://www.leandroleonhardt.com y https://www.youracclaim.com/users/leandro-ariel-leonhardt/badges

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.