domingo, 20 de abril de 2008

Nota Técnica: VMotion falla al 10%

¿Y qué pasa cuando VMotion falla al 10% del proceso dándonos un error similar a este?

Operation timed out Tasks: A general system error occurred: Failed waiting for data. Error 16. Invalid argument

Bueno.... vamos a dar unos pasos dirigidos a resolver ese tipo de incidencias. El documento original de VMware puede consultarse aquí. Desgraciadamente los links mencionados no funcionan en algún caso (he corregido los que he podido).

  1. Reiniciar el agente de gestión de los ESX (los famosos mgmt-vmware, vmware-*, mediante el comando service restart ) para más info, consultad Restarting the Management agents on an ESX Server (1003490).
  2. Verifiquemos que la configuración del networking del VMkernel es válido. A saber:
    - Que el host origen y el destino tienen configuradas redes para vMotion
    - Que las redes de vMotion se llaman igual (son case-sensitive)
    - Que ambos puertos están en la misma VLAN
    - Que el VMkernel tiene definido un default gateway
    Para más info, consultad Unable to set VMkernel gateway as there are no VMkernel interfaces on the same network (1002662).
  3. Verificar que las redes del VMkernel se ven entre ellas utilizando el comando vmkping. Funciona como el ping, pero a través de las interfaces del VMkernel. Para más información, consultad Testing vmkernel network connectivity with the vmkping command (1003728).
  4. Verificad que las consolas de ambos ESX se ven entre ellas, mediante ping. Para más información, consultad Testing network connectivity with the Ping command (1003486).
  5. Verificad que la resolución de nombres funciona entre los ESX. yo, personalmente, tengo como mala costumbre el añadir a los ficheros /etc/host de cada ESX las IP de gestión de cada uno de los ESX que mantengo. Así no dependo del DNS. Para ms información, consultad Identifying issues with and setting up name resolution on ESX Server (1003735).
  6. Verificad que todos los ESX utilizan la misma hora. Es fundamental el configurar la sincronización horaria. Yo uso NTP para sincronizar mis ESX contra un servidor NTP, que es, asu vez, controlador de dominio. Para configurar NTP en ESX, consultad Installing and Configuring NTP on VMware ESX Server. Para configurar un servidor Windows como servidor NTP, consultad Using Windows Server 2003 in a Managed Environment.
    Más información en Verifying time synchronization across environment (1003736).
  7. Si usamos límites de recursos en la configuración de la VM, verificad que esos límites, especialmente los inferiores - reservations - "caben" en el host de destino. Para más información VMware VMotion fails if target host does not meet reservation requirements (1003791).
  8. Verifiquemos que la Service Console (el COS) tiene recursos suficientes, especificamente que los procesos hostd no estén "saturando" la consola. Para más información, consultad Checking for resource starvation of the ESX Server service console (1003496).
  9. Verificad que la VM no está configurada para usar un dispositivo que no es válido en el host de destino. Para más información, consultad Troubleshooting migration compatibility error: Device is a connected device with a remote backing (1003780).

Si VMotion falla al 10% después de haber verificado todos estos aspectos, abrid un caso con VMware.

Saludos.