Mostrando entradas con la etiqueta Errores vMotion. Mostrar todas las entradas
Mostrando entradas con la etiqueta Errores vMotion. Mostrar todas las entradas

domingo, 20 de abril de 2008

Nota Técnica: VMotion falla al 10%

¿Y qué pasa cuando VMotion falla al 10% del proceso dándonos un error similar a este?

Operation timed out Tasks: A general system error occurred: Failed waiting for data. Error 16. Invalid argument

Bueno.... vamos a dar unos pasos dirigidos a resolver ese tipo de incidencias. El documento original de VMware puede consultarse aquí. Desgraciadamente los links mencionados no funcionan en algún caso (he corregido los que he podido).

  1. Reiniciar el agente de gestión de los ESX (los famosos mgmt-vmware, vmware-*, mediante el comando service restart ) para más info, consultad Restarting the Management agents on an ESX Server (1003490).
  2. Verifiquemos que la configuración del networking del VMkernel es válido. A saber:
    - Que el host origen y el destino tienen configuradas redes para vMotion
    - Que las redes de vMotion se llaman igual (son case-sensitive)
    - Que ambos puertos están en la misma VLAN
    - Que el VMkernel tiene definido un default gateway
    Para más info, consultad Unable to set VMkernel gateway as there are no VMkernel interfaces on the same network (1002662).
  3. Verificar que las redes del VMkernel se ven entre ellas utilizando el comando vmkping. Funciona como el ping, pero a través de las interfaces del VMkernel. Para más información, consultad Testing vmkernel network connectivity with the vmkping command (1003728).
  4. Verificad que las consolas de ambos ESX se ven entre ellas, mediante ping. Para más información, consultad Testing network connectivity with the Ping command (1003486).
  5. Verificad que la resolución de nombres funciona entre los ESX. yo, personalmente, tengo como mala costumbre el añadir a los ficheros /etc/host de cada ESX las IP de gestión de cada uno de los ESX que mantengo. Así no dependo del DNS. Para ms información, consultad Identifying issues with and setting up name resolution on ESX Server (1003735).
  6. Verificad que todos los ESX utilizan la misma hora. Es fundamental el configurar la sincronización horaria. Yo uso NTP para sincronizar mis ESX contra un servidor NTP, que es, asu vez, controlador de dominio. Para configurar NTP en ESX, consultad Installing and Configuring NTP on VMware ESX Server. Para configurar un servidor Windows como servidor NTP, consultad Using Windows Server 2003 in a Managed Environment.
    Más información en Verifying time synchronization across environment (1003736).
  7. Si usamos límites de recursos en la configuración de la VM, verificad que esos límites, especialmente los inferiores - reservations - "caben" en el host de destino. Para más información VMware VMotion fails if target host does not meet reservation requirements (1003791).
  8. Verifiquemos que la Service Console (el COS) tiene recursos suficientes, especificamente que los procesos hostd no estén "saturando" la consola. Para más información, consultad Checking for resource starvation of the ESX Server service console (1003496).
  9. Verificad que la VM no está configurada para usar un dispositivo que no es válido en el host de destino. Para más información, consultad Troubleshooting migration compatibility error: Device is a connected device with a remote backing (1003780).

Si VMotion falla al 10% después de haber verificado todos estos aspectos, abrid un caso con VMware.

Saludos.

Nota Técnica: Mensajes de error de VMotion

Todos los hemos sufrido en alguna que otra ocasión, en especial cuando queremos presumir de VMotion, por aquello delefecto demo: Los famosos errores de VMotion. VMotion es la capacidad de VI3 ara mover en vivo una máquina virtual de un host a otro. Como requerimiento tenemos la presencia de un Virtual Center (VMotion NO puede hacerse sin él), la existencia de un Virtual Switch habilitado para el mismo, el almacenamiento compartido, y cumplir unos mínimos requerimientos para evitar situaciones de fallo, esto es:

  • Red de vMotion dedicada: No usemos trunks 802.1q para la red de vMotion. Ethernet es un protocolo orientado a pérdidas - usemos o no switches - y cuanto más tráfico, más posibilidades de fallo, así que aislemos el tráfico vMotion.
  • Red de almacenamiento adecuada: Usemos lo que usemos, iSCSI, NFS o FC, procuremos que la red sea lo más adecuada posible. Si nos decidimos por iSCSI, el vSwitch debe ser dedicado. Si escogemos NFS, tres cuartos de lo mismo.
El cumplir estos requisitos no evitará que puedan aparecer errores. A continuación cito los remarcados por VMware (quien quiera puede obtener el kb desde aquí)

Mensajes de compatibilidad de CPU.

Respecto a estos errores, mi granito de arena: VMware no virtualiza la CPU, lo que implica que la VM la ve tal y como es: Con sus características específicas. Este tipo de errores aparecen cuando se intenta migrar entra distintas generaciones de CPU de un mismo fabricante, o entre fabricantes distintos. El documento que se indica suministra información de cómo limitar el impacto de las diferencias de arquitectura entre generaciones de procesadores. Yo tengo algún DRS donde conviven 3 generaciones de Opteron: D, E y F, y con pequeños ajustes, hacen VMotion entre ellos sin problemas. No es necesario asustarse. Enmascarar características de las CPU para evitar estos errores es sencillo, aunque laborioso si se desea un ajuste fino.

Mensajes relacionado con la configuración de dispositivos.

Mensajes relacionados con la configuración del Disco.

Más granito de arena con ejemplo práctico: Un cluster virtual NO MIGRA!!!

Este es de los buenos. Básicamente VMware no recomienda hacer vMotion de máquinas con Snapshot, advirtiendo que la máquina puede caerse cuando la migración se completa. Entiéndanse las cursiva/negrita como ironía.

Mensajes relacionados con la configuración del ESX:

Mensajes relacionados con la configuración de red de vMotion:

Mensajes relacionados con la configuración de los recursos de VMotion.

Un saludo