miércoles, 5 de diciembre de 2007

El Pan de cada día: Linux monta los volúmenes en read only.

Panadero: Los chicos de LMS

Descripción: Mi grupo de gurús preferidos pusieron cerco a mi mesa el otro día reportando errores de disco en sus VM basadas en RHEL. Sin motivo aparente, RHEL 4.x reporta un error de disco y monta los volúmenes en Read Only. Imagináos la gracia.

Acciones diagnósticas: Lo de siempre. Revisar ESX, la conexión al almacenamiento, la carga de las VM, etc, etc. La consola del Linux reporta lo siguiente:

SCSI Error : <0> return code = 0x20008
end_request: I/O error, dev sda, sector 4928181
Aborting journal on device dm-0 ext3_abort called.
EXT3-fs error (device dm-0): ext3_journal_start_sb: Detected aborted journal
Remounting filesystem read-only.

(este es uno de los errores que pueden aparecer)

Después, chapuzón en San Google bendito y la consecuente llamada a mis infiltrados de VMware, apareció la solución.

Solución: Parece ser que es un "issue" con el driver LSI incorporado en RHEL4 U3, RHEL4 U4, SLES9 SP3 y SLES10. Esta versión del driver cambia el mecanismo de notificación de timeouts en acceso, limitando a 5 el número reintentos que el driver hace ante un timeout. VMware ha publicado un driver modificado al efecto. Este "issue" no es exclusivo de las máquinas virtuales. Si navegáis en Google, os lo encontraréis en físicas, eso sí, es más difícil. Está asociado a situaciones de carga de disco en el almacenamiento, situaciones que, en entornos ESX, son más fácilmente reproducibles.

Links de referencia:
RHEL4 U3, RHEL4 U4, SLES9 SP3, and SLES10 File Systems Might Become Read-Only ,
ESX 3.0.1 - Linux Guests go ReadOnly

Conclusiones: Pa habernos matao....