Procedimientos para solucionar los fallos del subsistema de disco

Introducción

La estabilidad del disco es fundamental para mantener la continuidad del servicio y proteger sus datos. Aunque la infraestructura de INTROSERV utiliza hardware de nivel empresarial, pueden producirse problemas debido a fallos de hardware, degradación de RAID o errores del sistema de archivos. Este documento explica los tipos de problemas de disco que pueden ocurrir, lo que puede hacer para ayudar a resolverlos, y cómo nuestro equipo de soporte maneja los procedimientos de recuperación.

Infraestructura INTROSERV: Protección de sus datos

INTROSERV utiliza un enfoque de varios niveles para la fiabilidad del disco. Los servidores INTROSERV están equipados con unidades HDD, SSD y NVMe de nivel empresarial y controladores RAID probados. La mayoría de los servidores soportan discos hot-swap, lo que significa que los reemplazos se pueden completar sin apagar su servidor. Si lo solicita, también podemos supervisar la salud y el rendimiento de su almacenamiento.

Tipos de problemas de almacenamiento

En cualquier entorno de servidor pueden producirse varios tipos de problemas relacionados con los discos:

Fallo físico del disco - El disco deja de responder o informa de errores SMART críticos. SMART (Self-Monitoring, Analysis and Reporting Technology) detecta señales tempranas de problemas en el disco.
Degradación RAID - Un disco de una matriz RAID está fuera de línea y el sistema funciona en modo de capacidad reducida. Durante este estado, su servidor sigue siendo accesible (si la matriz tiene redundancia), pero el rendimiento puede verse afectado y la protección de datos se reduce temporalmente.
Fallo RAID - Varios discos están fuera de línea o no se puede acceder a la matriz RAID. Esto requiere una intervención inmediata.
Errores de la control adora - Problemas con la controladora RAID o su módulo de caché impiden la correcta comunicación entre discos.
Corrupción del sistema de archivos - Las estructuras de datos del disco se dañan. El sistema puede cambiar automáticamente al modo de sólo lectura para evitar daños mayores.
Disminución del rendimiento: experimenta picos de latencia inusuales durante las operaciones de lectura y escritura, lo que puede indicar la aparición de problemas en el disco.
Problemasde almacenamiento externo: problemas que afectan a los sistemas de almacenamiento remoto utilizados en determinadas configuraciones de servidor.

Cuando se pone en contacto con el servicio de asistencia, nuestro equipo de ingenieros evalúa la incidencia, determina su gravedad y selecciona el procedimiento de recuperación adecuado. Le recomendamos que configure la supervisión del servidor para detectar a tiempo los problemas de disco.

Qué puede comprobar antes de ponerse en contacto con el servicio de asistencia

Aunque la mayoría de los fallos de disco requieren la intervención técnica de nuestros ingenieros, puede recopilar información de diagnóstico útil para ayudarnos a resolver su problema más rápidamente. Si su servidor sigue siendo accesible, puede realizar las siguientes comprobaciones:

Revise los registros del sistema - En Linux, acceda a los registros del sistema mediante dmesg (muestra los mensajes del núcleo) o journalctl (muestra las entradas del diario del sistema). En Windows, utilice el Visor de sucesos para comprobar el registro del sistema. Estos registros suelen contener mensajes de error relacionados con problemas de disco.
Ejecute diagnósticos SMART - En Linux, utilice el comando smartctl para comprobar el estado del disco, o nvme-cli para unidades NVMe. En Windows, herramientas gratuitas como CrystalDiskInfo pueden mostrar datos SMART. Esta información ayuda a nuestros ingenieros a diagnosticar el problema más rápidamente.
Compruebe el estado de la matriz RAID: para RAID por software, utilice las herramientas integradas de su sistema operativo (mdadm en Linux, Storage Spaces o Disk Management en Windows). Para RAID por hardware, utilice la utilidad del fabricante de la controladora (como MegaCLI, StorCLI o la interfaz web de la controladora). Esta información es valiosa para diagnosticar la degradación o el fallo.
Realice copias de seguridad delos datos importantes - Si el sistema sigue siendo parcialmente accesible, considere la posibilidad de realizar copias de seguridad de los datos críticos en una ubicación diferente.

El área de cliente de INTROSERV proporciona información básica sobre la configuración de su servidor. Para obtener registros detallados y diagnósticos de hardware, acceda a la interfaz IPMI de su servidor (iDRAC, IRMC, iLO o similar). Utilice esta información para preparar los detalles antes de abrir un ticket de soporte.

Cuándo ponerse en contacto con el servicio de asistencia

Póngase en contacto con nuestro equipo de soporte inmediatamente cuando se produzca alguna de las siguientes condiciones:

El disco informa de errores SMART
El RAID entra en modo degradado (uno o más discos desconectados)
El sistema se bloquea, pasa a ser de sólo lectura o deja de responder.
Los intentos de reparación del sistema de archivos no resuelven el problema
El servidor no detecta uno o varios discos.
Usted nota una degradación inusual del rendimiento que persiste

El soporte de INTROSERV funciona 24 horas al día, 7 días a la semana, y procesa las incidencias relacionadas con el hardware con alta prioridad. Póngase en contacto con nosotros lo antes posible para acelerar significativamente el tiempo de resolución.

Información a incluir en su ticket de soporte

Cuando abra un ticket de soporte sobre problemas de disco, incluya la siguiente información:

ID, nombre o dirección IP del servidor
Descripción clara de lo que ha observado (comportamiento del sistema, mensajes de error, tiempo)
Salida SMART, si está disponible
Estado actual de la matriz RAID si pudo comprobarlo
Hora aproximada de inicio del problema
Cualquier paso que haya realizado antes de abrir el ticket Número de serie del disco y número de ranura si están disponibles. Si el sistema no reconoce el disco, proporcione los números de serie de todos los demás discos visibles.

El área de clientes de INTROSERV incluye información general sobre la configuración de su servidor. Sin embargo, los datos de diagnóstico detallados como los números de serie de los discos, la salida SMART y el estado RAID deben recopilarse manualmente utilizando las herramientas descritas anteriormente.

Cómo manejan nuestros ingenieros los problemas de disco

Cuando recibimos su ticket de soporte, nuestro equipo de ingenieros sigue un flujo de trabajo estructurado para diagnosticar y resolver su problema:

Paso 1: Revisión del estado del hardware - Con su permiso, nuestros ingenieros se conectan a su servidor a través de IPMI o del SO para comprobar el estado del hardware y verificar la condición de cada disco.

Paso 2: Evaluación de componentes - Con su permiso para acceder al SO, IPMI o utilidad RAID, identificamos el disco defectuoso y confirmamos qué discos funcionan con normalidad.

Paso 3: Determinación de la recuperación - Basándonos en la evaluación, determinamos si es necesario sustituir el disco, reconstruir el RAID u otro procedimiento de recuperación. A continuación, le informamos de nuestras conclusiones y esperamos su confirmación antes de proceder. Esto le da tiempo para hacer una copia de seguridad de los datos o realizar cualquier otra acción si es necesario.

Paso 4: Coordinación del mantenimiento - Si el trabajo requiere tiempo de inactividad, coordinamos con usted una ventana de mantenimiento para minimizar las interrupciones.

Paso 5: Implementación e informes - Dependiendo del problema, nuestros administradores lo resuelven de forma remota o nuestros técnicos del centro de datos realizan la sustitución física del hardware. Una vez finalizado, le proporcionamos un informe detallado de las medidas adoptadas y los resultados.

Este enfoque garantiza que su problema se gestione de forma predecible y transparente, y que siempre sepa lo que está ocurriendo con su servidor.

Procedimientos de sustitución de discos

Cuando un disco requiere ser reemplazado, nuestros técnicos del centro de datos realizan el trabajo. La mayoría de los servidores INTROSERV admiten la sustitución de discos en caliente, lo que permite sustituir el disco sin necesidad de apagar el servidor. Si la sustitución requiere apagar el servidor, coordinaremos con usted un tiempo de mantenimiento adecuado.

Tras la sustitución, la matriz RAID debe reconstruirse. La duración de la reconstrucción depende del tamaño del disco y de la configuración RAID. Durante el proceso de reconstrucción, el servidor permanece operativo, pero el rendimiento puede fluctuar. Recomendamos evitar cargas de trabajo pesadas durante este tiempo a menos que sea absolutamente necesario.

Procedimientos de recuperación para fallos RAID graves

Si no se puede reconstruir una matriz RAID, nuestros ingenieros realizan una evaluación detallada de todos los discos para determinar el mejor método de recuperación. En función del estado del hardware y de la configuración del servidor, podemos:

Intentar una recuperación parcial de los datos - Recuperar los datos accesibles de las secciones de disco no dañadas.
Preparar una infraestructura de sustitución: configurar un nuevo servidor o entorno de almacenamiento y ayudarle a migrar los datos.
Restaurar a partir de copias de seguridad - Si tiene habilitados los servicios de copia de seguridad de INTROSERV, podemos restaurar sus datos a partir de su almacenamiento de copia de seguridad.

Nuestros ingenieros discutirán con usted el mejor enfoque basado en su situación específica.

Reparación del Sistema de Archivos

Si sus discos y sistema RAID están funcionando pero el sistema de archivos se ha corrompido, herramientas de diagnóstico como fsck (filesystem check) pueden ayudar a restaurar el acceso. Recomendamos el siguiente procedimiento:

Utilice el modo monousuario - Ejecute la reparación del sistema de archivos en modo monousuario para minimizar el riesgo de que se produzcan más daños por la actividad simultánea del sistema.
Siga nuestra guía cuidadosamente - Los parámetros incorrectos o los intentos repetidos de reparación pueden causar daños adicionales a los datos. Nuestro equipo de soporte le proporcionará instrucciones paso a paso si decide realizarlo usted mismo, o podemos realizarlo por usted.
Póngase en contacto con el servicio de asistencia para casos complejos - Si las herramientas de reparación estándar no resuelven el problema, póngase en contacto con el servicio de asistencia para obtener ayuda.

Protección de datos mediante copias de seguridad

Las copias de seguridad son la protección más eficaz contra la pérdida permanente de datos. INTROSERV proporciona servicios integrales de copia de seguridad que guardan automáticamente sus datos en una infraestructura separada, completamente independiente del hardware de su servidor principal. Esta separación significa que los fallos de disco en su servidor principal no afectan a sus copias de seguridad.

Cómo utilizar las copias de seguridad INTROSERV:

Solicite y habilite los servicios de copia de seguridad a través del Área de Cliente
Configure programas automáticos de copias de seguridad en función de sus necesidades
Restaure los datos directamente a través del Área de Cliente, o solicite asistencia a nuestro equipo de soporte

Si actualmente no tiene activadas las copias de seguridad, le recomendamos encarecidamente que las active. Esto proporciona la mejor protección para sus datos críticos.

Resumen

INTROSERV proporciona la infraestructura, las herramientas y el soporte experto necesarios para mantener bajo control los riesgos relacionados con los discos. Nuestra combinación de hardware empresarial, capacidades de sustitución rápida de discos y procedimientos de recuperación claros ayuda a minimizar el tiempo de inactividad y a proteger sus datos. Cuando surgen problemas, nuestro equipo de ingenieros está disponible 24 horas al día, 7 días a la semana, para ayudarle. Combinado con los servicios de copia de seguridad de INTROSERV, este enfoque proporciona una protección completa para su información crítica.