Procedure per risolvere i guasti del sottosistema disco | INTROSERV

Procedure per risolvere i guasti del sottosistema disco

Introduzione

La stabilità dei dischi è fondamentale per mantenere la continuità del servizio e proteggere i dati. Sebbene l'infrastruttura INTROSERV utilizzi hardware di livello enterprise, possono comunque verificarsi problemi dovuti a guasti hardware, degrado del RAID o errori del filesystem. Questo documento spiega i tipi di problemi del disco che possono verificarsi, cosa si può fare per risolverli e come il nostro team di supporto gestisce le procedure di ripristino.

Infrastruttura INTROSERV: Protezione dei dati

INTROSERV utilizza un approccio a più livelli per l'affidabilità dei dischi. I server INTROSERV sono dotati di unità HDD, SSD e NVMe di livello enterprise e di controller RAID testati. La maggior parte dei server supporta dischi hot-swap, il che significa che le sostituzioni possono essere effettuate senza spegnere il server. Su richiesta, possiamo anche monitorare la salute e le prestazioni dello storage.

Tipi di problemi di storage

In qualsiasi ambiente server possono verificarsi diversi tipi di problemi legati ai dischi:

  • Guasto fisico del disco - Il disco smette di rispondere o riporta errori SMART critici. La tecnologia SMART (Self-Monitoring, Analysis and Reporting Technology) rileva i primi segnali di problemi del disco.
  • Degrado del RAID - Un disco di un array RAID è offline e il sistema funziona in modalità a capacità ridotta. In questo stato, il server rimane accessibile (se l'array è ridondante), ma le prestazioni possono essere compromesse e la protezione dei dati è temporaneamente ridotta.
  • Guasto RAID - Più dischi sono offline o non è possibile accedere all'array RAID. Ciò richiede un intervento immediato.
  • Errori del controller - Problemi con il controller RAID o il suo modulo cache impediscono la corretta comunicazione con i dischi.
  • Corruzione del filesystem - Le strutture dei dati sul disco si danneggiano. Il sistema può passare automaticamente alla modalità di sola lettura per evitare ulteriori danni.
  • Degrado delle prestazioni - Si verificano picchi di latenza insoliti durante le operazioni di lettura e scrittura, che possono indicare problemi emergenti del disco.
  • Problemi di archiviazione esterna - Problemi che riguardano i sistemi di archiviazione remota utilizzati in alcune configurazioni di server.

Quando si contatta l'assistenza, il nostro team di ingegneri valuta l'incidente, ne determina la gravità e seleziona la procedura di ripristino appropriata. Si consiglia di configurare il monitoraggio del server per rilevare tempestivamente i problemi del disco.

Cosa si può controllare prima di contattare l'assistenza

Anche se la maggior parte dei guasti al disco richiede l'intervento tecnico dei nostri ingegneri, è possibile raccogliere informazioni diagnostiche utili per aiutarci a risolvere il problema più rapidamente. Se il vostro server è ancora accessibile, potete eseguire i seguenti controlli:

  • Esaminare i registri di sistema - Su Linux, accedere ai registri di sistema utilizzando dmesg (visualizza i messaggi del kernel) o journalctl (visualizza le voci del registro di sistema). In Windows, utilizzare Event Viewer per controllare il registro di sistema. Questi registri contengono spesso messaggi di errore relativi a problemi del disco.
  • Eseguire la diagnostica SMART - Su Linux, utilizzare il comando smartctl per verificare la salute del disco o nvme-cli per le unità NVMe. Su Windows, strumenti gratuiti come CrystalDiskInfo possono visualizzare i dati SMART. Queste informazioni aiutano i nostri tecnici a diagnosticare più rapidamente il problema.
  • Controllare lo stato dell'array RAID - Per il RAID software, utilizzare gli strumenti integrati del sistema operativo (mdadm su Linux, Storage Spaces o Disk Management su Windows). Per il RAID hardware, utilizzare l'utility del produttore del controller (come MegaCLI, StorCLI o l'interfaccia web del controller). Queste informazioni sono preziose per diagnosticare il degrado o il guasto.
  • Eseguireil backup dei dati importanti - Se il sistema rimane parzialmente accessibile, si consiglia di eseguire il backup dei dati critici in un'altra posizione.

L'area client di INTROSERV fornisce informazioni di base sulla configurazione del server. Per i registri dettagliati e la diagnostica hardware, accedere all'interfaccia IPMI del server (iDRAC, IRMC, iLO o simili). Utilizzare queste informazioni per preparare i dettagli prima di aprire un ticket di assistenza.

Quando contattare l'assistenza

Contattare immediatamente il nostro team di assistenza quando si verifica una delle seguenti condizioni:

  • Il disco segnala errori SMART
  • Il RAID entra in modalità degradata (uno o più dischi offline)
  • Il sistema si blocca, diventa di sola lettura o non risponde più.
  • I tentativi di riparazione del filesystem non risolvono il problema
  • Il server non rileva uno o più dischi
  • Si nota un insolito degrado delle prestazioni che persiste

L'assistenza INTROSERV è attiva 24 ore su 24, 7 giorni su 7, e tratta gli incidenti relativi all'hardware con la massima priorità. Contattarci tempestivamente accelera notevolmente i tempi di risoluzione.

Informazioni da includere nel ticket di assistenza

Quando si apre un ticket di assistenza per problemi relativi al disco, includere le seguenti informazioni:

  • ID, nome o indirizzo IP del server
  • Descrizione chiara di ciò che si è osservato (comportamento del sistema, messaggi di errore, tempistica)
  • Output SMART, se disponibile
  • Stato attuale dell'array RAID, se è stato possibile verificarlo.
  • Ora approssimativa in cui è iniziato il problema
  • Qualsiasi operazione eseguita prima di aprire il ticket Numero di serie del disco e numero di slot, se disponibili. Se il disco non viene riconosciuto dal sistema, fornire i numeri di serie di tutti gli altri dischi visibili.

L'area client di INTROSERV contiene informazioni generali sulla configurazione del server. Tuttavia, i dati diagnostici dettagliati, come i numeri di serie dei dischi, l'output SMART e lo stato RAID, devono essere raccolti manualmente utilizzando gli strumenti descritti in precedenza.

Come i nostri tecnici gestiscono i problemi dei dischi

Quando riceviamo il ticket di assistenza, il nostro team di ingegneri segue un flusso di lavoro strutturato per diagnosticare e risolvere il problema:

Fase 1: esame dello stato dell'hardware - Con l'autorizzazione del cliente, i nostri tecnici si collegano al server tramite IPMI o OS per controllare lo stato dell'hardware e verificare le condizioni di ciascun disco.

Fase 2: valutazione dei componenti - Con l'autorizzazione ad accedere al sistema operativo, all'IPMI o all'utilità RAID, identifichiamo il disco difettoso e confermiamo quali dischi funzionano normalmente.

Fase 3: Determinazione del ripristino - In base alla valutazione, determiniamo se è necessaria la sostituzione del disco, la ricostruzione del RAID o un'altra procedura di ripristino. Informiamo il cliente delle nostre conclusioni e attendiamo la sua conferma prima di procedere. In questo modo avrete il tempo di effettuare il backup dei dati o di eseguire altre azioni, se necessario.

Fase 4: coordinamento della manutenzione - Se i lavori richiedono tempi di inattività, coordiniamo con voi una finestra di manutenzione per ridurre al minimo le interruzioni.

Fase 5: implementazione e reportistica - A seconda del problema, i nostri amministratori lo risolvono in remoto o i nostri tecnici del data center eseguono la sostituzione fisica dell'hardware. Al termine, vi forniamo un rapporto dettagliato delle azioni intraprese e dei risultati.

Questo approccio garantisce che il problema venga gestito in modo prevedibile e trasparente e che il cliente sappia sempre cosa sta succedendo al suo server.

Procedure di sostituzione dei dischi

Quando un disco deve essere sostituito, i nostri tecnici del centro dati eseguono il lavoro. La maggior parte dei server INTROSERV supporta la sostituzione del disco a caldo, che consente di sostituire il disco senza spegnere il server. Se la sostituzione richiede lo spegnimento del server, coordineremo con voi un orario di manutenzione adeguato.

Dopo la sostituzione, l'array RAID deve essere ricostruito. La durata della ricostruzione dipende dalle dimensioni del disco e dalla configurazione RAID. Durante il processo di ricostruzione, il server rimane operativo, ma le prestazioni possono variare. Si consiglia di evitare carichi di lavoro pesanti durante questo periodo, a meno che non sia assolutamente necessario.

Procedure di ripristino per guasti RAID gravi

Se non è possibile ricostruire un array RAID, i nostri tecnici eseguono una valutazione dettagliata di tutti i dischi per determinare l'approccio di ripristino migliore. A seconda delle condizioni dell'hardware e della configurazione del server, possiamo:

  • Tentare un recupero parziale dei dati - Recuperare i dati accessibili dalle sezioni del disco non danneggiate.
  • Preparare un'infrastruttura sostitutiva - Configurare un nuovo ambiente di server o di storage e assistere nella migrazione dei dati.
  • Ripristino da backup - Se i servizi di backup di INTROSERV sono abilitati, possiamo ripristinare i dati dai vostri archivi di backup.

I nostri tecnici discuteranno con voi l'approccio migliore in base alla vostra situazione specifica.

Riparazione del sistema di file

Se i dischi e il sistema RAID funzionano ma il filesystem è danneggiato, strumenti diagnostici come fsck (filesystem check) possono aiutare a ripristinare l'accesso. Si consiglia il seguente approccio:

  • Utilizzare la modalità monoutente - Eseguire la riparazione del filesystem in modalità monoutente per ridurre al minimo il rischio di ulteriori danni dovuti all'attività concomitante del sistema.
  • Seguire attentamente le nostre indicazioni - Parametri errati o tentativi ripetuti di riparazione possono causare ulteriori danni ai dati. Il nostro team di assistenza fornirà istruzioni passo-passo se scegliete di eseguire questa operazione da soli, oppure possiamo eseguirla per voi.
  • Contattare il supporto per i casi complessi - Se gli strumenti di riparazione standard non risolvono il problema, contattare il supporto per ottenere assistenza.

Protezione dei dati attraverso i backup

I backup sono la protezione più efficace contro la perdita permanente dei dati. INTROSERV offre servizi di backup completi che salvano automaticamente i vostri dati su un'infrastruttura separata, completamente indipendente dall'hardware del vostro server principale. Questa separazione significa che i guasti al disco del server principale non influiscono sulle copie di backup.

Come utilizzare i backup di INTROSERV:

  • Ordinare e attivare i servizi di backup attraverso l'Area Clienti
  • Configurare pianificazioni automatiche di backup in base alle proprie esigenze
  • Ripristinare i dati direttamente dall'Area Clienti o richiedere l'assistenza del nostro team di supporto.

Se non avete ancora attivato i backup, vi consigliamo vivamente di farlo. In questo modo si ottiene la migliore protezione per i dati critici.

Sintesi

INTROSERV fornisce l'infrastruttura, gli strumenti e il supporto di esperti necessari per tenere sotto controllo i rischi legati ai dischi. La nostra combinazione di hardware aziendale, capacità di sostituzione rapida dei dischi e procedure di ripristino chiare aiuta a ridurre al minimo i tempi di inattività e a proteggere i dati. In caso di problemi, il nostro team di ingegneri è disponibile 24 ore su 24, 7 giorni su 7, per assistervi. Abbinato ai servizi di backup INTROSERV, questo approccio fornisce una protezione completa per le vostre informazioni critiche.

VAT

  • Other

    Other

    0%
  • austria

    Austria

    20%
  • Belgium

    Belgium

    21%
  • Bulgaria

    Bulgaria

    20%
  • Croatia

    Croatia

    25%
  • Cyprus

    Cyprus

    19%
  • Czech Republic

    Czech Republic

    21%
  • Denmark

    Denmark

    25%
  • Estonia

    Estonia

    22%
  • France

    France

    20%
  • Finland

    Finland

    24%
  • Germany

    Germany

    19%
  • Greece

    Greece

    24%
  • Hungary

    Hungary

    27%
  • Ireland

    Ireland

    23%
  • Italy

    Italy

    22%
  • Latvia

    Latvia

    21%
  • Lithuania

    Lithuania

    21%
  • Luxembourg

    Luxembourg

    17%
  • Malta

    Malta

    18%
  • Netherlands

    Netherlands

    21%
  • Poland

    Poland

    23%
  • Portugal

    Portugal

    23%
  • Romania

    Romania

    19%
  • Slovakia

    Slovakia

    20%
  • Slovenia

    Slovenia

    %
  • Spain

    Spain

    21%
  • Sweden

    Sweden

    25%
  • USA

    USA

    0%
european
states
  • Other
  • canada
  • poland
  • european-union
  • france
  • germany
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria
  • austria