Postopki za odpravljanje napak diskovnega podsistema
Uvod
Stabilnost diska je ključnega pomena za ohranjanje neprekinjenosti storitev in zaščito podatkov. Čeprav infrastruktura INTROSERV uporablja strojno opremo za podjetja, lahko še vedno pride do težav zaradi napak strojne opreme, poslabšanja stanja RAID ali napak datotečnega sistema. Ta dokument pojasnjuje vrste težav z diski, ki se lahko pojavijo, kaj lahko storite, da jih odpravite, in kako naša ekipa za podporo izvaja postopke obnovitve.
Infrastruktura INTROSERV: Zaščita vaših podatkov
INTROSERV uporablja večplastni pristop k zanesljivosti diskov. Strežniki INTROSERV so opremljeni z diski HDD, SSD in NVMe ter preizkušenimi krmilniki RAID. Večina strežnikov podpira vročo zamenjavo diskov, kar pomeni, da lahko zamenjavo izvedete brez izklopa strežnika. Na zahtevo lahko spremljamo tudi stanje in zmogljivost vašega pomnilnika.
Vrste težav s shranjevanjem
V vsakem strežniškem okolju se lahko pojavi več vrst težav, povezanih z diski:
- Fizična okvara diska - disk se preneha odzivati ali sporoča kritične napake SMART. Tehnologija SMART (Self-Monitoring, Analysis and Reporting Technology) zazna zgodnje znake težav z diskom.
- Poslabšanje RAID - en disk v polju RAID je izključen in sistem deluje v načinu z zmanjšano zmogljivostjo. V tem stanju je strežnik še vedno dostopen (če je polje redundantno), vendar je zmogljivost lahko okrnjena, zaščita podatkov pa je začasno zmanjšana.
- Napaka RAID - več diskov je izključenih ali pa do polja RAID ni mogoče dostopati. To zahteva takojšnje posredovanje.
- Napake krmilnika - Težave s krmilnikom RAID ali njegovim modulom predpomnilnika preprečujejo pravilno komunikacijo med diski.
- Poškodba datotečnega sistema - podatkovne strukture na disku se poškodujejo. Sistem lahko samodejno preklopi v način samo za branje, da prepreči nadaljnje poškodbe.
- Zmanjšanje zmogljivosti - med operacijami branja in pisanja se pojavijo nenavadni skoki zakasnitve, ki lahko kažejo na nastajajoče težave z diskom.
- Težave z zunanjim pomnilnikom - Težave, ki vplivajo na sisteme oddaljenega pomnilnika, ki se uporabljajo v nekaterih konfiguracijah strežnikov.
Ko se obrnete na podporo, naša inženirska ekipa oceni incident, določi njegovo resnost in izbere ustrezen postopek obnovitve. Priporočamo, da konfigurirate spremljanje strežnika, da bi zgodaj odkrili težave z diskom.
Kaj lahko preverite, preden se obrnete na podporo
Čeprav večina okvar diska zahteva tehnično posredovanje naših inženirjev, lahko zberete koristne diagnostične informacije, ki nam bodo pomagale hitreje rešiti težavo. Če je strežnik še vedno dostopen, lahko opravite naslednja preverjanja:
- V operacijskem sistemu Linux dostopajte do sistemskihdnevnikov z dmesg (prikaže sporočila jedra) ali journalctl (prikaže vnose v sistemski dnevnik). V operacijskem sistemu Windows s pregledovalnikom dogodkov preverite sistemski dnevnik. Ti dnevniki pogosto vsebujejo sporočila o napakah, povezana s težavami z diskom.
- Izvedite diagnostiko SMART - V sistemu Linux uporabite ukaz smartctl za preverjanje stanja diska ali ukaz nvme-cli za pogone NVMe. V sistemu Windows lahko z brezplačnimi orodji, kot je CrystalDiskInfo, prikažete podatke SMART. Ti podatki pomagajo našim inženirjem hitreje diagnosticirati težavo.
- Preverite stanje polja RAID - Za programski RAID uporabite vgrajena orodja operacijskega sistema (mdadm v Linuxu, Storage Spaces ali Disk Management v Windows). Za strojni RAID uporabite orodje proizvajalca krmilnika (na primer MegaCLI, StorCLI ali spletni vmesnik krmilnika). Te informacije so dragocene za diagnosticiranje poslabšanja ali okvare.
- Varnostna kopija pomembnih podatkov - Če sistem ostane delno dostopen, razmislite o varnostni kopiji pomembnih podatkov na drugo lokacijo.
Odjemalsko območje INTROSERV zagotavlja osnovne informacije o konfiguraciji strežnika. Za podrobne dnevnike in diagnostiko strojne opreme dostopajte do vmesnika IPMI strežnika (iDRAC, IRMC, iLO ali podobno). Te informacije uporabite za pripravo podrobnosti, preden odprete vozovnico za podporo.
Kdaj se obrnite na podporo
Takoj se obrnite na našo ekipo za podporo, ko se pojavi kateri koli od naslednjih pogojev:
- Disk sporoča napake SMART
- RAID preide v slabši način (eden ali več diskov je izključenih)
- vaš sistem zamrzne, postane le za branje ali se ne odziva
- Poskusi popravila datotečnega sistema ne odpravijo težave
- strežnik ne zazna enega ali več diskov
- Opazite nenavadno poslabšanje zmogljivosti, ki se nadaljuje
Podpora INTROSERV deluje 24 ur na dan, 7 dni v tednu in 7 dni v tednu ter obravnava incidente, povezane s strojno opremo, z visoko prioriteto. Če se takoj obrnete na nas, se čas rešitve bistveno skrajša.
Informacije, ki jih vključite v vozovnico za podporo
Ko odprete vozovnico za podporo o težavah z diski, vključite naslednje informacije:
- ID, ime ali naslov IP strežnika
- Jasen opis opaženega (obnašanje sistema, sporočila o napakah, časovni potek)
- Izpis SMART, če je na voljo
- trenutno stanje polja RAID, če ste ga lahko preverili
- Približni čas začetka težave
- Vsi koraki, ki ste jih izvedli pred odprtjem prijave Serijska številka diska in številka reže, če sta na voljo. Če sistem diska ne prepozna, navedite serijske številke vseh drugih vidnih diskov.
Območje odjemalca INTROSERV vključuje splošne informacije o konfiguraciji strežnika. Podrobne diagnostične podatke, kot so serijske številke diskov, izhod SMART in stanje RAID, pa je treba zbrati ročno z uporabo zgoraj opisanih orodij.
Kako naši inženirji obravnavajo težave z diski
Ko prejmemo vašo prijavo za podporo, naša ekipa inženirjev sledi strukturiranemu delovnemu postopku za diagnosticiranje in reševanje vaše težave:
Korak 1: Pregled stanja strojne opreme - Z vašim dovoljenjem se naši inženirji prek IPMI ali operacijskega sistema povežejo z vašim strežnikom, da preverijo stanje strojne opreme in preverijo stanje vsakega diska.
Korak 2: Ocena komponent - Z vašim dovoljenjem za dostop do operacijskega sistema, IPMI ali pripomočka RAID identificiramo okvarjeni disk in potrdimo, kateri diski delujejo normalno.
Korak 3: Določitev obnovitve - Na podlagi ocene določimo, ali je potrebna zamenjava diska, ponovna vzpostavitev RAID ali drug postopek obnovitve. Nato vas obvestimo o svojih ugotovitvah in počakamo na vašo potrditev, preden nadaljujemo. Tako boste imeli dovolj časa, da naredite varnostno kopijo podatkov ali po potrebi izvedete druge ukrepe.
Korak 4: Usklajevanje vzdrževanja - Če delo zahteva izpad, z vami uskladimo okno za vzdrževanje, da bi čim bolj zmanjšali motnje.
5. korak: Izvajanje in poročanje - Glede na težavo jo naši skrbniki rešijo na daljavo ali pa naši tehniki v podatkovnem centru izvedejo fizično zamenjavo strojne opreme. Po zaključku vam pošljemo podrobno poročilo o izvedenih ukrepih in rezultatih.
Ta pristop zagotavlja, da je vaša težava obravnavana predvidljivo in pregledno, vi pa vedno veste, kaj se dogaja z vašim strežnikom.
Postopki zamenjave diska
Ko je treba zamenjati disk, to opravijo naši tehniki v podatkovnem centru. Večina strežnikov INTROSERV podpira zamenjavo diska z vročo zamenjavo, kar omogoča zamenjavo diska brez izklopa strežnika. Če zamenjava zahteva izklop strežnika, bomo z vami uskladili primeren čas vzdrževanja.
Po zamenjavi je treba polje RAID ponovno vzpostaviti. Trajanje obnove je odvisno od velikosti diska in konfiguracije RAID. Med postopkom ponovne vzpostavitve strežnik ostane delujoč, vendar lahko zmogljivost niha. Priporočamo, da se v tem času izogibate velikim obremenitvam, razen če je to nujno potrebno.
Postopki obnovitve za hude okvare RAID
Če polja RAID ni mogoče obnoviti, naši inženirji opravijo podrobno oceno vseh diskov, da določijo najboljši pristop za obnovitev. Glede na stanje strojne opreme in konfiguracijo strežnika lahko:
- Poskusimo delno obnoviti podatke - Pridobimo dostopne podatke iz nepoškodovanih delov diska.
- Pripravimo nadomestno infrastrukturo - Vzpostavimo nov strežnik ali okolje za shranjevanje in pomagamo pri migraciji podatkov.
- Obnovitev iz varnostnih kopij - Če imate omogočene storitve varnostnega kopiranja INTROSERV, lahko obnovimo vaše podatke iz vašega varnostnega pomnilnika.
Naši inženirji se bodo z vami pogovorili o najboljšem pristopu glede na vašo specifično situacijo.
Popravilo datotečnega sistema
Če diski in sistem RAID delujejo, vendar je datotečni sistem poškodovan, lahko diagnostična orodja, kot je fsck (preverjanje datotečnega sistema), pomagajo obnoviti dostop. Priporočamo naslednji pristop:
- Uporabite način za enega uporabnika - Popravilo datotečnega sistema zaženite v načinu za enega uporabnika, da zmanjšate tveganje nadaljnje škode zaradi hkratne dejavnosti sistema.
- Natančno upoštevajte naša navodila - Nepravilni parametri ali ponavljajoči se poskusi popravila lahko povzročijo dodatno škodo na podatkih. Naša ekipa za podporo vam bo zagotovila navodila korak za korakom, če se odločite, da boste to opravili sami, lahko pa to opravimo namesto vas.
- Za zapletene primere se obrnite na podporo - Če standardna orodja za popravilo ne odpravijo težave, se za pomoč obrnite na podporo.
Zaščita podatkov z varnostnimi kopijami
Varnostne kopije so najučinkovitejša zaščita pred trajno izgubo podatkov. INTROSERV zagotavlja celovite storitve varnostnega kopiranja, ki vaše podatke samodejno shranjujejo v ločeno infrastrukturo, popolnoma neodvisno od glavne strojne opreme strežnika. Ta ločitev pomeni, da okvare diska v glavnem strežniku ne vplivajo na vaše varnostne kopije.
Kako uporabljati varnostne kopije INTROSERV:
- Naročite in omogočite storitve varnostnega kopiranja prek odjemalskega območja
- konfigurirajte urnike samodejnega varnostnega kopiranja glede na svoje potrebe
- Obnovite podatke neposredno prek odjemalskega območja ali zahtevajte pomoč od naše ekipe za podporo.
Če trenutno nimate omogočenih varnostnih kopij, vam toplo priporočamo, da jih omogočite. To zagotavlja najboljšo zaščito vaših kritičnih podatkov.
Povzetek
INTROSERV zagotavlja infrastrukturo, orodja in strokovno podporo, ki so potrebni za obvladovanje tveganj, povezanih z diski. Naša kombinacija strojne opreme podjetja, možnosti hitre zamenjave diskov in jasnih postopkov obnovitve pomaga zmanjšati čas izpada in zaščititi vaše podatke. Ko se pojavijo težave, vam je naša inženirska ekipa na voljo 24 ur na dan, 7 dni v tednu in 7 dni v tednu, da vam pomaga. V kombinaciji s storitvami varnostnega kopiranja INTROSERV ta pristop zagotavlja celovito zaščito vaših ključnih podatkov.