Novinky stránek

Jak nás IBM x225 vypeklo a jak nás zachránili naši absolventi

 
 
Obrázek: Dulik Tomas
Re: Jak nás IBM x225 vypeklo a jak nás zachránili naši absolventi
autor Dulik Tomas - Úterý, 23. září 2014, 08.23
 

V rámci mazání starých labelů na přední straně Moodle přidávám starší zprávu, která by se jinak ztratila v šumu vesmíru:

 

Sobota 5.4.2008: upgrade disků tohoto serveru

Trochu překvapivé informace úvodem: server vyuka.fai.utb.cz je ve skutečnosti od léta 2007 virtuální stroj, běžící spolu s dalšími 3mi virtuálními stroji (studenti.fai.utb.cz, zamestnanci.fai.utb.cz, sip.icamp.eu) pod supervisor-em Xen na fyzickém stroji IBM x225. Přestože je tato mašinka už poněkud obstarožní (byla zakoupena z grantu Eric v roce 2002), výkon jejich procesorů je ještě stále zcela dostatečný - obsahuje totiž 2 dvoujádrové procesory Xeon 2.8 GHz. Po letošním upgradu paměti na 5GB už zbýval k prodloužení "morální" životnosti serveru ještě poslední krok - nahradit disky 3x36GB (hotswap SCSCI v konfiguraci RAID5) novými 300GB disky, které se nám letos podařilo na poslední chvíli sehnat, protože SCSI disky už se dnes v podstatě nevyrábí. Tento krok byl naprosto nutný, protože na původních 36GB discích, kde jsou právě data serveru vyuka.fai.utb.cz, už začalo docházet místo. A to přesto, že ostatní virtuální stroje jsme již dávno přesunuli na provizorní jediný běžný levný SATA disk, který ovšem není konstruován na nonstop provoz v serveru.

Vzhledem k velkému objemu dat na všech virtuálních serverech (kolem 100GB) nebylo možné přesun provést bez výpadku - ještě před výměnou disků bylo nutné kvůli zachování konzistence dat všechny servery zastavit, provést zálohu všech dat na 500GB USB disk, zálohu ověřit, a teprve potom jsme se odvážili do serveru vložit nové SCSI disky, začít si hrát s konfigurací RAID řadiče, nainstalovat na nové disky Linux Debian, ...

Celá operace nakonec trvala několik hodin, většinu času přitom zabralo zálohování a kopírování. Všechny služby serveru byly obnoveny až v 19:30.

Pokud jste v sobotu odpoledne byli délkou výpadku serverů rozladěni, nejste sami - my také, nepředpokládali jsme, že celé sobotní odpoledne a večer strávíme v kadibudce serverovny. Představte si ale jiný scénář - staré disky již byly za hranicí své životnosti i záruky (5 let), a přestože jsou v RAID5, mohly se kdykoli rozsypat. Přestože zálohování dat na tomto serveru jakžtakž zvládáme - na USB disk 500GB, byl by výpadek způsobený pádem disků mnohem delší. Navíc, správu tohoto serveru provádíme ve svém volném čase a toho moc není, takže tento server berte, tak jak v serverovně stojí - tj. bez záruky. Ostatně i záruka, poskytovaná firmou IBM na fyzický stroj, skončila v roce 2006...