Novinky stránek

Jak nás IBM x225 vypeklo a jak nás zachránili naši absolventi

 
 
Picture of Dulik Tomas
Jak nás IBM x225 vypeklo a jak nás zachránili naši absolventi
by Dulik Tomas - Úterý, 1 prosinec 2009, 10:24
 
Abych nemusel odpovídat na četné emaily typu "proč od čtvrtka nejede server Moodle", nabízíme zde časový popis fatální havárie, ve které po pěti letech provozu umřel server IBM x225 a zachránila nás firma Sophics ze Zlína:
  • Čtvrtek 7:00:

    přicházím do cvičení kurzu Algoritmizace a zjišťuji, že server s Moodle nejede. Jdu do serverovny, kde nacházím pípající UPSky u serverů, vše ostatní (switche) nemá šťávu. Ve vedlejších kancelářích elektřina normálně jede. Chvíli zmateně pobíhám po patře mezi různými pojistkovými skříněmi a nemůžu najít ten správný jistič. UPSky už pípají zoufale, že jim za chvíli dojdou baterky, až konečně utichnou uplně.

    Zrovna, když najdu ten správný jistič, přichází údržbář s otázkou, jestli někde vypadly pojistky, neboť na chodbě opravuje porouchanou zásuvku. Společně nahazujeme jističe.

    UPSka u x225 nenabíhá. Bliká na ní symbol vadné baterie. Baterii jsem měnil v létě. To není možné, měla by přece vydržet aspoň 2 roky... Zapojuju x225 do velké UPS Martina Sysla, zapínám server, nesu UPSku do kanceláře a jdu zpátky do výuky.

    Po výuce zkoumám UPSku. Baterie vypadají v pořádku, připojuji na ně různě velké zátěže, napětí příliš neklesá. Nakonec přímo k baterii připojuji PC Intel Atom, které má 12V-only napájení a nechávám ho běžet. Jede bez přestání několik hodin. Závěr: baterie jsou O.K., UPSka K.O.

    To je zase den. Na chodbě říkám kolegovi o tom, že mě od rána stíhá smůla a klepu na dřevo, aby se už do večera nic nestalo. Marně..

  • Čtvrtek cca 13:15: přichází za mnou Daniel Pohuba a instalujeme do Moodle upgrade jeho modulu „Projekty“. Upload proběhl OK, ale stránka Moodle už nenaběhla. Směju se Danielovi, že jeho PHP skript nám shodil server a s podezřením na opět vypadlý jistič jdu do serverovny. Bohužel, jistič to nebyl. Za chvíli už odesílám všem zaměstnancům tento email:

    Vážení kolegové,

    před malou chvílí se porouchal server vyuka.fai.utb.cz. Po seběhnutí do serverovny jsem tam našel zápach spálené elektroniky a fyzický server (IBM x225), který nejde zapnout. Budu se teď snažit uvést ho do provozu, ale nejsem si jistý, kdy se mi to povede.

    S pozdravem

    Tomáš Dulík

    Nesu server do kanclu a otevírám ho. Největší zápach jde ze zdroje, vypadá to tedy na klasickou poruchu – shořelý zdroj. Vykuchám zdroj ven. Vypadá nestandardně: divné rozměry, divné rozteče děr pro šroubky, no a k dovršení všeho - konektor EPS12V. Obíhám kolegy, jestli někdo takový zdroj nemá. Marně.

    Volám hlavnímu dodavateli PC komponent pro školu – firmě NWT - s žádostí o pomoc. Hledají, koumají. Pak volají, bohužel žádný zdroj s EPS12V nemají na skladě. Objednávají originální zdroj pro x225, který přijde někdy příští týden. Na skladě mají ale zdroj pro IBM x360, který mohou půjčit. Dovezou jej ráno. Dnes už nic nevyřeším, jedu domů.

  • Pátek 8:00: zdroj pro IBM x360 nelze použít, má uplně jiné konektory. Začínám pátrat na eshopech všech zlínských prodejců PC komponent. Zdroj s EPS12V nikdo nemá. V NWT mají redukci z ATX 12V na EPS12V, která by ale nemusela proudově stačit.

    Volá Roman Jašek a nabízí pomoc s nákupem nového serveru. Vděčně vítám, ale bohužel nemám čas vymýšlet konfiguraci ani shánět peníze, musím se teď snažit server x225 co nejrychleji opravit, aby aspoň nějak provizorně jel, protože to je rychlejší, než instalovat zcela nový stroj. Také nechci ztratit všechna data od poslední zálohy (to by zas bylo výmluv studentů, že zrovna ten den něco odevzdali, ale shořelo to se starým serverem a nikde jinde to nemají). Roman naštěstí peníze i nákup zajistí sám.

    Jirka Mikulka volá, že našel 500W zdroj s EPS12V v TSBohemia v Malenovicích, a tak sedám na trolejbus a jedu pro něj.

  • Pátek 12:30: vítězně se ženu s novým zdrojem k serveru. Zapojuju, zapínám... a nic. Začínám mít špatný pocit. Odpojuji kabely DVD, FDD a jednoho IDE HDD, kryjící základní desku a pátrám, kde je co špatně. A v tom to vidím: velký BGA čip, uprostřed nepřirozeně vypouklý a očazený:
    Shorela zakladni deska x225
    (foto: Jirka Mikula)

    Tak tohle neopravíme...Sbohem, x225.

    Volám Jirkovi Mikulkovi. Přichází s testerem zdrojů. Zjišťujeme, že původní zdroj v x225 vypadá OK. Štěstí v neštěstí, kdyby shořel zdroj, mohl by sebou vzít i další elektroniku včetně harddisků. Takhle máme naději, že umřela jen deska.

    Volám do NWT, ruším objednávku zdroje a poptávám novou základní desku. Poptávky náhradních dílů pro staré servery řeší nějaké centrum náhradních dílů IBM bůhví kde, takže musíme čekat do pondělí, než nám oznámí cenu a dostupnost.

    Začínám hledat náhradní řešení, jak ze serveru dostat všechna poslední data a také jak využít harddisky IBM 300GB, které mají rozhraní SCSI U320 a konektor SCA80. Máme 3ks v serveru x225 + 1 ks nerozbalený jako náhradu, jsou rok staré a stály hříšné peníze (cca 10tis. Kč/ks).


    Volám na rektorát Petrovi Vojtkovi, jestli tam mají nějaké stroje se SCSI disky. Říká, že je všechny vyřadili a vyhodili při stěhování z U2 na U13. Samé špatné zprávy.

  • Sobota: ve volném čase pokračuju v hledání dalších možností.
    Konektor SCA80 se nedá připojit přímo ke standardním SCSI U320 kabelům, používá se pouze u hotswap disků. Naštěstí existuje redukce. Největší problém je ale SCSI řadič. Pro sběrnici PCIe, která je v dnešním PC nejobvyklejší, jsem našel pouze Adaptec nebo LSI. Oba stojí cca 6000 Kč a přitom neumí ani HW RAID. To je panečku kup.

    Největší problém ale je, že naše disky byly zapojeny jako pole v modu RAID5. Funkci RAID5 zajišťuje u x225 řadič ServeRAID6i. Ten ale nemá žádné konektory pro připojení disků. Je to v podstatě jen jakýsi HW akcelerátor pro SCSI rozhraní LSI1030, které je integrované na základní desce. S ničím jiným, než s LSI1030 nelze ServeRAID6i provozovat. LSI1030 se jako externí karta neprodává a nikdy neprodávalo. Paráda.

    Snažím se najít jakékoli informace o kompatibilitě RAID5 formátu ServeRAID6i s novějšími RAID SCSI řadiči Adaptec, které mají i konektory pro HDD, ale marně. Adaptec převzal výrobu IBM řadičů pod značkou ServeRAID právě v roce 2004, kdy byl ServeRAID6i vyráběn, takže není jisté, jestli se u 6i nejedná o proprietární RAID5 formát IBM, kterému řadiče Adaptec neporozumí.

    Vypadá to, že pokud se mi nepodaří sehnat funkční základní desku x225, tak jediná cesta k datům na serveru bude jejich SW extrakce z RAID5. Pro tu je ale potřeba znát parametry RAID5, ale ty já neznám a v dokumentaci také nejsou.

  • Neděle:
    v jednom starém diskusním foru na internetu (http://usenet.jyxo.cz/cz.comp.linux/0604/soft-na-spravu-netfinity-serveraid.html) se mi podařilo najít dotaz pana Stehlíka ze zlínské firmy Sophics, týkající se serveru IBM x225. Proto jsem mu hned napsal, zda ten server ještě mají a jestli je v provozu. V pondělí ráno odpověděl, že mají, že v provozu není a že pokud bychom měli zájem, byli by ochotni nám jej odprodat. Odepsal jsem, že počkáme na nabídku nové desky od IBM a pak se rozhodneme.

  • V pondělí večer přišla nabídka od IBM na novou základní desku – chtějí za ni cca 24 tis. Kč. Podle našeho názoru je nesmysl za ni platit tolik, protože není jisté, zda neshořel i některý ze 2 procesorů Xeon (á 20tis. Kč) a/nebo i paměť (20tis. Kč) – v případě, že bychom museli koupit všechny tyto komponenty, stála by oprava stejně, jako ve své době celý server x225, s tím, že v dnešní době bychom za stejné peníze dostali stroj s násobně lepšími parametry. Proto jsem firmě Sophics napsal, že se za nimi stavím v úterý s našimi disky – vyzkoušet, zda budou v jejich serveru normálně fungovat a domluvit případný odkup toho jejich stroje.

  • Úterý 10:00: ve firmě Sophics mě vítají velmi příjemní a vstřícní lidé – jmenovitě Kamil Klapka a Petr Stehlík. Ukazuje se, že oba jsou absolventy UTB a v sobotu byli i na srazu absolventů, který pořádala FAI. Vkládám naše disky do jejich x225. Jejich řadič ServeRAID5i nahrazuji naším ServeRAID6i. Spustím stroj, a ServeRAID6i hned během POST v BIOSu hlásí chybu „Configuration error“. Po dalším restartu ale nabíhá a stroj normálně nabootuje. Vzápětí se ukazuje, že radost byla předčasná: při kopírování větších souborů stroj kompletně vytuhe. Mám podezření na problém řadiče a jedu zpět na UTB na oběd a stáhnout a vypálit boot CD pro aktualizace BIOSu, FW řadiče atd.

    Úterý odoledne: updaty všeho nepomohly. ServeRAID6i není kompatibilní se základní deskou 8647, která je v x225 Sophics. V našem x225 byla novější deska 8649. Poslední naděje: vracím zpět řadič ServeRAID5i. Dáváme mu malou šanci, dopředná kompatibilta (data z 6i přehrávaná na 5i) by překvapila. Hurá, funguje! Přenosy větších souborů už se nekoušou, a tak spouštím kopii všech dat (cca 125 GB) na USB disk a běžím na bus

  • středa (tj. dnes): ráno přicházím do Sophics zkontrolovat, jestli to nevytuhlo, běžím do výuky. Po výuce zařizuju objednávku pro odkup serveru x225, firma Sophics si za celý jejich stroj řekla 10tis. Kč + DPH, což je krásné. S Jirkou Mikulkou testujeme paměti ze starého serveru. Jedou, takže je pak můžeme znovu použít. Pak s Pavlem Vařachou jedeme pro server. U sebe v kanceláři pak instaluji paměť, zapínám a po drobných úpravách je server zpět online. Zatím jen s jedním CPU. Druhé CPU tam namontuju, až bude v provozu nový server.

Závěrečná poučení:

  1. Kritické servery je nutné provozovat s online replikací dat i databáze na jiný stroj. Záloha 1x denně nestačí. Online replikaci zkusím na novém serveru realizovat pomocí DRBD + Xen nebo DRBD + OpenVZ.

  2. Nikdy nekupovat server s obskurním RAID5 řadičem, pokud ve stejné organizaci je jenom jeden exemplář takového stroje

  3. Pokud už se stane, že máte v celé organizaci jediný exemplář nějakého obskurního HW RAID řadiče, rozhodně na něm nepoužívejte RAID5, ale raději RAID1. Pozn.: řadiče Adaptec od jisté doby poskytují zpětnou kompatibilitu (možnost migrace RAID pole na novější řadič), ale jen mezi některými modely. Pokud chcete koupit RAID řadič jiného výrobce, velmi dobře si prostudujte, zda výrobce zpětnou kompatibilitu dlouhodobě podporuje !

 
Picture of Dulik Tomas
Re: Jak nás IBM x225 vypeklo a jak nás zachránili naši absolventi
by Dulik Tomas - Úterý, 23 září 2014, 8:23
 

V rámci mazání starých labelů na přední straně Moodle přidávám starší zprávu, která by se jinak ztratila v šumu vesmíru:

 

Sobota 5.4.2008: upgrade disků tohoto serveru

Trochu překvapivé informace úvodem: server vyuka.fai.utb.cz je ve skutečnosti od léta 2007 virtuální stroj, běžící spolu s dalšími 3mi virtuálními stroji (studenti.fai.utb.cz, zamestnanci.fai.utb.cz, sip.icamp.eu) pod supervisor-em Xen na fyzickém stroji IBM x225. Přestože je tato mašinka už poněkud obstarožní (byla zakoupena z grantu Eric v roce 2002), výkon jejich procesorů je ještě stále zcela dostatečný - obsahuje totiž 2 dvoujádrové procesory Xeon 2.8 GHz. Po letošním upgradu paměti na 5GB už zbýval k prodloužení "morální" životnosti serveru ještě poslední krok - nahradit disky 3x36GB (hotswap SCSCI v konfiguraci RAID5) novými 300GB disky, které se nám letos podařilo na poslední chvíli sehnat, protože SCSI disky už se dnes v podstatě nevyrábí. Tento krok byl naprosto nutný, protože na původních 36GB discích, kde jsou právě data serveru vyuka.fai.utb.cz, už začalo docházet místo. A to přesto, že ostatní virtuální stroje jsme již dávno přesunuli na provizorní jediný běžný levný SATA disk, který ovšem není konstruován na nonstop provoz v serveru.

Vzhledem k velkému objemu dat na všech virtuálních serverech (kolem 100GB) nebylo možné přesun provést bez výpadku - ještě před výměnou disků bylo nutné kvůli zachování konzistence dat všechny servery zastavit, provést zálohu všech dat na 500GB USB disk, zálohu ověřit, a teprve potom jsme se odvážili do serveru vložit nové SCSI disky, začít si hrát s konfigurací RAID řadiče, nainstalovat na nové disky Linux Debian, ...

Celá operace nakonec trvala několik hodin, většinu času přitom zabralo zálohování a kopírování. Všechny služby serveru byly obnoveny až v 19:30.

Pokud jste v sobotu odpoledne byli délkou výpadku serverů rozladěni, nejste sami - my také, nepředpokládali jsme, že celé sobotní odpoledne a večer strávíme v kadibudce serverovny. Představte si ale jiný scénář - staré disky již byly za hranicí své životnosti i záruky (5 let), a přestože jsou v RAID5, mohly se kdykoli rozsypat. Přestože zálohování dat na tomto serveru jakžtakž zvládáme - na USB disk 500GB, byl by výpadek způsobený pádem disků mnohem delší. Navíc, správu tohoto serveru provádíme ve svém volném čase a toho moc není, takže tento server berte, tak jak v serverovně stojí - tj. bez záruky. Ostatně i záruka, poskytovaná firmou IBM na fyzický stroj, skončila v roce 2006...