Toon posts:

Server plotseling instabiel

Pagina: 1
Acties:

Verwijderd

Topicstarter
Het volgende is het geval,

Ik heb (bij mijn werkgever) een Novell Server (4.11) draaien waar 600 gebruikers op en mee werken. Het is een IBM netfinity machine (7600) met 2 GB geheugen, 2 Xeon processoren en 3 voedingen. Voor opslag is 1 terabite aan schijfruimte geinstalleerd. Een gedeelte intern aan een raid controller, 480gb in een cabinet en 480gb middels een sanswith op een IBM ESS san.

In juni dit jaar werd de boel instabiel na 3 jaar perfect gewerkt te hebben. Geheugen, kaarten en andere onderdelen vervangen boden geen uitkomst.

Aangezien we meerdere van deze machines hebben besloten we de Server hardware om te ruilen met een ander exemplaar. Sinds dien geen problemen meer op beide machines tot donderdag jl.

Ok, een crash op een 3 maanden vol belaste Server kan voorkomen maar sinds dien is het nog 2x gebeurd. Samengevat, de problemen zijn gewoon weer terug.

Wat ik morgen ieder geval ga testen is het geheugen, iemand nog suggesties of andere opties. De ruimte is gekoeld en heeft een contante temperatuur, zo ook de patchkasten.

  • Blorgg
  • Registratie: Juni 2001
  • Niet online
Zijn de voedingen zelf ook nog wel stabiel?

Verwijderd

Topicstarter
Het zijn er drie, en we hebben de machine al een keer gewisseld, dus ook de voedingen. Dat zal het probleem dus waarschijnlijk niet zijn. Op Novell zijn overigens de laatste maanden ook geen patches aangebracht.

  • we_are_borg
  • Registratie: September 2000
  • Laatst online: 20-05 12:28

we_are_borg

You will Comply

Ik neem aan dat je de patches al na gekeken heb, of z'n fout verholpen wordt die jij beschrijft.

Zijn het verschillende moederborden of zijn ze van alle servers het zelfde.

You need the computing power of a P1, 16 MB RAM and 1 GB Harddisk to run Win95. It took the computing power of 3 Commodore 64 to fly to the Moon. Something is wrong here, and it wasn't the Apollo.


Verwijderd

Topicstarter
Servers zijn identiek en het systeem heeft zonder NOS wijzigingen 3 jaar goed gedraaid (sp6a). Het ligt mijns inziens niet aan Novell maar puur aan de hardware. De vraag is alleen wat veroorzaakt dit? Het NOS wijst naar geheugen, vandaar dat ik dit morgen in ieder geval onder de loep neem.

  • Palomar
  • Registratie: Februari 2000
  • Niet online
lijkt me erg op geheugen.. al denk ik niet dat je in zo'n dure server van dat goedkope 'made in hongkong' geheugen hebt zitten, maar wat duurder spul. Dus wat dat betreft zou je niet verwachten dat dat plotseling kapot gaat. Maarja, dat kan natuurlijk ook gebeuren met duurder geheugen..

Verwijderd

Topicstarter
Ja maar, na de wisseling van de machines heeft ie weer bijna drie maanden zonder problemen gedraaid met hetzelfde geheugen. Het is geen osieboesie geheugen maar officiele (dure) plakken. We hebben het zoals eerder vermeld in de vorige machine ook al een keer vervangen / omgeruild met een andere goed werkende (gelijke) machine. Dat bood toen geen oplossing en de andere machine bleef gewoon stabiel.

Verwijderd

UPS?
Stroom zelf stabiel? (220V), kan soms storingen veroorzaken.

Verwijderd

Topicstarter
Uiteraard noodstroom middels UPS maar zal morgen de aansluitingen controleren. De drie voedingen zitten overigens allemaal op verschillende UPS'en, maar er kan natuurlijk een slechter werkende tussen zitten.

  • Tags NL
  • Registratie: December 1999
  • Laatst online: 24-04 13:38

Tags NL

Harmful or Harmless?

Wat voor crash krijg je eigenlijk precies? Is het een abend die je kunt suspenden of zit het systeem muurvast en kun je niet eens meer in de debugger komen? Zou je een stukje van het abend.log hier kunnen plaatsen?

Het instabiel worden van een server hoeft natuurlijk niet hardware te zijn, het kan zelfs software zijn die er al tijden zonder problemen op draait. We hebben zelf issue's met mcafee (Netshield for Netware) gehad omdat een nieuwere dat-versie in combinatie met een oude scan-engine de server zwaar instabiel maakte. (Zowel onder Netware 4.11 als het huidige Netware 5.1 wat we nu draaien)

Ben dus op zoek naar iets meer informatie dan alleen de hardware-specs...

https://powershellisfun.com


Verwijderd

Topicstarter
Hey Fred,

Heb vanmiddag een volume repair gedraaid, 512MB geheugen bijgeplaatst, overige modules goed aangedrukt, scsi cabinet 15 minuten van de 220 losgekoppeld, 1e voeding aan een andere UPS gehangen en van 1 terabite schijfruimte deleted files gepurged. Vooral de laatste actie was spannend en hij heeft het overleefd.

De abend verweest naar geheugen in combinatie met nwpa.nlm. Ik heb de laatste servicepack inmiddels opgehaald om deze eventueel in te kunnen zetten.

Een abend.log is niet gemaakt omdat de machine meerdere processoren heeft. Onder NW4.11 wordt dan geen log aangemaakt.

Op dit moment ziet het er goed uit. Wanneer de machine vannacht of morgen alsnog onderuit gaat zal ik wat meer abend info posten.

  • Abbadon
  • Registratie: Februari 2000
  • Laatst online: 16:31
Zomaar uit nieuwsgierigheid zeg maar: zit er geen service contract of garantie op die productiedozen? Ze zijn tenslotte onlangs omgeruild.

Just pick a dead end and chill out 'till you die.


  • CTVirus
  • Registratie: Januari 2000
  • Laatst online: 24-04 22:08

CTVirus

Dexterslab FAN

Het was een interne ruil, abbadon, ze hebben meerdere gelijke machines. Ik neem aan dat er geen garantie meer opzit na drie jaar, anders hadden ze daar wel gebruik van gemaakt!

Verwijderd

Topicstarter
Exact, en je krijgt dan vaak van het kastje naar de muur taktieken. Tot nu toe hebben we het altijd zelf kunnen oplossen. Bij aanschaf hebben we gekozen voor meerdere gelijke machines zodat bij uitval snel geswitched kan worden. Onderhoud zit er natuurlijk wel op, dus als het echt nodig is .....

Hij doet het na de actie van vanmidag overigens nog steeds.

  • Tags NL
  • Registratie: December 1999
  • Laatst online: 24-04 13:38

Tags NL

Harmful or Harmless?

Verwijderd schreef op 30 augustus 2003 @ 21:58:
Hey Fred,

Heb vanmiddag een volume repair gedraaid, 512MB geheugen bijgeplaatst, overige modules goed aangedrukt, scsi cabinet 15 minuten van de 220 losgekoppeld, 1e voeding aan een andere UPS gehangen en van 1 terabite schijfruimte deleted files gepurged. Vooral de laatste actie was spannend en hij heeft het overleefd.

De abend verweest naar geheugen in combinatie met nwpa.nlm. Ik heb de laatste servicepack inmiddels opgehaald om deze eventueel in te kunnen zetten.

Een abend.log is niet gemaakt omdat de machine meerdere processoren heeft. Onder NW4.11 wordt dan geen log aangemaakt.

Op dit moment ziet het er goed uit. Wanneer de machine vannacht of morgen alsnog onderuit gaat zal ik wat meer abend info posten.
Je hebt op de Novell Support Site geen extra info over nwpa.nlm gevonden i.c.m Netware 4.11? Om er gelijk een heel Supportpack, geen servicepack want dat is voor Windows ;) , vindt ik eigenlijk wel wat te veel van het goede... Meestal is er wel een specifieke fix voor zo'n probleem...

Trouwens, nwpa.nlm is toch voor cd support enzo? Heb je dat nodig, mount je een cd op je netware server voor gebruikers? Of wordt nwpa.nlm geladen voor een tape device?

[ Voor 8% gewijzigd door Tags NL op 31-08-2003 12:27 ]

https://powershellisfun.com


Verwijderd

Topicstarter
NWPA.NLM wordt automatisch geladen door IPSRAID.

Na zaterdag no crashes tot vanmorgen. Kleine ramp, directory om zeep. Weer in de lucht geholpen door te starten met server -ndb -na en hierna een dsrepair.

Ik heb een processor verwijderd en alle niet noodzakelijke scsi- en ide drivers verwijderd. Tot nu toe gaat alles weer goed

  • Tags NL
  • Registratie: December 1999
  • Laatst online: 24-04 13:38

Tags NL

Harmful or Harmless?

Verwijderd schreef op 01 September 2003 @ 23:44:
NWPA.NLM wordt automatisch geladen door IPSRAID.

Na zaterdag no crashes tot vanmorgen. Kleine ramp, directory om zeep. Weer in de lucht geholpen door te starten met server -ndb -na en hierna een dsrepair.

Ik heb een processor verwijderd en alle niet noodzakelijke scsi- en ide drivers verwijderd. Tot nu toe gaat alles weer goed
En gaat het nu nog steeds goed, ben eigenlijk wel benieuwd...

https://powershellisfun.com


Verwijderd

Topicstarter
Hey Fred,

Na de bovengenoemde acties hebben we geen crashes meer gehad. We houden de cache buffers in de gaten, maar ook deze blijven redelijk constant. Heel, maar dan ook heel langzaam is hier een neergaande lijn te zien.

Ik heb een uitbreiding voor de ESS (IBM-San) besteld zodat we alle interne schijven uit de Server en SCSI cabinetten kunnen verwijderen.

Hierna staat alleen Netware nog op de DASD en zal een kopie van de Server worden opgetuigd die ook met het San wordt verbonden (niet actief, ook netwerkverbinding niet).

Bij een kleine ramp zoals eerder beschreven zullen we met een ncf bestandje de back-up Server connecten met het San en het Netwerk. De daar op staande directory zal automatisch worden bijgewerkt door de overige replica's en klaar is DutchmanX.
Pagina: 1