Debian 9 server bash input output errors

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • Kasper1985
  • Registratie: Oktober 2014
  • Laatst online: 28-09 21:50
Mijn vraag
Ik heb een Debian 9 server die nu tweemaal bash input/output errors aangaf uit het niks.

Volgens google wijst dit op RAM/HD issues maar na een reboot werkt alles weer normaal. Wanneer deze errors optreden kan ik vrijwel niks meer:
-SSH geeft pubkey error vanaf machines die voorheen en na reboot gewoon konden SSH'en naar de server
-ls=input/output error
-pwd=input output error
-su=input output error
-(sudo) reboot now
-(sudo) shutdown -r now

Kortom de machine wordt zo goed als onbruikbaar. Apps als Sonarr/Radarr etc stoppen ook allemaal met werken

Relevante software en hardware die ik gebruik
Debian 9
4.9.0-6-amd64 #1 SMP Debian 4.9.88-+1deb9u1 (2018-05-07
Intel i3 quad core
8 GB RAm
1x 32 GB SSD voor /home en root filesystem
1x 1TB HDD voor de rest
Wat ik al gevonden of geprobeerd heb
vanaf gparted live geboot en Memtest uitgevoerd --->geen errors gevonden
vanaf gparted geboot en checks gedaan op zowel home als root file system en ook geen gekke dingen gevonden

Ik zit een beetje met m'n handen in het haar en buiten proberen zoveel mogelijk data te redden en een nieuwe SSD te kopen (wat volgens google de meest logische oorzaak is) weet ik niet wat ik hiermee aan moet.

Ik hoop dat iemand een suggestie heeft om me op weg te helpen naar een oplossing.

Kasper

Alle reacties


Acties:
  • 0 Henk 'm!

  • Herby
  • Registratie: Januari 2004
  • Laatst online: 17-01-2022

Herby

Stalknecht

Ik zou je logging eerst eens uitpluizen om erachter te komen wat er echt speelt, opslag ligt voor de hand, maar willekeurig hardware vervangen en erachter komen dat je probleem nog speelt is een dure grap.

/var/log/messages en /var/log/dmesg zou je fouten en waarschuwingen tegen moeten komen als je problemen hebt met HDD/SSD

Compromis? Hoezo heb ik het mis dan?! | Geluk = gelul met een K | з=(•̪●)=ε


Acties:
  • 0 Henk 'm!

  • Kasper1985
  • Registratie: Oktober 2014
  • Laatst online: 28-09 21:50
@Herby dank!

Ik zie/zag niks vreemds in de log de melding over bios. Die had ik wel gecheckt. De logs tonen een hoop firewall meldingen en springen dan door naar de reboot toen ik thuis kwam (ik merkte dit op kantoor en kon dus niet rebooten) om 16:49.

Er zijn verder geen rare meldingen.

Ik weet dus eigenlijk ook niet of het nu zichzelf heeft opgelost het is een soort tikkende tijdbom tussen de eerste keer (ergens vorige week) en vandaag zat iets van een week.

Het zou dus zomaar volgende week terug kunnen komen. Op het moment dat het zich voordoet zit alles zo op slot dat ik ook geen logs kan checken etc.

Helaas is de firmware update tool van de fabrikant van de SSD alleen beschikbaar voor Windows. Ik heb geen windows dus het ding even inbouwen in andere machine en de firmware updaten is helaas geen optie.

[ Voor 14% gewijzigd door Kasper1985 op 04-06-2018 19:00 ]


Acties:
  • 0 Henk 'm!

  • hcQd
  • Registratie: September 2009
  • Laatst online: 00:46
Syslog kan ook loggen over het netwerk. Heb je een andere machine waar je de logs automatisch naar toe kunt sturen, als de schijf problemen heeft heb je natuurlijk kans dat de logs niet betrouwbaar worden weggeschreven.

Acties:
  • 0 Henk 'm!

  • johnkeates
  • Registratie: Februari 2008
  • Laatst online: 04-07 16:30
Klinkt alsof je rootfs opeens niet meer werkt, kan allerlei oorzaken hebben, maar daar kan je het in elk geval wel vast gaan zoeken. Denk bijv. aan een RAID HBA die opeens offline gaat, dan kan je systeem dus ook geen logs naar disk schrijven ;-) Je zou eens kunnen kijken naar het loggen naar externe systemen, kan heel simpel met remote syslog en ook wat complexer met specifieke tooling.

Acties:
  • 0 Henk 'm!

  • TommieW
  • Registratie: December 2010
  • Laatst online: 17:27

TommieW

Numa numa.

Wat is de output van "smartctl -a /dev/<ssd schijf>"?

1700X@3,9GHZ - Asus Crosshair VI Hero - 32GB Corsair LPX - GTX 1070Ti
iPhone 13 Pro Max - Macbook Pro 16" M1 Pro


Acties:
  • 0 Henk 'm!

  • u_nix_we_all
  • Registratie: Augustus 2002
  • Niet online
Kijk ook even de S.M.A.R.T waarden van je disks na, het zou ook een slechte kabel kunnen zijn.

You don't need a parachute to go skydiving. You need a parachute to go skydiving twice.


Acties:
  • 0 Henk 'm!

  • Kasper1985
  • Registratie: Oktober 2014
  • Laatst online: 28-09 21:50
Hieronder de output van:

"smartctl -a /dev/<ssd schijf>":

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.9.0-6-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: SPCC Solid State Disk
Serial Number: 1F970758033400000070
Firmware Version: S9FM02.5
User Capacity: 32,017,047,552 bytes [32.0 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 (minor revision not indicated)
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Jun 4 18:13:10 2018 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 30) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 2) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 16309
12 Power_Cycle_Count 0x0012 100 100 000 Old_age Always - 90
168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0
170 Unknown_Attribute 0x0013 100 100 010 Pre-fail Always - 18
173 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 271974627
192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 5
194 Temperature_Celsius 0x0023 070 070 000 Pre-fail Always - 30
196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline - 0
218 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 0
241 Total_LBAs_Written 0x0012 100 100 000 Old_age Always - 2358658
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 0 -
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Acties:
  • 0 Henk 'm!

  • azerty
  • Registratie: Maart 2009
  • Laatst online: 15:58
Kasper1985 schreef op maandag 4 juni 2018 @ 19:17:
Hoe kan ik de S.M.A.R.T waardes nakijken @u_nix_we_all ? Hieronder de output van:

"smartctl -a /dev/<ssd schijf>":

*snip*
SMART checken doe je via het commando dat je juist uitgevoerd hebt ;)

[ Voor 87% gewijzigd door azerty op 04-06-2018 19:26 ]


Acties:
  • 0 Henk 'm!

  • Kasper1985
  • Registratie: Oktober 2014
  • Laatst online: 28-09 21:50
LOL oke Heer vergeef mij voor deze n00b actie en geef ons heden ons dagelijks brood.

Overigens heb ik na de laatste keer dat het gebeurde de firmware van het moederbord; ASUS H110i-PLUS geupdate.

En omdat ik bang was dat het door de hitte was gekomen (dat las ik ook ergens op google als mogelijkheid) de fans van CPU en chasis hoger gezet.

Maar vandaag was het niet zo verschrikkelijk warm dus dat lijkt me nu wel uitgesloten als optie

[ Voor 68% gewijzigd door Kasper1985 op 04-06-2018 19:40 ]

Pagina: 1