Linux: sommige files kopieren gaat extreem langzaam

vrijdag 19 augustus 2016 19:59

Acties:

Topicstarter

Tamelijk modern desktopsysteem. Debian testing. SATA disk (ext4) met daarop alleen data (foto, music, video) files-grootte van 5MB tot ca. 5 Gig)
Fsck clean dus disk kijkt foutloos; SMART OK; ext4defrag verwaarloosbaar.
Probleem vandaag begon zonder aanleiding na jarenlang probleemloos...

Issue: sommige files kopieren gaat extreem langzaam (< 100 kB/s).
Geen foutmeldingen; niets in logs, geen spike in cpu of geheugengebruik. De bestanden lijken ook gewoon intact te zijn (een aantal bestanden hebben dezelfde MD5 als de backup files).
De volgende file in de directory kan alweer op normale snelheid ( > 100 MB/s) gekopieerd worden.
Het issue is reproduceerbaar: bij een volgende kopieerronde zijn het dezelfde files die zo traag kopieren.
Het probleem lijkt oplosbaar door de betroffen files te kopieren naar een andere directory, de originele file weg te halen, en de kopie terug te zetten.

Wat kan dit veroorzaken?
Hoe kan ik achterhalen welke files dit betreft? Want handmatig en incidentgedreven te "trage files" vinden is tamelijk onbegonnen werk (3 TByte).

[ Voor 6% gewijzigd door AlterEgo op 19-08-2016 21:32 . Reden: wat aanvullingen ]

vrijdag 19 augustus 2016 20:09

Acties:

True

Dislecticus

Harddisk?
Ben niet zo into hardware en al helemaal geen harddisks maar misschien iets met sectors waar die files op staan? Goede smart waardes hoeven niet per se te betekenen dat de disk ook goed is.

offtopic:
Gelieve constructief afschieten als ik kant nog wal raak dan kan ik er ook nog van leren.

VW ID.7 Tourer Pro S | 5670 Wp JA Solar - 14x405 33° op zuid | Twente

vrijdag 19 augustus 2016 21:08

Acties:

HollowGamer

Zijn het toevallig allemaal kleine bestanden? Het probleem kan zijn dat de schijf niet snel genoeg seekt met de kop. Welke schijf is het?

Verder al geprobeerd te tweaken met hdparm (https://wiki.archlinux.org/index.php/Hdparm)?

vrijdag 19 augustus 2016 21:33

Acties:

AlterEgo

Topicstarter

@True, archie2012: dank voor jullie reacties-ik heb de startpost een beetje aangevuld n.a.v. jullie opmerkingen.

vrijdag 19 augustus 2016 21:57

Acties:

Thralas

AlterEgo schreef op vrijdag 19 augustus 2016 @ 19:59:
Geen foutmeldingen; niets in logs, geen spike in cpu of geheugengebruik.

En de meest cruciale metric, disk I/O, en dan in het bijzonder de disk util %?

(Tip: iostat -x is handig)

vrijdag 19 augustus 2016 22:04

Acties:

jan99999

Heb wel bij linux vaker gemerkt, dat kopieren/moven van files,
bij veel files,(veel foto's),
en meerdere keren doen,(bijv mappen uitsorteert, naar submappen of andere map),
dat de file systeem niet meekomt,
en alles vertraagt.
Dit is in dezelfde map/of enkele mappen.

Als je wachttijd er tussen zet dan is dit niet.
Dacht dat je sommige processen iets aan het doen is tav file systeem.

vrijdag 19 augustus 2016 22:04

Acties:

AlterEgo

Topicstarter

code:

iostat -x 

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           8.03    0.50    3.47   35.85    0.00   52.14

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0.52     0.69  205.82    0.26 25797.77     4.02   250.41     2.10   10.20   10.04  134.10   3.81  78.41
sda               0.19     5.54   28.82   10.84   571.36   959.48    77.19     0.17    4.19    0.25   14.68   0.23   0.92

SDB is de verdachte disk; sda is een ssd waarop het systeem (prettig) draait.
Dit is gemaakt tijdens een van de extreem trage copy-acties. Ik begrijp niet hoe ik het precies moet "lezen".

vrijdag 19 augustus 2016 22:21

Acties:

Hero of Time

Moderator LNX

There is only one Legend

De 'await' is van belang hier, dat geeft aan hoe lang in milliseconden een operatie er gemiddeld over heeft gedaan. Zo duurt het gemiddeld 10 ms om iets te lezen, maar 134 ms om te schrijven. Dit zie je ook terug in de IO wait van de CPU: 35% van de tijd is het op de schijf aan het wachten.

Zie ook de man-page voor hoe je de waardes moet lezen. Dit is wel interessant:

rkB/s
The number of kilobytes read from the device per second.

wkB/s
The number of kilobytes written to the device per second.

Het lezen gaat met zo'n 25 MB/s, maar het schrijven is zo'n 4 kB/s. Dat verklaart de hoge write time. Er lijkt iets aardig mis te zijn met de schijf. Misschien bad sectors, heb je al eens de SMART status vergeleken en dan voornamelijk gelet op sector reallocation count?

Commandline FTW

vrijdag 19 augustus 2016 22:35

Acties:

AlterEgo

Topicstarter

smartctl -a /dev/sdb

code:

smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.6.0-1-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD30EZRX-00DC0B0
Serial Number:    WD-WMC1T2080576
LU WWN Device Id: 5 0014ee 0ae2c828d
Firmware Version: 80.00A80
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Fri Aug 19 22:26:21 2016 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (38580) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 387) minutes.
Conveyance self-test routine
recommended polling time:    (   5) minutes.
SCT capabilities:          (0x70b5) SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   197   197   051    Pre-fail  Always       -       16720
  3 Spin_Up_Time            0x0027   178   172   021    Pre-fail  Always       -       6091
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2515
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       1
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       6624
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2514
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       177
193 Load_Cycle_Count        0x0032   080   080   000    Old_age   Always       -       362023
194 Temperature_Celsius     0x0022   117   109   000    Old_age   Always       -       33
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       2
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Is foute boel? Ik krijg nu ook SMART errors van de SMART daemon:

code:

smartd daemon running on:

   host name:  xxx
   DNS domain: xxx
The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], 2 Currently unreadable (pending) sectors

Device info:
WDC WD30EZRX-00DC0B0, S/N:WD-WMC1T2080576, WWN:5-0014ee-0ae2c828d, FW:80.00A80, 3.00 TB

For details see host's SYSLOG.

Foute boel....zelfs met backups twee dagen werk kwijt

vrijdag 19 augustus 2016 22:46

Acties:

PilatuS

Die 2 pending bad sectors zorgen er voor dat een schijf heel erg langzaam word. Opzich is het verder niet zo'n groot probleem en komt het vaker voor. De HDD een volledige format geven laat ze verdwijnen en daarna moet de schijf het weer goed doen. Alleen even in de gaten houden of er geen nieuwe bijkomen.

zaterdag 20 augustus 2016 01:26

Acties:

goarilla

Sommigen vinden "current pending sectors" niet erg.
Zij hebben misschien altijd geluk gehad dat die sectors geremapped werden.
Voor mij is het altijd een voorbode van imminente onheil geweest met data corruptie tot gevolg.

Wil je weten welke bestanden het zijn, kan je de kopie opnieuw proberen met rsync

code:

1	rsync -a -vhP dir wherever

De verbose, human readable en progress flags zouden je moeten tonen wat traag is.

Ik kan je ook aanraden om ddrescue te proberen moest het erger worden (gddrescue genoemd in de debian/ubuntu repositories). Dit is in mijn ogen de creme de la creme
voor amateur data scraping en heeft al tientallen dure "professionele data recoveries" op het werk
onnodig gemaakt.

PS: Je Load Cycle Count is ook astronomisch hoog. Als je besluit om deze schijf nog te gebruiken moet je er eens een wdidle3 tool op loslaten (http://idle3-tools.sourceforge.net/)

code:

1	193 Load_Cycle_Count 0x0032 080 080 000 Old_age Always - 362023

[ Voor 17% gewijzigd door goarilla op 20-08-2016 01:33 . Reden: Load Cycle Count ]

zaterdag 20 augustus 2016 08:38

Acties:

AlterEgo

Topicstarter

@ PilatuS, goarilla, dank voor jullie inzicht.
Inmiddels is de pending-count opgelopen naar 10, en de Raw_Read_Error_Rate naar 56515.
Deze schijf gaat naar de eeuwige bitvelden.

maandag 22 augustus 2016 20:26

Acties:

rc5proxy

Zit er geen garantie meer op ?

maandag 22 augustus 2016 20:33

Acties:

AlterEgo

Topicstarter

Nee, helaas verlopen in oktober vorig jaar.

dinsdag 23 augustus 2016 16:03

Acties:

CAPSLOCK2000

zie teletekst pagina 888

Correct, die schijf zit aan het einde van z'n leven.
Normaal gesproken reserveert zo'n schijf een klein beetje ruimte om in te zetten als er blokje data stuk gaat. Al die Current_Pending_Sector count oploopt dan is de noodvoorraad op. Dat betekent dat je al een flink aantal fouten hebt gehad en nu is de voorraad extra blokjes op.

This post is warranted for the full amount you paid me for it.

dinsdag 23 augustus 2016 16:08

Acties:

johnkeates

Tijd om dd_rescue uit de kast te trekken!

dinsdag 23 augustus 2016 16:50

Acties:

AlterEgo

Topicstarter

Met een beetje mazzel zijn eind deze week alle backups teruggezet en zit de nieuwe schijf in de backupronde. Daarna ga ik zeker even nerden met dd_rescue. Lijkt me een interessante tool om eens hands-on ervaring mee op te doen (zonder klamme handjes :-) )
Nogmaals dank voor jullie collectieve brainpower.

woensdag 24 augustus 2016 11:32

Acties:

HollowGamer

AlterEgo schreef op dinsdag 23 augustus 2016 @ 16:50:
Met een beetje mazzel zijn eind deze week alle backups teruggezet en zit de nieuwe schijf in de backupronde. Daarna ga ik zeker even nerden met dd_rescue. Lijkt me een interessante tool om eens hands-on ervaring mee op te doen (zonder klamme handjes :-) )
Nogmaals dank voor jullie collectieve brainpower.

Laat de ervaring met dit programma graag weten.

Backups maken blijven vervelend, zou mooi zijn als hier een (non-cloud) oplossing voor zou komen.

donderdag 25 augustus 2016 19:55

Acties:

AlterEgo

Topicstarter

De ervaring is, dat de disk niet meer aan te spreken was: een eindeloze rij I/O errors in syslog en geen /dev/sdX meer. Dus aan dddrescue niet meer toe kunnen komen.
Positieve is, dat alle backups 100% bleken :-)

[ Voor 0% gewijzigd door AlterEgo op 25-08-2016 20:30 . Reden: typo's ]

donderdag 25 augustus 2016 20:19

Acties:

Hero of Time

Moderator LNX

There is only one Legend

Was je toch mooi op tijd.

Commandline FTW

Vraag

Alle reacties