Linux: sommige files kopieren gaat extreem langzaam

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
Tamelijk modern desktopsysteem. Debian testing. SATA disk (ext4) met daarop alleen data (foto, music, video) files-grootte van 5MB tot ca. 5 Gig)
Fsck clean dus disk kijkt foutloos; SMART OK; ext4defrag verwaarloosbaar.
Probleem vandaag begon zonder aanleiding na jarenlang probleemloos...

Issue: sommige files kopieren gaat extreem langzaam (< 100 kB/s).
Geen foutmeldingen; niets in logs, geen spike in cpu of geheugengebruik. De bestanden lijken ook gewoon intact te zijn (een aantal bestanden hebben dezelfde MD5 als de backup files).
De volgende file in de directory kan alweer op normale snelheid ( > 100 MB/s) gekopieerd worden.
Het issue is reproduceerbaar: bij een volgende kopieerronde zijn het dezelfde files die zo traag kopieren.
Het probleem lijkt oplosbaar door de betroffen files te kopieren naar een andere directory, de originele file weg te halen, en de kopie terug te zetten.

Wat kan dit veroorzaken?
Hoe kan ik achterhalen welke files dit betreft? Want handmatig en incidentgedreven te "trage files" vinden is tamelijk onbegonnen werk (3 TByte).

[ Voor 6% gewijzigd door AlterEgo op 19-08-2016 21:32 . Reden: wat aanvullingen ]

Alle reacties


Acties:
  • 0 Henk 'm!

  • True
  • Registratie: April 2011
  • Niet online

True

Dislecticus

Harddisk?
Ben niet zo into hardware en al helemaal geen harddisks maar misschien iets met sectors waar die files op staan? Goede smart waardes hoeven niet per se te betekenen dat de disk ook goed is.

offtopic:
Gelieve constructief afschieten als ik kant nog wal raak dan kan ik er ook nog van leren.

VW ID.7 Tourer Pro S | 5670 Wp JA Solar - 14x405 33° op Zuid | Twente


Acties:
  • 0 Henk 'm!

  • HollowGamer
  • Registratie: Februari 2009
  • Niet online
Zijn het toevallig allemaal kleine bestanden? Het probleem kan zijn dat de schijf niet snel genoeg seekt met de kop. Welke schijf is het?

Verder al geprobeerd te tweaken met hdparm (https://wiki.archlinux.org/index.php/Hdparm)?

Acties:
  • 0 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
@True, archie2012: dank voor jullie reacties-ik heb de startpost een beetje aangevuld n.a.v. jullie opmerkingen.

Acties:
  • 0 Henk 'm!

  • Thralas
  • Registratie: December 2002
  • Laatst online: 30-09 08:10
AlterEgo schreef op vrijdag 19 augustus 2016 @ 19:59:
Geen foutmeldingen; niets in logs, geen spike in cpu of geheugengebruik.
En de meest cruciale metric, disk I/O, en dan in het bijzonder de disk util %?

(Tip: iostat -x is handig)

Acties:
  • 0 Henk 'm!

  • jan99999
  • Registratie: Augustus 2005
  • Laatst online: 12:04
Heb wel bij linux vaker gemerkt, dat kopieren/moven van files,
bij veel files,(veel foto's),
en meerdere keren doen,(bijv mappen uitsorteert, naar submappen of andere map),
dat de file systeem niet meekomt,
en alles vertraagt.
Dit is in dezelfde map/of enkele mappen.

Als je wachttijd er tussen zet dan is dit niet.
Dacht dat je sommige processen iets aan het doen is tav file systeem.

Acties:
  • 0 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
code:
1
2
3
4
5
6
7
8
iostat -x 

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           8.03    0.50    3.47   35.85    0.00   52.14

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sdb               0.52     0.69  205.82    0.26 25797.77     4.02   250.41     2.10   10.20   10.04  134.10   3.81  78.41
sda               0.19     5.54   28.82   10.84   571.36   959.48    77.19     0.17    4.19    0.25   14.68   0.23   0.92

SDB is de verdachte disk; sda is een ssd waarop het systeem (prettig) draait.
Dit is gemaakt tijdens een van de extreem trage copy-acties. Ik begrijp niet hoe ik het precies moet "lezen".

Acties:
  • 0 Henk 'm!

  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 30-09 22:30

Hero of Time

Moderator LNX

There is only one Legend

De 'await' is van belang hier, dat geeft aan hoe lang in milliseconden een operatie er gemiddeld over heeft gedaan. Zo duurt het gemiddeld 10 ms om iets te lezen, maar 134 ms om te schrijven. Dit zie je ook terug in de IO wait van de CPU: 35% van de tijd is het op de schijf aan het wachten.

Zie ook de man-page voor hoe je de waardes moet lezen. Dit is wel interessant:
rkB/s
The number of kilobytes read from the device per second.

wkB/s
The number of kilobytes written to the device per second.
Het lezen gaat met zo'n 25 MB/s, maar het schrijven is zo'n 4 kB/s. Dat verklaart de hoge write time. Er lijkt iets aardig mis te zijn met de schijf. Misschien bad sectors, heb je al eens de SMART status vergeleken en dan voornamelijk gelet op sector reallocation count?

Commandline FTW | Tweakt met mate


Acties:
  • 0 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
smartctl -a /dev/sdb
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.6.0-1-amd64] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Green
Device Model:     WDC WD30EZRX-00DC0B0
Serial Number:    WD-WMC1T2080576
LU WWN Device Id: 5 0014ee 0ae2c828d
Firmware Version: 80.00A80
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Fri Aug 19 22:26:21 2016 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (38580) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   2) minutes.
Extended self-test routine
recommended polling time:    ( 387) minutes.
Conveyance self-test routine
recommended polling time:    (   5) minutes.
SCT capabilities:          (0x70b5) SCT Status supported.
                    SCT Feature Control supported.
                    SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   197   197   051    Pre-fail  Always       -       16720
  3 Spin_Up_Time            0x0027   178   172   021    Pre-fail  Always       -       6091
  4 Start_Stop_Count        0x0032   098   098   000    Old_age   Always       -       2515
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       1
  9 Power_On_Hours          0x0032   091   091   000    Old_age   Always       -       6624
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   000    Old_age   Always       -       2514
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       177
193 Load_Cycle_Count        0x0032   080   080   000    Old_age   Always       -       362023
194 Temperature_Celsius     0x0022   117   109   000    Old_age   Always       -       33
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       2
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Is foute boel? Ik krijg nu ook SMART errors van de SMART daemon:
code:
1
2
3
4
5
6
7
8
9
10
11
12
smartd daemon running on:

   host name:  xxx
   DNS domain: xxx
The following warning/error was logged by the smartd daemon:

Device: /dev/sdb [SAT], 2 Currently unreadable (pending) sectors

Device info:
WDC WD30EZRX-00DC0B0, S/N:WD-WMC1T2080576, WWN:5-0014ee-0ae2c828d, FW:80.00A80, 3.00 TB

For details see host's SYSLOG.

Foute boel....zelfs met backups twee dagen werk kwijt :(

Acties:
  • 0 Henk 'm!

  • PilatuS
  • Registratie: September 2002
  • Niet online
Die 2 pending bad sectors zorgen er voor dat een schijf heel erg langzaam word. Opzich is het verder niet zo'n groot probleem en komt het vaker voor. De HDD een volledige format geven laat ze verdwijnen en daarna moet de schijf het weer goed doen. Alleen even in de gaten houden of er geen nieuwe bijkomen.

Acties:
  • +1 Henk 'm!

  • goarilla
  • Registratie: Oktober 2012
  • Laatst online: 20-08 20:36
Sommigen vinden "current pending sectors" niet erg.
Zij hebben misschien altijd geluk gehad dat die sectors geremapped werden.
Voor mij is het altijd een voorbode van imminente onheil geweest met data corruptie tot gevolg.

Wil je weten welke bestanden het zijn, kan je de kopie opnieuw proberen met rsync
code:
1
rsync -a -vhP dir wherever

De verbose, human readable en progress flags zouden je moeten tonen wat traag is.

Ik kan je ook aanraden om ddrescue te proberen moest het erger worden (gddrescue genoemd in de debian/ubuntu repositories). Dit is in mijn ogen de creme de la creme
voor amateur data scraping en heeft al tientallen dure "professionele data recoveries" op het werk
onnodig gemaakt.

PS: Je Load Cycle Count is ook astronomisch hoog. Als je besluit om deze schijf nog te gebruiken moet je er eens een wdidle3 tool op loslaten (http://idle3-tools.sourceforge.net/)
code:
1
193 Load_Cycle_Count        0x0032   080   080   000    Old_age   Always       -       362023

[ Voor 17% gewijzigd door goarilla op 20-08-2016 01:33 . Reden: Load Cycle Count ]


Acties:
  • 0 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
@ PilatuS, goarilla, dank voor jullie inzicht.
Inmiddels is de pending-count opgelopen naar 10, en de Raw_Read_Error_Rate naar 56515.
Deze schijf gaat naar de eeuwige bitvelden.

Acties:
  • 0 Henk 'm!

  • rc5proxy
  • Registratie: Augustus 2003
  • Laatst online: 19-09 14:23
Zit er geen garantie meer op ?

Acties:
  • 0 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
Nee, helaas verlopen in oktober vorig jaar.

Acties:
  • 0 Henk 'm!

  • CAPSLOCK2000
  • Registratie: Februari 2003
  • Laatst online: 12:22

CAPSLOCK2000

zie teletekst pagina 888

Correct, die schijf zit aan het einde van z'n leven.
Normaal gesproken reserveert zo'n schijf een klein beetje ruimte om in te zetten als er blokje data stuk gaat. Al die Current_Pending_Sector count oploopt dan is de noodvoorraad op. Dat betekent dat je al een flink aantal fouten hebt gehad en nu is de voorraad extra blokjes op.

This post is warranted for the full amount you paid me for it.


Acties:
  • 0 Henk 'm!

  • johnkeates
  • Registratie: Februari 2008
  • Laatst online: 04-07 16:30
Tijd om dd_rescue uit de kast te trekken!

Acties:
  • +1 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
Met een beetje mazzel zijn eind deze week alle backups teruggezet en zit de nieuwe schijf in de backupronde. Daarna ga ik zeker even nerden met dd_rescue. Lijkt me een interessante tool om eens hands-on ervaring mee op te doen (zonder klamme handjes :-) )
Nogmaals dank voor jullie collectieve brainpower.

Acties:
  • 0 Henk 'm!

  • HollowGamer
  • Registratie: Februari 2009
  • Niet online
AlterEgo schreef op dinsdag 23 augustus 2016 @ 16:50:
Met een beetje mazzel zijn eind deze week alle backups teruggezet en zit de nieuwe schijf in de backupronde. Daarna ga ik zeker even nerden met dd_rescue. Lijkt me een interessante tool om eens hands-on ervaring mee op te doen (zonder klamme handjes :-) )
Nogmaals dank voor jullie collectieve brainpower.
Laat de ervaring met dit programma graag weten. :)
Backups maken blijven vervelend, zou mooi zijn als hier een (non-cloud) oplossing voor zou komen.

Acties:
  • +1 Henk 'm!

  • AlterEgo
  • Registratie: Juli 2001
  • Niet online
De ervaring is, dat de disk niet meer aan te spreken was: een eindeloze rij I/O errors in syslog en geen /dev/sdX meer. Dus aan dddrescue niet meer toe kunnen komen.
Positieve is, dat alle backups 100% bleken :-)

[ Voor 0% gewijzigd door AlterEgo op 25-08-2016 20:30 . Reden: typo's ]


  • Hero of Time
  • Registratie: Oktober 2004
  • Laatst online: 30-09 22:30

Hero of Time

Moderator LNX

There is only one Legend

Was je toch mooi op tijd. :)

Commandline FTW | Tweakt met mate

Pagina: 1