Na een keer een power outage gehad te hebben op mn server (jaja, thuis servertje, geen ups...) heb ik het idee dat er iets grondig fout is. Ik vermoed het probleem te weten, maar ik wil toch jullie reacties eens horen. Hier het verhaal.
Tijdens het uitvoeren van veel disk activiteit stijgt de load van mijn server explosief. De gemiddelde load is ~ een jaar lang ongeveer tussen de 0.2 & 0.5 geweest, op een enkele minieme piek na. Sinds die power outage kan de cpu load bij het uitvoeren van (vooral) reads enorm langzaam worden. Dit zag ik in eerste instantie aan trage copy speeds van de data. 'vroeger' was dit ongeveer 10 mb/s, nu tussen de 0 kb/s en de 2 mb/s. Tijdens zo'n actie is inloggen domweg onmogelijk, en duren acties op een ingelogde terminal ook ontzettend lang. Na wat getest kwam ik echter tot de conclusie dat de load soms, zonder reden, omhoog kon schieten naar 20 (!).
Het rare hiervan is dat dit probleem zich niet altijd voordoet, en zich ook niet 'gelijk' voordoet. Recentelijk heb ik de server namelijk gereboot (nieuwe kernel) en toen heeft het een dag of vier goed gewerkt. Daarna kwam ik weer hierop terug...
Dit is natuurlijk niet gezond. Daarom ben ik ook gaan kijken wel proces er op zo'n moment zo'n excessieve load veroorzaakte.
De load is hier niet de extreme 20, die weleens gehaald word, maar gezien mijn eerder gegeven gemiddelde is dit natuurlijk niet gezond.
Er blijkt hier echter niet uit waarom de load zo hoog is. Top gaf ook weinig, maar dit viel wel op:
De wait percentage kan oplopen tot 80%. Dat lijkt me niet goed.
Dan word het natuurlijk logfiles uitpluizen. Dmesg gaf me iets interessants. Op het moment dat het voor het eerst fout ging, gebeurde er dit:
Betekent dit dat er gewoon een paar sector's kapot zijn? Of is de hele disk naar de klote? Ik vermoed namelijk alleen de sectoren, omdat het tijdelijk weer even goed draait, zolang er niets van die bad sectors word gedaan, draait alles prima. De transfer speeds zijn dan ok, en de load blijft ook normaal. Aangezien ik zeker weet dat het maar een paar sectoren zijn, lijkt het mij wel wat om 'gewoon' deze sectoren 'niet te gebruiken' wanneer dit mogelijk is.
De vraag is dus nu: Denken jullie idd hetzelfde als mij, en zoja, zou het niet gebruiken van de sectoren een oplossing zijn? En heeft iemand enig idee waar ik dan moet beginnen? Ik vind het namelijk nogal zone om een verder perfect werken disk niet meer te gebruiken, puur omdat er ~30 sectoren kapot zijn. Verder word alle data toch gebackupped, dus mocht hij ermee uit scheiden, dan is dat geen ramp
.
Tijdens het uitvoeren van veel disk activiteit stijgt de load van mijn server explosief. De gemiddelde load is ~ een jaar lang ongeveer tussen de 0.2 & 0.5 geweest, op een enkele minieme piek na. Sinds die power outage kan de cpu load bij het uitvoeren van (vooral) reads enorm langzaam worden. Dit zag ik in eerste instantie aan trage copy speeds van de data. 'vroeger' was dit ongeveer 10 mb/s, nu tussen de 0 kb/s en de 2 mb/s. Tijdens zo'n actie is inloggen domweg onmogelijk, en duren acties op een ingelogde terminal ook ontzettend lang. Na wat getest kwam ik echter tot de conclusie dat de load soms, zonder reden, omhoog kon schieten naar 20 (!).
Het rare hiervan is dat dit probleem zich niet altijd voordoet, en zich ook niet 'gelijk' voordoet. Recentelijk heb ik de server namelijk gereboot (nieuwe kernel) en toen heeft het een dag of vier goed gewerkt. Daarna kwam ik weer hierop terug...
Dit is natuurlijk niet gezond. Daarom ben ik ook gaan kijken wel proces er op zo'n moment zo'n excessieve load veroorzaakte.
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
| isis:/home/kevin# ps aux | grep -v USER | sort -k 3 && uptime root 16776 0.0 0.0 0 0 ? S< 00:08 0:00 [lockd] root 16777 0.0 0.0 0 0 ? S< 00:08 0:00 [nfsd4] root 217 0.0 0.0 0 0 ? S< Oct03 0:00 [aio/0] root 218 0.0 0.0 0 0 ? S< Oct03 0:00 [aio/1] root 219 0.0 0.0 0 0 ? S< Oct03 0:00 [aio/2] root 220 0.0 0.0 0 0 ? S< Oct03 0:00 [aio/3] root 26 0.0 0.0 0 0 ? S< Oct03 0:00 [async/mgr] root 784 0.0 0.0 0 0 ? S< Oct03 0:00 [ata/0] root 792 0.0 0.0 0 0 ? S< Oct03 0:00 [ata/1] root 793 0.0 0.0 0 0 ? S< Oct03 0:00 [ata/2] root 794 0.0 0.0 0 0 ? S< Oct03 0:00 [ata/3] root 795 0.0 0.0 0 0 ? S< Oct03 0:00 [ata_aux] root 19 0.0 0.0 0 0 ? S< Oct03 0:00 [cpuset] root 221 0.0 0.0 0 0 ? S< Oct03 0:00 [crypto/0] root 222 0.0 0.0 0 0 ? S< Oct03 0:00 [crypto/1] root 223 0.0 0.0 0 0 ? S< Oct03 0:00 [crypto/2] root 224 0.0 0.0 0 0 ? S< Oct03 0:00 [crypto/3] root 16 0.0 0.0 0 0 ? S< Oct03 0:00 [events/1] root 17 0.0 0.0 0 0 ? S< Oct03 0:00 [events/2] root 18 0.0 0.0 0 0 ? S< Oct03 0:00 [events/3] root 1553 0.0 0.0 0 0 ? S< Oct03 0:00 [hd-audio1] root 90 0.0 0.0 0 0 ? S< Oct03 0:00 [kacpid] root 91 0.0 0.0 0 0 ? S< Oct03 0:00 [kacpi_notify] root 86 0.0 0.0 0 0 ? S< Oct03 0:00 [kblockd/1] root 87 0.0 0.0 0 0 ? S< Oct03 0:00 [kblockd/2] root 88 0.0 0.0 0 0 ? S< Oct03 0:00 [kblockd/3] root 20 0.0 0.0 0 0 ? S< Oct03 0:00 [khelper] root 535 0.0 0.0 0 0 ? S< Oct03 0:00 [khubd] root 213 0.0 0.0 0 0 ? S Oct03 0:00 [khungtaskd] root 80 0.0 0.0 0 0 ? S< Oct03 0:00 [kintegrityd/0] root 81 0.0 0.0 0 0 ? S< Oct03 0:00 [kintegrityd/1] root 82 0.0 0.0 0 0 ? S< Oct03 0:00 [kintegrityd/2] root 83 0.0 0.0 0 0 ? S< Oct03 0:00 [kintegrityd/3] root 181 0.0 0.0 0 0 ? S< Oct03 0:00 [kondemand/0] root 182 0.0 0.0 0 0 ? S< Oct03 0:00 [kondemand/1] root 183 0.0 0.0 0 0 ? S< Oct03 0:00 [kondemand/2] root 184 0.0 0.0 0 0 ? S< Oct03 0:00 [kondemand/3] root 1486 0.0 0.0 0 0 ? S< Oct03 0:00 [kpsmoused] root 151 0.0 0.0 0 0 ? S< Oct03 0:00 [kseriod] root 1902 0.0 0.0 0 0 ? S< Oct03 0:00 [kslowd] root 1903 0.0 0.0 0 0 ? S< Oct03 0:00 [kslowd] root 7 0.0 0.0 0 0 ? S< Oct03 0:00 [ksoftirqd/1] root 10 0.0 0.0 0 0 ? S< Oct03 0:00 [ksoftirqd/2] root 13 0.0 0.0 0 0 ? S< Oct03 0:00 [ksoftirqd/3] root 532 0.0 0.0 0 0 ? S< Oct03 0:00 [ksuspend_usbd] root 2 0.0 0.0 0 0 ? S< Oct03 0:00 [kthreadd] root 6 0.0 0.0 0 0 ? S< Oct03 0:00 [migration/1] root 9 0.0 0.0 0 0 ? S< Oct03 0:00 [migration/2] root 12 0.0 0.0 0 0 ? S< Oct03 0:00 [migration/3] root 23 0.0 0.0 0 0 ? S< Oct03 0:00 [netns] root 1906 0.0 0.0 0 0 ? S< Oct03 0:00 [nfsiod] root 1894 0.0 0.0 0 0 ? S< Oct03 0:00 [rpciod/0] root 1895 0.0 0.0 0 0 ? S< Oct03 0:00 [rpciod/1] root 1897 0.0 0.0 0 0 ? S< Oct03 0:00 [rpciod/2] root 1898 0.0 0.0 0 0 ? S< Oct03 0:00 [rpciod/3] root 896 0.0 0.0 0 0 ? S< Oct03 0:00 [scsi_eh_0] root 897 0.0 0.0 0 0 ? S< Oct03 0:00 [scsi_eh_1] root 5 0.0 0.0 0 0 ? S< Oct03 0:00 [watchdog/0] root 8 0.0 0.0 0 0 ? S< Oct03 0:00 [watchdog/1] root 11 0.0 0.0 0 0 ? S< Oct03 0:00 [watchdog/2] root 14 0.0 0.0 0 0 ? S< Oct03 0:00 [watchdog/3] root 3 0.0 0.0 0 0 ? S< Oct03 0:09 [migration/0] root 4 0.0 0.0 0 0 ? S< Oct03 0:24 [ksoftirqd/0] root 15 0.0 0.0 0 0 ? S< Oct03 1:20 [events/0] root 216 0.0 0.0 0 0 ? S< Oct03 1:43 [kswapd0] root 17997 0.0 0.0 0 0 ? S Oct04 0:00 [pdflush] root 18000 0.0 0.0 0 0 ? S Oct04 1:05 [pdflush] root 23606 0.0 0.0 14336 872 ? S< Oct04 0:00 /usr/sbin/smbd -D root 23600 0.0 0.0 14468 1920 ? S<s Oct04 0:02 /usr/sbin/smbd -D root 2212 0.0 0.0 1772 360 ? S Oct03 0:00 logger -p daemon.err -t mysqld_safe -i -t mysqld root 2034 0.0 0.0 1800 312 ? Ss Oct03 0:00 /usr/sbin/acpid root 2622 0.0 0.0 1804 320 tty5 Ss+ Oct03 0:00 /sbin/getty 38400 tty5 root 2618 0.0 0.0 1804 324 tty1 Ss+ Oct03 0:00 /sbin/getty 38400 tty1 root 2621 0.0 0.0 1804 324 tty4 Ss+ Oct03 0:00 /sbin/getty 38400 tty4 root 2623 0.0 0.0 1804 324 tty6 Ss+ Oct03 0:00 /sbin/getty 38400 tty6 root 2619 0.0 0.0 1804 328 tty2 Ss+ Oct03 0:00 /sbin/getty 38400 tty2 root 2620 0.0 0.0 1804 328 tty3 Ss+ Oct03 0:00 /sbin/getty 38400 tty3 daemon 1879 0.0 0.0 1916 408 ? Ss Oct03 0:00 /sbin/portmap statd 1891 0.0 0.0 1988 336 ? Ss Oct03 0:00 /sbin/rpc.statd daemon 2567 0.0 0.0 2072 340 ? Ss Oct03 0:00 /usr/sbin/atd root 1 0.0 0.0 2136 388 ? Ss Oct03 0:04 init [2] root 2129 0.0 0.0 2204 536 ? S<s Oct03 0:00 dhclient3 -pf /var/run/dhclient.eth0.pid -lf /var/lib/dhcp3/dhclient.eth0.leases eth0 root 1011 0.0 0.0 2216 568 ? S<s Oct03 0:00 udevd --daemon root 4127 0.0 0.0 2220 636 ? S< Oct03 0:02 /usr/sbin/chronyd -r root 16789 0.0 0.0 2264 1056 ? S<s 00:08 0:00 /usr/sbin/rpc.mountd --manage-gids root 1915 0.0 0.0 2404 204 ? Ss Oct03 0:00 /usr/sbin/rpc.idmapd 105 2044 0.0 0.0 2696 404 ? Ss Oct03 0:00 /usr/bin/dbus-daemon --system root 2019 0.0 0.0 28464 1172 ? Sl Oct03 0:01 /usr/sbin/rsyslogd -c4 root 16833 0.0 0.0 28872 704 pts/0 S<+ 00:11 0:00 sort -k 3 avahi 2056 0.0 0.0 2924 204 ? Ss Oct03 0:00 avahi-daemon: chroot helper root 2162 0.0 0.0 2980 536 ? S Oct03 0:00 /bin/sh /usr/bin/mysqld_safe avahi 2055 0.0 0.0 3044 876 ? Ss Oct03 0:02 avahi-daemon: running [isis.local] root 3240 0.0 0.0 3236 544 ? S< Oct03 0:00 /usr/sbin/hddtemp -d -l 127.0.0.1 -p 7634 -s | /dev/hda root 2587 0.0 0.0 3520 580 ? Ss Oct03 0:00 /usr/sbin/cron root 16831 0.0 0.0 3780 1036 pts/0 R<+ 00:11 0:00 ps aux root 2538 0.0 0.0 3836 404 ? S Oct03 0:00 /usr/sbin/vsftpd root 16536 0.0 0.0 3856 1172 pts/0 S< Oct07 0:00 su kevin 4206 0.0 0.0 4428 1168 ? S<s Oct03 0:04 SCREEN root 16538 0.0 0.0 4448 1812 pts/0 S< Oct07 0:00 bash root 8305 0.0 0.0 5568 848 ? S<s Oct03 0:00 /usr/sbin/sshd postfix 19177 0.0 0.0 5824 860 ? D<s Oct04 0:00 /usr/lib/postfix/master postfix 16485 0.0 0.0 5836 1764 ? D< Oct07 0:00 pickup -l -t fifo -u -c postfix 19184 0.0 0.0 5880 844 ? S< Oct04 0:00 qmgr -l -t fifo -u root 23596 0.0 0.0 8188 564 ? S< Oct04 0:00 /usr/sbin/nmbd -D root 23595 0.0 0.0 8320 1428 ? S<s Oct04 0:14 /usr/sbin/nmbd -D kevin 16512 0.0 0.0 8484 1660 ? S< Oct07 0:00 sshd: kevin@pts/0 root 4109 0.0 0.1 25376 3968 ? S<l Oct03 2:05 /usr/bin/python /usr/bin/fail2ban-server -b -s /var/run/fail2ban/fail2ban.sock kevin 4207 0.0 0.1 6492 2544 pts/1 S<s Oct03 0:00 /bin/bash kevin 16513 0.0 0.1 6524 3708 pts/0 S<s Oct07 0:00 -bash root 16508 0.0 0.1 8348 2716 ? S<s Oct07 0:00 sshd: kevin [priv] root 1586 0.0 0.2 35836 4728 ? S<s Oct05 0:06 /usr/sbin/apache2 -k start www-data 8888 0.0 0.2 37228 6016 ? S< Oct06 0:01 /usr/sbin/apache2 -k start www-data 9105 0.0 0.2 37232 6044 ? S< Oct06 0:00 /usr/sbin/apache2 -k start kevin 4220 0.0 0.3 15928 6640 pts/1 S<+ Oct03 6:37 rtorrent www-data 1598 0.0 0.3 37204 6768 ? S< Oct05 0:02 /usr/sbin/apache2 -k start www-data 9034 0.0 0.3 37732 6712 ? S< Oct06 0:00 /usr/sbin/apache2 -k start www-data 9107 0.0 0.3 37988 7648 ? S< Oct06 0:00 /usr/sbin/apache2 -k start mt-daapd 8803 0.0 0.5 44976 10876 ? S<l Oct06 0:14 /usr/sbin/mt-daapd mysql 2210 0.0 0.8 129452 17344 ? Sl Oct03 2:37 /usr/sbin/mysqld --basedir=/usr --datadir=/var/lib/mysql --user=mysql --pid-file=/var/run/mysqld/mysqld.pid --skip-external-locking --port=3306 --socket=/var/run/mysqld/mysqld.sock root 85 0.1 0.0 0 0 ? S< Oct03 11:42 [kblockd/0] root 953 0.2 0.0 0 0 ? D< Oct03 15:31 [kjournald] root 16779 0.3 0.0 0 0 ? D< 00:08 0:00 [nfsd] root 16782 0.3 0.0 0 0 ? D< 00:08 0:00 [nfsd] root 16778 0.7 0.0 0 0 ? D< 00:08 0:01 [nfsd] root 16785 0.7 0.0 0 0 ? D< 00:08 0:01 [nfsd] root 16781 0.9 0.0 0 0 ? D< 00:08 0:01 [nfsd] root 16780 1.0 0.0 0 0 ? D< 00:08 0:01 [nfsd] root 16783 1.0 0.0 0 0 ? D< 00:08 0:01 [nfsd] root 16784 1.1 0.0 0 0 ? D< 00:08 0:01 [nfsd] kevin 2489 3.1 2.5 221512 53444 ? Sl Oct03 226:44 /usr/bin/python -OO /usr/bin/sabnzbdplus --daemon --config-file /etc/sabnzbdplus.conf --server 0.0.0.0:8080 mpd 24540 8.3 0.6 71640 12504 ? S<sl Oct04 386:53 /usr/bin/mpd /etc/mpd.conf 00:11:13 up 4 days, 22:45, 1 user, load average: 7.09, 4.35, 3.64 |
De load is hier niet de extreme 20, die weleens gehaald word, maar gezien mijn eerder gegeven gemiddelde is dit natuurlijk niet gezond.
Er blijkt hier echter niet uit waarom de load zo hoog is. Top gaf ook weinig, maar dit viel wel op:
code:
1
| Cpu(s): 0.1%us, 0.0%sy, 0.0%ni, 49.9%id, 50.0%wa, 0.0%hi, 0.0%si, 0.0%st |
De wait percentage kan oplopen tot 80%. Dat lijkt me niet goed.
Dan word het natuurlijk logfiles uitpluizen. Dmesg gaf me iets interessants. Op het moment dat het voor het eerst fout ging, gebeurde er dit:
code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
| [172355.126923] hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
[172355.126978] hda: dma_intr: error=0x01 { AddrMarkNotFound }, LBAsect=443423119, sector=443423119
[172355.127042] hda: possibly failed opcode: 0x25
[172362.935874] hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
[172362.935921] hda: dma_intr: error=0x01 { AddrMarkNotFound }, LBAsect=443423124, sector=443423119
[172362.935984] hda: possibly failed opcode: 0x25
[172380.528800] hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
[172380.528845] hda: dma_intr: error=0x01 { AddrMarkNotFound }, LBAsect=443423134, sector=443423119
[172380.528909] hda: possibly failed opcode: 0x25
[172393.217217] hda: dma_intr: status=0x51 { DriveReady SeekComplete Error }
[172393.217263] hda: dma_intr: error=0x01 { AddrMarkNotFound }, LBAsect=443423130, sector=443423119
[172393.217329] hda: possibly failed opcode: 0x25
[172393.217355] hda: DMA disabled
[172393.456016] ide0: reset: success
[405592.001026] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[405592.001086] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=488281539, sector=488281535
[405592.001149] hda: possibly failed opcode: 0x29
[405596.316279] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[405596.316336] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=488281537, sector=488281535
[405596.316399] hda: possibly failed opcode: 0x29
[427399.441577] nfsd: last server has exited, flushing export cache
[427400.754002] svc: failed to register lockdv1 RPC service (errno 97).
[427400.755441] NFSD: Using /var/lib/nfs/v4recovery as the NFSv4 state recovery directory
[427400.766160] NFSD: starting 90-second grace period
[427578.599271] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[427578.599331] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=488292228, sector=488292223
[427578.599397] hda: possibly failed opcode: 0x29
[427586.107187] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[427586.107247] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=488292228, sector=488292223
[427586.107313] hda: possibly failed opcode: 0x29
[427592.192225] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[427592.192282] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=488292226, sector=488292223
[427592.192345] hda: possibly failed opcode: 0x29
[427874.266711] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[427874.266771] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=489264082, sector=489264079
[427874.266836] hda: possibly failed opcode: 0x29
[428088.671813] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[428088.671872] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=489307106, sector=489307103
[428088.671937] hda: possibly failed opcode: 0x29
[428092.738051] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[428092.738111] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=489307104, sector=489307103
[428092.738176] hda: possibly failed opcode: 0x29
[428345.838400] hda: task_pio_intr: status=0x59 { DriveReady SeekComplete DataRequest Error }
[428345.838461] hda: task_pio_intr: error=0x01 { AddrMarkNotFound }, LBAsect=489363006, sector=489362999
[428345.838526] hda: possibly failed opcode: 0x29
[428641.976059] INFO: task kjournald:953 blocked for more than 120 seconds.
[428641.976093] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[428641.976132] kjournald D c1ffc19c 0 953 2
[428641.976144] c201f1c0 00000046 f7070490 c1ffc19c c04951c0 c0492134 c04951c0 f698b960
[428641.976158] f698bb14 00000002 c201c138 071bb6e4 f71a0bf0 071bb6e4 f71a0bf8 00000c31
[428641.976172] c201c134 f698bb14 06616b70 00000c31 00000073 00000001 00000000 00000000
[428641.976185] Call Trace:
[428641.976200] [<c031d600>] ? schedule+0x5/0x13
[428641.976208] [<c031d65e>] ? io_schedule+0x50/0x87
[428641.976217] [<c01a6c32>] ? sync_buffer+0x30/0x33
[428641.976224] [<c031d964>] ? __wait_on_bit+0x33/0x58
[428641.976231] [<c01a6c02>] ? sync_buffer+0x0/0x33
[428641.976238] [<c031da3e>] ? out_of_line_wait_on_bit+0xb5/0xbd
[428641.976245] [<c01a6c02>] ? sync_buffer+0x0/0x33
[428641.976254] [<c0136aa3>] ? wake_bit_function+0x0/0x3c
[428641.976262] [<c01a6bc7>] ? __wait_on_buffer+0x16/0x18
[428641.976298] [<f835e29e>] ? journal_commit_transaction+0x917/0xd55 [jbd]
[428641.976307] [<c012e55f>] ? lock_timer_base+0x19/0x35
[428641.976325] [<f8360a63>] ? kjournald+0xb7/0x1d2 [jbd]
[428641.976333] [<c0136a76>] ? autoremove_wake_function+0x0/0x2d
[428641.976350] [<f83609ac>] ? kjournald+0x0/0x1d2 [jbd]
[428641.976358] [<c0136788>] ? kthread+0x42/0x67
[428641.976365] [<c0136746>] ? kthread+0x0/0x67
[428641.976373] [<c0103ab7>] ? kernel_thread_helper+0x7/0x10
[428641.976404] INFO: task mpd:24540 blocked for more than 120 seconds.
[428641.976428] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[428641.976468] mpd D f5d1d2e8 0 24540 1
[428641.976475] c201f1c0 00000082 f6943540 f5d1d2e8 c04951c0 f6d59a40 00000000 f7152920
[428641.976489] f7152ad4 00000002 f835d1e7 ea7c088c 000185ba 05f08004 00000000 c016ad65
[428641.976524] c11c4ba0 f7152ad4 00001000 05f08004 c013d4bc 071bdc7c f70bf398 071bdc7c
[428641.976570] Call Trace:
[428641.976598] [<f835d1e7>] ? do_get_write_access+0x364/0x39f [jbd]
[428641.976620] [<c016ad65>] ? find_get_page+0x1f/0x81
[428641.976640] [<c013d4bc>] ? getnstimeofday+0x4d/0xca
[428641.976662] [<c031d600>] ? schedule+0x5/0x13
[428641.976679] [<c031d65e>] ? io_schedule+0x50/0x87
[428641.976699] [<c01a6c32>] ? sync_buffer+0x30/0x33
[428641.976720] [<c031d83b>] ? __wait_on_bit_lock+0x31/0x6a
[428641.976738] [<c01a6c02>] ? sync_buffer+0x0/0x33
[428641.976758] [<c031d929>] ? out_of_line_wait_on_bit_lock+0xb5/0xbd
[428641.976778] [<c01a6c02>] ? sync_buffer+0x0/0x33
[428641.976796] [<c0136aa3>] ? wake_bit_function+0x0/0x3c
[428641.976817] [<c01a6f0d>] ? __lock_buffer+0x21/0x24
[428641.976845] [<f835ced3>] ? do_get_write_access+0x50/0x39f [jbd]
[428641.976882] [<f83954f5>] ? __ext3_get_inode_loc+0xc7/0x277 [ext3]
[428641.976904] [<c016bb7f>] ? generic_file_buffered_write+0x19c/0x279
[428641.976934] [<f835d23a>] ? journal_get_write_access+0x18/0x26 [jbd]
[428641.976973] [<f83a0847>] ? __ext3_journal_get_write_access+0x13/0x32 [ext3]
[428641.977009] [<f8395a12>] ? ext3_reserve_inode_write+0x2d/0x59 [ext3]
[428641.977046] [<f839acf8>] ? ext3_orphan_add+0x89/0x13d [ext3]
[428641.977082] [<f8395c9c>] ? ext3_setattr+0x125/0x1ab [ext3]
[428641.977103] [<c019c85f>] ? notify_change+0x152/0x28f
[428641.977123] [<c0193ea6>] ? inode_permission+0x72/0x8c
[428641.977144] [<c018c74f>] ? do_truncate+0x60/0x77
[428641.977164] [<c019546a>] ? may_open+0x189/0x18f
[428641.977182] [<c0195a6c>] ? do_filp_open+0x3e2/0x747
[428641.977203] [<c018bc03>] ? do_sys_open+0x44/0xb4
[428641.977221] [<c018bcb7>] ? sys_open+0x1e/0x23
[428641.977239] [<c0103014>] ? sysenter_do_call+0x12/0x28
[428641.977268] INFO: task dpkg:16881 blocked for more than 120 seconds.
[428641.977305] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[428641.977358] dpkg D cc2f1ed4 0 16881 16856
[428641.977382] c200f1c0 00000082 f70714d0 cc2f1ed4 c04951c0 c0492134 c04951c0 f71294d0
[428641.977430] f7129684 00000001 00000000 6d5dfcd9 00018594 0000049b 00000003 f68a2470
[428641.977478] c200c134 f7129684 06615ad4 00000282 c011c6f1 00000000 00000001 00000000
[428641.977524] Call Trace:
[428641.977540] [<c011c6f1>] ? __wake_up+0x29/0x39
[428641.977558] [<c031d600>] ? schedule+0x5/0x13
[428641.977589] [<f836068b>] ? log_wait_commit+0xa8/0xef [jbd]
[428641.977611] [<c0136a76>] ? autoremove_wake_function+0x0/0x2d
[428641.977642] [<f835ca65>] ? journal_stop+0x232/0x260 [jbd]
[428641.977671] [<f835d877>] ? journal_start+0x49/0xaf [jbd]
[428641.977692] [<c01a229d>] ? __writeback_single_inode+0x189/0x30d
[428641.977715] [<c01701cb>] ? generic_writepages+0x1a/0x21
[428641.977737] [<c01701fb>] ? do_writepages+0x29/0x30
[428641.977756] [<c01a243a>] ? sync_inode+0x19/0x22
[428641.977791] [<f839407f>] ? ext3_sync_file+0x87/0x98 [ext3]
[428641.977813] [<c01a4dd7>] ? vfs_fsync+0x58/0x83
[428641.977832] [<c01a4e21>] ? do_fsync+0x1f/0x2e
[428641.977850] [<c0103014>] ? sysenter_do_call+0x12/0x28
[428641.977868] INFO: task pdflush:16923 blocked for more than 120 seconds.
[428641.977905] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[428641.977959] pdflush D 00000000 0 16923 2
[428641.977967] c200f1c0 00000046 00000001 00000000 c04951c0 c0492134 c04951c0 f6903ae0
[428641.977980] f6903c94 00000001 00000000 00000000 00000000 00000000 00000000 00000000
[428641.977993] c200c134 f6903c94 066184bb c0101f70 c200cf00 00000000 00000001 00000000
[428641.978006] Call Trace:
[428641.978014] [<c0101f70>] ? __switch_to+0xbf/0x140
[428641.978022] [<c031dba0>] ? __mutex_lock_common+0xe0/0x133
[428641.978030] [<c031dc02>] ? __mutex_lock_slowpath+0xf/0x11
[428641.978037] [<c031da56>] ? mutex_lock+0x10/0x1e
[428641.978044] [<c031da56>] ? mutex_lock+0x10/0x1e
[428641.978052] [<c018ea5b>] ? sync_supers+0x34/0x8a
[428641.978060] [<c017029a>] ? wb_kupdate+0x25/0xf1
[428641.978068] [<c0170f17>] ? pdflush+0x11a/0x1dd
[428641.978075] [<c0170275>] ? wb_kupdate+0x0/0xf1
[428641.978082] [<c0170dfd>] ? pdflush+0x0/0x1dd
[428641.978089] [<c0136788>] ? kthread+0x42/0x67
[428641.978096] [<c0136746>] ? kthread+0x0/0x67
[428641.978103] [<c0103ab7>] ? kernel_thread_helper+0x7/0x10
[428641.978110] INFO: task nmbd:16924 blocked for more than 120 seconds.
[428641.978138] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[428641.978183] nmbd D 00000000 0 16924 23595
[428641.978190] c202f1c0 00000086 eae8f6c0 00000000 c04951c0 c0492134 c04951c0 f6902aa0
[428641.978204] f6902c54 00000003 00000000 f68a2400 00000000 d87b86c0 f83954f5 00001000
[428641.978217] c202c134 f6902c54 066185ac f779cd00 f2238810 00000000 00000001 00000000
[428641.978230] Call Trace:
[428641.978253] [<f83954f5>] ? __ext3_get_inode_loc+0xc7/0x277 [ext3]
[428641.978262] [<c031dba0>] ? __mutex_lock_common+0xe0/0x133
[428641.978270] [<c031dc02>] ? __mutex_lock_slowpath+0xf/0x11
[428641.978277] [<c031da56>] ? mutex_lock+0x10/0x1e
[428641.978284] [<c031da56>] ? mutex_lock+0x10/0x1e
[428641.978306] [<f839ab3a>] ? ext3_orphan_del+0x24/0x159 [ext3]
[428641.978315] [<c01a2b2a>] ? __mark_inode_dirty+0x21/0x137
[428641.978339] [<f83981a4>] ? ext3_truncate+0x6dc/0x70b [ext3]
[428641.978346] [<c019c705>] ? inode_setattr+0x113/0x11b
[428641.978353] [<c019c5a7>] ? inode_change_ok+0xbb/0x106
[428641.978375] [<f8395cde>] ? ext3_setattr+0x167/0x1ab [ext3]
[428641.978383] [<c019c85f>] ? notify_change+0x152/0x28f
[428641.978390] [<c018c317>] ? sys_fchmodat+0x79/0x9e
[428641.978412] [<f83981a4>] ? ext3_truncate+0x6dc/0x70b [ext3]
[428641.978421] [<c01fed86>] ? _atomic_dec_and_lock+0x26/0x40
[428641.978429] [<c018c34d>] ? sys_chmod+0x11/0x15
[428641.978437] [<c0103014>] ? sysenter_do_call+0x12/0x28 |
Betekent dit dat er gewoon een paar sector's kapot zijn? Of is de hele disk naar de klote? Ik vermoed namelijk alleen de sectoren, omdat het tijdelijk weer even goed draait, zolang er niets van die bad sectors word gedaan, draait alles prima. De transfer speeds zijn dan ok, en de load blijft ook normaal. Aangezien ik zeker weet dat het maar een paar sectoren zijn, lijkt het mij wel wat om 'gewoon' deze sectoren 'niet te gebruiken' wanneer dit mogelijk is.
De vraag is dus nu: Denken jullie idd hetzelfde als mij, en zoja, zou het niet gebruiken van de sectoren een oplossing zijn? En heeft iemand enig idee waar ik dan moet beginnen? Ik vind het namelijk nogal zone om een verder perfect werken disk niet meer te gebruiken, puur omdat er ~30 sectoren kapot zijn. Verder word alle data toch gebackupped, dus mocht hij ermee uit scheiden, dan is dat geen ramp
When you think you’ve succeeded / but something’s missing / means you have been defeated / by greed, your weakness.