Ik heb een paar weken geleden een DL380 G6 tweedehands gekocht om te experimenteren met virtualisatie, maar voornamelijk als plex transcoder. In de afgelopen weken ben ik 2 verschillende soorten crashes tegengekomen. Ik gebruik zoals in de titel staat met Ubuntu Server 17.04. Daarop draait vrij weinig. Via nfs deel ik de media bestanden naar deze server van mijn nas om ze dan via plex te kijken.
De crashes:
1. de bnx2 drivers crasht, ik heb een workaround gevonden (disable_msi=1) en nu crasht de server niet meer zo vaak door de bnx2 driver. Alleen bij Deep Scan van plex, die staat nu dus ook uit.
2. Ik krijg ook een kernel bug, cpu/ram resources worden niet gepushed of zo, het gebeurd op random momenten. De meest recente crash uit de kern.log hieronder:
May 23 11:02:30 DL380v6 kernel: [11271.456034] ------------[ cut here ]------------
May 23 11:02:30 DL380v6 kernel: [11271.456116] kernel BUG at /build/linux-lz1RHE/linux-4.10.0/include/linux/swapops.h:129!
May 23 11:02:30 DL380v6 kernel: [11271.456235] invalid opcode: 0000 [#1] SMP
May 23 11:02:30 DL380v6 kernel: [11271.456296] Modules linked in: rpcsec_gss_krb5 auth_rpcgss nfsv4 nfs lockd grace fscache ipmi_ssif input_leds joydev gpio_ich intel_powerclamp ipmi_si ipmi_devintf coretemp i7core_edac kvm_intel edac_core ipmi_msghandler kvm irqbypass intel_cstate serio_raw acpi_power_meter shpchp hpilo lpc_ich mac_hid ib_iser rdma_cm iw_cm ib_cm ib_core configfs iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi bonding sunrpc lp parport ip_tables x_tables autofs4 btrfs raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 multipath linear amdkfd amd_iommu_v2 radeon i2c_algo_bit ttm hid_generic drm_kms_helper usbhid syscopyarea sysfillrect sysimgblt fb_sys_fops hpsa psmouse drm hid bnx2 scsi_transport_sas fjes
May 23 11:02:30 DL380v6 kernel: [11271.457292] CPU: 26 PID: 18771 Comm: Plex Media Scan Tainted: G I 4.10.0-21-generic #23-Ubuntu
May 23 11:02:30 DL380v6 kernel: [11271.457434] Hardware name: HP ProLiant DL380 G6, BIOS P62 07/02/2013
May 23 11:02:30 DL380v6 kernel: [11271.457527] task: ffff9711b016d500 task.stack: ffffb11ccc664000
May 23 11:02:30 DL380v6 kernel: [11271.457619] RIP: 0010:__migration_entry_wait+0x16a/0x180
May 23 11:02:30 DL380v6 kernel: [11271.457699] RSP: 0000:ffffb11ccc667d68 EFLAGS: 00010246
May 23 11:02:30 DL380v6 kernel: [11271.457778] RAX: 0057ffffc0048078 RBX: ffffe149904c8c70 RCX: ffffe149904c8c70
May 23 11:02:30 DL380v6 kernel: [11271.457882] RDX: 0000000000000001 RSI: ffff9714532310c0 RDI: ffffe149893f8600
May 23 11:02:30 DL380v6 kernel: [11271.457987] RBP: ffffb11ccc667d80 R08: ffff971447a65540 R09: ffff971447a65540
May 23 11:02:30 DL380v6 kernel: [11271.458130] R10: 00007fedd1aea4a0 R11: 00007fedc8644790 R12: ffffe149893f8600
May 23 11:02:30 DL380v6 kernel: [11271.458234] R13: 3e0000000024fe18 R14: ffffb11ccc667e30 R15: ffff97142f5151f8
May 23 11:02:30 DL380v6 kernel: [11271.458338] FS: 00007fedd2431800(0000) GS:ffff97145fac0000(0000) knlGS:0000000000000000
May 23 11:02:30 DL380v6 kernel: [11271.458461] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
May 23 11:02:30 DL380v6 kernel: [11271.458546] CR2: 00007fedc7018238 CR3: 0000000413235000 CR4: 00000000000006e0
May 23 11:02:30 DL380v6 kernel: [11271.458650] Call Trace:
May 23 11:02:30 DL380v6 kernel: [11271.458694] migration_entry_wait+0x74/0x80
May 23 11:02:30 DL380v6 kernel: [11271.458761] do_swap_page+0x5b3/0x770
May 23 11:02:30 DL380v6 kernel: [11271.458820] ? __check_object_size+0x100/0x1d7
May 23 11:02:30 DL380v6 kernel: [11271.458889] handle_mm_fault+0x873/0x1360
May 23 11:02:30 DL380v6 kernel: [11271.458952] __do_page_fault+0x23e/0x4e0
May 23 11:02:30 DL380v6 kernel: [11271.459012] do_page_fault+0x22/0x30
May 23 11:02:30 DL380v6 kernel: [11271.459069] page_fault+0x28/0x30
May 23 11:02:30 DL380v6 kernel: [11271.459135] RIP: 0033:0x7fedcc72ea5b
May 23 11:02:30 DL380v6 kernel: [11271.459215] RSP: 002b:00007fff96aac650 EFLAGS: 00010202
May 23 11:02:30 DL380v6 kernel: [11271.459295] RAX: 00007fedc7018228 RBX: 00007fedc4ecc340 RCX: 0000000003f0d8f8
May 23 11:02:30 DL380v6 kernel: [11271.459399] RDX: 0000000000000040 RSI: 00007fedc7059400 RDI: 00007fedc7059400
May 23 11:02:30 DL380v6 kernel: [11271.459503] RBP: 00007fff96aad2d0 R08: 0000000000008004 R09: 0000000000000000
May 23 11:02:30 DL380v6 kernel: [11271.459607] R10: 00007fedd1aea4a0 R11: 00007fedc8644790 R12: 00007fff96aadfc0
May 23 11:02:30 DL380v6 kernel: [11271.459710] R13: 0000000May 23 11:09:59 DL380v6 kernel: [ 0.000000] Linux version 4.10.0-21-generic (buildd@lgw01-12) (gcc version 6.3.0 20170406 (Ubuntu 6.3.0-12ubuntu2) ) #23-Ubuntu SMP Fri Apr 28 16:14:22 UTC 2017 (Ubuntu 4.10.0-21.23-generic 4.10.11)
Wat ik zelf al geprobeerd heb is het opnieuw installeren van Ubuntu server. Alle hardware is op de nieuwste firmware die ik kon vinden. Het OS is ook helemaal geupdate.
De specs van de DL380:
CPU: Dual X5550
Ram: 16GB (4x4)
2 Logical drives: Raid 5 van 3 intel 320 ssd's, en een raid 0 van 2 SAS 146GB 10k hdd's (256mb cache)
Verder de standaard barebone dual socket mobo.
2 NICs zitten in een bond met mode 0 (round-robin) de andere 2 zijn nu nog niet aangesloten (ik heb niet genoeg vrije poorten op mijn switch).
De crash is dus best random, verder is de performance van de 2 logical (raid) schijven erg goed, de ssd's zijn er later ingezet, de crash was dus ook met alleen de 2 hdd's.
En de performance van het hele systeem is ook erg goed, gewoon wat je kan verwachten van 2x X5550 en 16GB ram.
Heeft iemand hier ervaring mee, of weet iemand een oplossing? Zou het aan de Linux kernel kunnen liggen die niet goed werkt op dit systeem?
PS. Het is een hobby server dus voor de leuk en om dingen te leren, hij wordt niet in een business omgeving gebruikt. Maar het zou wel fijn zijn als hij de hele tijd blijft werken.
Is dit het goede subforum? zo nee, waar moet ik dan een vraag zoals dit stellen?
Ben ik nog iets vergeten toe te voegen?
Groeten,
Ruben
De crashes:
1. de bnx2 drivers crasht, ik heb een workaround gevonden (disable_msi=1) en nu crasht de server niet meer zo vaak door de bnx2 driver. Alleen bij Deep Scan van plex, die staat nu dus ook uit.
2. Ik krijg ook een kernel bug, cpu/ram resources worden niet gepushed of zo, het gebeurd op random momenten. De meest recente crash uit de kern.log hieronder:
May 23 11:02:30 DL380v6 kernel: [11271.456034] ------------[ cut here ]------------
May 23 11:02:30 DL380v6 kernel: [11271.456116] kernel BUG at /build/linux-lz1RHE/linux-4.10.0/include/linux/swapops.h:129!
May 23 11:02:30 DL380v6 kernel: [11271.456235] invalid opcode: 0000 [#1] SMP
May 23 11:02:30 DL380v6 kernel: [11271.456296] Modules linked in: rpcsec_gss_krb5 auth_rpcgss nfsv4 nfs lockd grace fscache ipmi_ssif input_leds joydev gpio_ich intel_powerclamp ipmi_si ipmi_devintf coretemp i7core_edac kvm_intel edac_core ipmi_msghandler kvm irqbypass intel_cstate serio_raw acpi_power_meter shpchp hpilo lpc_ich mac_hid ib_iser rdma_cm iw_cm ib_cm ib_core configfs iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi bonding sunrpc lp parport ip_tables x_tables autofs4 btrfs raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 multipath linear amdkfd amd_iommu_v2 radeon i2c_algo_bit ttm hid_generic drm_kms_helper usbhid syscopyarea sysfillrect sysimgblt fb_sys_fops hpsa psmouse drm hid bnx2 scsi_transport_sas fjes
May 23 11:02:30 DL380v6 kernel: [11271.457292] CPU: 26 PID: 18771 Comm: Plex Media Scan Tainted: G I 4.10.0-21-generic #23-Ubuntu
May 23 11:02:30 DL380v6 kernel: [11271.457434] Hardware name: HP ProLiant DL380 G6, BIOS P62 07/02/2013
May 23 11:02:30 DL380v6 kernel: [11271.457527] task: ffff9711b016d500 task.stack: ffffb11ccc664000
May 23 11:02:30 DL380v6 kernel: [11271.457619] RIP: 0010:__migration_entry_wait+0x16a/0x180
May 23 11:02:30 DL380v6 kernel: [11271.457699] RSP: 0000:ffffb11ccc667d68 EFLAGS: 00010246
May 23 11:02:30 DL380v6 kernel: [11271.457778] RAX: 0057ffffc0048078 RBX: ffffe149904c8c70 RCX: ffffe149904c8c70
May 23 11:02:30 DL380v6 kernel: [11271.457882] RDX: 0000000000000001 RSI: ffff9714532310c0 RDI: ffffe149893f8600
May 23 11:02:30 DL380v6 kernel: [11271.457987] RBP: ffffb11ccc667d80 R08: ffff971447a65540 R09: ffff971447a65540
May 23 11:02:30 DL380v6 kernel: [11271.458130] R10: 00007fedd1aea4a0 R11: 00007fedc8644790 R12: ffffe149893f8600
May 23 11:02:30 DL380v6 kernel: [11271.458234] R13: 3e0000000024fe18 R14: ffffb11ccc667e30 R15: ffff97142f5151f8
May 23 11:02:30 DL380v6 kernel: [11271.458338] FS: 00007fedd2431800(0000) GS:ffff97145fac0000(0000) knlGS:0000000000000000
May 23 11:02:30 DL380v6 kernel: [11271.458461] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
May 23 11:02:30 DL380v6 kernel: [11271.458546] CR2: 00007fedc7018238 CR3: 0000000413235000 CR4: 00000000000006e0
May 23 11:02:30 DL380v6 kernel: [11271.458650] Call Trace:
May 23 11:02:30 DL380v6 kernel: [11271.458694] migration_entry_wait+0x74/0x80
May 23 11:02:30 DL380v6 kernel: [11271.458761] do_swap_page+0x5b3/0x770
May 23 11:02:30 DL380v6 kernel: [11271.458820] ? __check_object_size+0x100/0x1d7
May 23 11:02:30 DL380v6 kernel: [11271.458889] handle_mm_fault+0x873/0x1360
May 23 11:02:30 DL380v6 kernel: [11271.458952] __do_page_fault+0x23e/0x4e0
May 23 11:02:30 DL380v6 kernel: [11271.459012] do_page_fault+0x22/0x30
May 23 11:02:30 DL380v6 kernel: [11271.459069] page_fault+0x28/0x30
May 23 11:02:30 DL380v6 kernel: [11271.459135] RIP: 0033:0x7fedcc72ea5b
May 23 11:02:30 DL380v6 kernel: [11271.459215] RSP: 002b:00007fff96aac650 EFLAGS: 00010202
May 23 11:02:30 DL380v6 kernel: [11271.459295] RAX: 00007fedc7018228 RBX: 00007fedc4ecc340 RCX: 0000000003f0d8f8
May 23 11:02:30 DL380v6 kernel: [11271.459399] RDX: 0000000000000040 RSI: 00007fedc7059400 RDI: 00007fedc7059400
May 23 11:02:30 DL380v6 kernel: [11271.459503] RBP: 00007fff96aad2d0 R08: 0000000000008004 R09: 0000000000000000
May 23 11:02:30 DL380v6 kernel: [11271.459607] R10: 00007fedd1aea4a0 R11: 00007fedc8644790 R12: 00007fff96aadfc0
May 23 11:02:30 DL380v6 kernel: [11271.459710] R13: 0000000May 23 11:09:59 DL380v6 kernel: [ 0.000000] Linux version 4.10.0-21-generic (buildd@lgw01-12) (gcc version 6.3.0 20170406 (Ubuntu 6.3.0-12ubuntu2) ) #23-Ubuntu SMP Fri Apr 28 16:14:22 UTC 2017 (Ubuntu 4.10.0-21.23-generic 4.10.11)
Wat ik zelf al geprobeerd heb is het opnieuw installeren van Ubuntu server. Alle hardware is op de nieuwste firmware die ik kon vinden. Het OS is ook helemaal geupdate.
De specs van de DL380:
CPU: Dual X5550
Ram: 16GB (4x4)
2 Logical drives: Raid 5 van 3 intel 320 ssd's, en een raid 0 van 2 SAS 146GB 10k hdd's (256mb cache)
Verder de standaard barebone dual socket mobo.
2 NICs zitten in een bond met mode 0 (round-robin) de andere 2 zijn nu nog niet aangesloten (ik heb niet genoeg vrije poorten op mijn switch).
De crash is dus best random, verder is de performance van de 2 logical (raid) schijven erg goed, de ssd's zijn er later ingezet, de crash was dus ook met alleen de 2 hdd's.
En de performance van het hele systeem is ook erg goed, gewoon wat je kan verwachten van 2x X5550 en 16GB ram.
Heeft iemand hier ervaring mee, of weet iemand een oplossing? Zou het aan de Linux kernel kunnen liggen die niet goed werkt op dit systeem?
PS. Het is een hobby server dus voor de leuk en om dingen te leren, hij wordt niet in een business omgeving gebruikt. Maar het zou wel fijn zijn als hij de hele tijd blijft werken.
Is dit het goede subforum? zo nee, waar moet ik dan een vraag zoals dit stellen?
Ben ik nog iets vergeten toe te voegen?
Groeten,
Ruben
[ Voor 0% gewijzigd door rubenwold op 23-05-2017 16:40 . Reden: Toevoegen ]