CSV lege rijen verwijderen

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • WeHoDo
  • Registratie: Augustus 2014
  • Laatst online: 07-06 01:39
Mijn vraag
Ik heb een CSV bestand van 100mb. (820000 rijen)
Echter staan er om de 75 a 100 regels een lege regel tussen.

Ik kan via Excel deze via F5 en dan speciaal de lege waarden verwijderen, echter duurt dit ruim 8 uur.

Is er een ander programma die, dit sneller kan.
Een gewoon een simpele texteditor?

Relevante software en hardware die ik gebruik
MS Excel 2016

Wat ik al gevonden of geprobeerd heb
Google, krijg alleen resultaten om dit vanuit Excel te doen.

PSN: plexforce (ps4)

Beste antwoord (via WeHoDo op 21-12-2018 13:15)


  • sebasmeer
  • Registratie: November 2007
  • Laatst online: 05-06 09:45
ShitHappens schreef op vrijdag 21 december 2018 @ 13:05:
2 manieren om te overwegen:

- Pak een degelijke texteditor, Notepad++ loopt misschien net op z'n teentjes maar anders wilt EditPad Lite wel. Je zou dan een find+replace kunnen doen op \r\n,,,,,,\r\n (of hoeveel komma's er ook in staan, als de rij echt leeg is dan gewoon \r\n\r\n) en vervangen naar \r\n - wel even de Regex optie aanzetten
- Schrijf een scriptje in Powershell die door het bestand heenloopt, en alleen de niet-lege rijen nog een keer weg te schrijven.
Notepad++ gebruiken inderdaad. Maar dan niet moeilijk doen. Alles wat je nodig hebt kan je via het topmenu bedienen:
- Edit > Line Operations > Remove empty lines

Alle reacties


Acties:
  • 0 Henk 'm!

  • Koos Ofzo
  • Registratie: Maart 2010
  • Laatst online: 20:06
Waarom duurt het 8 uur? Als je F5 doet, lege cellen, en dan bij Start>Verwijderen>Cellen verwijderen of Bladrijen verwijderen gooi je ze toch allemaal in 1x weg?

Acties:
  • 0 Henk 'm!

  • ShitHappens
  • Registratie: Juli 2008
  • Laatst online: 07-06 07:59
2 manieren om te overwegen:

- Pak een degelijke texteditor, Notepad++ loopt misschien net op z'n teentjes maar anders wilt EditPad Lite wel. Je zou dan een find+replace kunnen doen op \r\n,,,,,,\r\n (of hoeveel komma's er ook in staan, als de rij echt leeg is dan gewoon \r\n\r\n) en vervangen naar \r\n - wel even de Regex optie aanzetten
- Schrijf een scriptje in Powershell die door het bestand heenloopt, en alleen de niet-lege rijen nog een keer weg te schrijven.

Acties:
  • 0 Henk 'm!

  • KabouterSuper
  • Registratie: September 2005
  • Niet online
Gewoon ouderwetsch met MS-DOS of met powershell?

Onderstaand is geript uit een oud tooltje, maar wellicht helpt het je op weg:
code:
1
powershell -command "(gc \"__filename__\") | ? {$_.trim(\" `t,\") -ne \"\" } | set-content \"__filename__\"  "

When life gives you lemons, start a battery factory


Acties:
  • Beste antwoord
  • +1 Henk 'm!

  • sebasmeer
  • Registratie: November 2007
  • Laatst online: 05-06 09:45
ShitHappens schreef op vrijdag 21 december 2018 @ 13:05:
2 manieren om te overwegen:

- Pak een degelijke texteditor, Notepad++ loopt misschien net op z'n teentjes maar anders wilt EditPad Lite wel. Je zou dan een find+replace kunnen doen op \r\n,,,,,,\r\n (of hoeveel komma's er ook in staan, als de rij echt leeg is dan gewoon \r\n\r\n) en vervangen naar \r\n - wel even de Regex optie aanzetten
- Schrijf een scriptje in Powershell die door het bestand heenloopt, en alleen de niet-lege rijen nog een keer weg te schrijven.
Notepad++ gebruiken inderdaad. Maar dan niet moeilijk doen. Alles wat je nodig hebt kan je via het topmenu bedienen:
- Edit > Line Operations > Remove empty lines

Acties:
  • 0 Henk 'm!

  • mcDavid
  • Registratie: April 2008
  • Laatst online: 17:54
code:
1
sed /^$/d origineel.csv > nieuw.csv
zoiets?

Acties:
  • 0 Henk 'm!

  • WeHoDo
  • Registratie: Augustus 2014
  • Laatst online: 07-06 01:39
sebasmeer schreef op vrijdag 21 december 2018 @ 13:11:
[...]


Notepad++ gebruiken inderdaad. Maar dan niet moeilijk doen. Alles wat je nodig hebt kan je via het topmenu bedienen:
- Edit > Line Operations > Remove empty lines
Dit is hem!
Top, bedankt!!!!!

Waarom Excel er lang overdoet, zal vast omdat hij elke regel opnieuw moet inladen denk ik, nadat er een wijziging is geweest.

PSN: plexforce (ps4)


Acties:
  • 0 Henk 'm!

  • WeHoDo
  • Registratie: Augustus 2014
  • Laatst online: 07-06 01:39
Koos Ofzo schreef op vrijdag 21 december 2018 @ 13:02:
Waarom duurt het 8 uur? Als je F5 doet, lege cellen, en dan bij Start>Verwijderen>Cellen verwijderen of Bladrijen verwijderen gooi je ze toch allemaal in 1x weg?
Geen idee, wellicht omdat Excel na een wijziging alles opnieuw inlaad en afloopt?

PSN: plexforce (ps4)


Acties:
  • 0 Henk 'm!

  • heuveltje
  • Registratie: Februari 2000
  • Laatst online: 09:28

heuveltje

KoelkastFilosoof

WeHoDo schreef op vrijdag 21 december 2018 @ 13:16:
[...]


Dit is hem!
Top, bedankt!!!!!

Waarom Excel er lang overdoet, zal vast omdat hij elke regel opnieuw moet inladen denk ik, nadat er een wijziging is geweest.
Probleem is dat excel ze ook 1 voor 1 veranderd. en als je regel 2001 verwijderd. hij dus regel 2002 tot 8000 1 regel omhoog gaat schuiven. en dat word nog 1000 keer erger als je er referenties in hebt zitten.

Er zijn wat visual basic commandos om dat te doen zonder het scherm te updaten
https://docs.microsoft.co...pplication.screenupdating

dat kan je code echt Enorm versnellen.

[ Voor 8% gewijzigd door heuveltje op 21-12-2018 13:22 ]

Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d


Acties:
  • 0 Henk 'm!

  • ShitHappens
  • Registratie: Juli 2008
  • Laatst online: 07-06 07:59
sebasmeer schreef op vrijdag 21 december 2018 @ 13:11:
[...]


Notepad++ gebruiken inderdaad. Maar dan niet moeilijk doen. Alles wat je nodig hebt kan je via het topmenu bedienen:
- Edit > Line Operations > Remove empty lines
Ah die optie kende ik niet eens, ik interpreteerde "lege rij" als een rij waarin geen waardes staan, maar wel veldscheidingstekens.

Acties:
  • 0 Henk 'm!

  • WeHoDo
  • Registratie: Augustus 2014
  • Laatst online: 07-06 01:39
ShitHappens schreef op vrijdag 21 december 2018 @ 13:21:
[...]

Ah die optie kende ik niet eens, ik interpreteerde "lege rij" als een rij waarin geen waardes staan, maar wel veldscheidingstekens.
Beide wat nog wat bij geleerd in 2018! hhahaah

PSN: plexforce (ps4)


Acties:
  • 0 Henk 'm!

  • ShitHappens
  • Registratie: Juli 2008
  • Laatst online: 07-06 07:59
En dat terwijl ik al 5 jaar dagelijks met CSV files werk, en Notepad++ gebruik :+ (Niet noodzakelijk in precies die combinatie)
Pagina: 1