Excelsheet met 20 miljoen entries. Hoeveel RAM nodig?

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

Anoniem: 927165

Topicstarter
Ik heb een excelsheet met meer dan 20 miljoen entries. Ik wil graag alle duplicated highlighten. Ik heb heb een computer met 8GB RAM en kolom A met 1 miljoen waardes checken op duplicaten doet die binnen enkele secondes. Echter, als ik alle 20 miljoen tegelijk wil checken kapt die ermee.

Wat heb ik nodig om alle 20 miljoen waardes tegelijk op duplicaten te checken. Zou meer RAM helpen? Zo ja, hoeveel?

Acties:
  • 0 Henk 'm!

  • foppe-jan
  • Registratie: Februari 2004
  • Laatst online: 21-10-2024
Heb je een 64bit versie van excel / Calc?

The new Ultimate Answer to the Ultimate Question of Life, The Universe, and Everything: Debt: The First 5,000 Years


Acties:
  • 0 Henk 'm!

  • KnoxNL
  • Registratie: Juli 2009
  • Laatst online: 13:05
En als je ze per miljoen doet en dan het resultaat nog een keer op duplicaten checken? Ben je er dan ook of heb je een specifiek doel hiermee?

Acties:
  • 0 Henk 'm!

  • Illusion
  • Registratie: November 2000
  • Laatst online: 16:23

Illusion

(the art of)

Kan je eerst op kolom A sorteren, splitsen in een paar wat kleinere files, en dan checken?

Soms ben ik er wel, en soms ook weer niet.


Acties:
  • 0 Henk 'm!

  • Malt007
  • Registratie: Mei 2011
  • Laatst online: 13-06 12:20
Ik werk geregeld met bestanden met 650.000 lijnen lang en ongeveer 50 breed, dat betekend dus grofweg 32.5 miljoen cellen (weet niet of je met entries cellen bedoeld). Dit trekt mijn moderne werklaptop met 8gb RAM eigenlijk niet. In het begin gaat het wel maar zodra er filters of formules bij komen kijken wordt het al snel te zwaar, vooral filters heeft hij dan moeilijkheden mee. Dan duurt een cel selecteren soms al enkele secondes.

Bestand is zonder formules overigens rond de 100-110MB.

Wellicht dat je een draaitabel kan gebruiken, dit trekt excel beter dan filters somehow. Anders zou je nog kunnen kijken of je iets met aparte bestanden met vert.zoeken zou kunnen gebruiken. Geen idee of je het werkbaar kan maken met snellere onderdelen trouwens.

Acties:
  • 0 Henk 'm!

  • Standeman
  • Registratie: November 2000
  • Laatst online: 12:23

Standeman

Prutser 1e klasse

Ik zal eerder kijken of je de excel lijst niet in een dbms kan krijgen zoals mysql. Excel is er imho niet echt voor geoptimaliseerd.
Dat hij er mee kapt hoeft namelijk niet met de hoeveelheid geheugen te maken, dus ik betwijfel of meer RAM echt zin gaat hebben. Ik zou eerst op zoek gaan naar errors in de event manager zodat je weet wat het probleem echt is.

[ Voor 15% gewijzigd door Standeman op 29-05-2017 16:19 ]

The ships hung in the sky in much the same way that bricks don’t.


Acties:
  • 0 Henk 'm!

  • eric.1
  • Registratie: Juli 2014
  • Laatst online: 17:49
Anoniem: 927165 schreef op maandag 29 mei 2017 @ 15:58:
Ik heb heb een computer met 8GB RAM en kolom A met 1 miljoen waardes checken op duplicaten doet die binnen enkele secondes. Echter, als ik alle 20 miljoen tegelijk wil checken kapt die ermee.

Wat heb ik nodig om alle 20 miljoen waardes tegelijk op duplicaten te checken. Zou meer RAM helpen? Zo ja, hoeveel?
Controleer eerst welke versie van excel je gebruikt. 20XX en 32/64bit (32bit kan max 2GB mem gebruiken, uit mijn hoofd gezegd). Daarnaast kun je controleren hoeveel ram excel standaard gebruikt als je dat bestand inlaad. Als je geheugen nu al lang en na niet vol gebruikt wordt door excel, zal dat met meer geheugen ook niet gebeuren (dan kan het aan iets anders liggen) dus is extra geheugen hoogstwaarschijnlijk zinloos.

Ik zou zoals Standeman al aangaf wel nagaan of Excel wel de beste optie is voor zulke omvang en acties. Er zijn systemen/mogelijkheden die veel beter om kunnen gaan met miljoenen entries (databases en bijvoorbeeld 'R') en bewerkingen daarop.

Acties:
  • 0 Henk 'm!

  • Prulleman
  • Registratie: December 2000
  • Laatst online: 12:26
excel is hier gewoon niet geschikt voor.. je zou het eventueel nog met acces kunnen proberen als je binnen de MS Office suite wilt/moet blijven

Strava


Acties:
  • 0 Henk 'm!

  • dion_b
  • Registratie: September 2000
  • Laatst online: 17:52

dion_b

Moderator Harde Waren

say Baah

Dit heeft weinig met hardware te maken en alles met softwarepakketten.

Move PMG -> CSA

Oslik blyat! Oslik!


Acties:
  • 0 Henk 'm!

  • EvilWhiteDragon
  • Registratie: Februari 2003
  • Laatst online: 13-06 21:30
Om bij het begin te beginnen: waar komt dat bestand met 20 miljoen records vandaan? Als dat uit een database(systeem) komt, dan zou ik daar twee bestanden opvragen. 1 met alle records (als je die _ECHT_ nodig hebt) en 1 met alle dubbele records.

LinkedIn
BlackIntel


Acties:
  • 0 Henk 'm!

  • Harm_H
  • Registratie: Juli 2008
  • Laatst online: 13-06 21:38
Anoniem: 927165 schreef op maandag 29 mei 2017 @ 15:58:
Ik heb een excelsheet met meer dan 20 miljoen entries. Ik wil graag alle duplicated highlighten. Ik heb heb een computer met 8GB RAM en kolom A met 1 miljoen waardes checken op duplicaten doet die binnen enkele secondes. Echter, als ik alle 20 miljoen tegelijk wil checken kapt die ermee.

Wat heb ik nodig om alle 20 miljoen waardes tegelijk op duplicaten te checken. Zou meer RAM helpen? Zo ja, hoeveel?
Dit is meer voor Matlab, zelfbouw C++ of een database programma.

Iets met "juiste tool voor de klus"

Als t eenmalig is kan je t proberen met Excel, maar goed mogelijk dat het vastloopt.

Duplicates is zo uit mijn hoofd ook lastig, want Excel heeft geen DISTINCT functie naar mijn weten. Filteren is ook niet handig. Je moet er een kolom naast maken met 'hoevaak t voorkomt'. En daar weer verder mee...

Ach misschien lukt dat wel in een uurtje of 2 stampen.

Desnoods stop je het 10 verschillende Excel's en dan VLOOKUP met die 2de kolom ernaast. Zo lukt het wel zonder te crashen denk ik. Automatisch berekenen uitzetten.

[ Voor 9% gewijzigd door Harm_H op 29-05-2017 20:59 ]


Acties:
  • +3 Henk 'm!

  • Fiber
  • Registratie: Maart 2008
  • Laatst online: 17:49

Fiber

Beaches are for storming.

Keep your wits sharp, your heart open and your gun loaded. And never mess with mother nature, mother in-laws and, mother freaking Ukrainians.


Acties:
  • 0 Henk 'm!

  • biomass
  • Registratie: Augustus 2004
  • Laatst online: 16:42
Als je je Conditional Formatting gebruikt om dit te doen, heb je al geprobeerd om een extra kolom toe te voegen om aan te geven dat een regel dubbel is? Dan kun je die regels highlighten op basis van die waarde.
Je zou moeten testen of 20 miljoen regels wel (sneller) te kleuren zijn door Conditional Formatting op basis van een waarde. Volgens mij wel. Je probleem is gewoon dat de formatting van een regel in je werkblad afhankelijk is van alle andere regels van het werkblad.... 8)7

Als Excel dat wel aankan (nee, niet getest :) ) zou je een macro kunnen schrijven die de dubbelingen telt en dan die nieuwe duplicates kolom vult. (steekworden: Dictionary object in ActiveX Scripting.Runtime, waarden schrijven vanuit array met Range.Value = data)

Maar is het niet veel handiger alleen te kijken naar daadwerkelijk dubbele entries in een aparte lijst die je op een apart blad zet? En als de databron een database is, de database de query geven die je dat resultaat direct geeft?

Acties:
  • 0 Henk 'm!

  • Killah_Priest
  • Registratie: Augustus 2001
  • Laatst online: 13-06 19:47
Harm_H schreef op maandag 29 mei 2017 @ 20:48:
[...]
Duplicates is zo uit mijn hoofd ook lastig, want Excel heeft geen DISTINCT functie naar mijn weten. Filteren is ook niet handig. Je moet er een kolom naast maken met 'hoevaak t voorkomt'. En daar weer verder mee...
Excel heeft al jarenlang (in ieder geval sinds 2010) een remove duplicates knop in de ribbon zitten. Highlighten is een ander verhaal (kan met conditional formatting).

Verder is het uiteraard een beetje vreemd om 20 miljoen regels in één sheet te hebben (en het dan gek vinden dat je er weinig mee kunt doen).

Hoe ziet de TS het eigenlijk voor zich, die gemarkeerde duplicates? Ga je die één voor een nalopen tussen de 20 miljoen entries?

Ik verwacht overigens geen reactie van de TS, zoals vaker bij accounts met 1 forumpost.

[ Voor 19% gewijzigd door Killah_Priest op 30-05-2017 18:54 ]

Pagina: 1