Ik heb een folder met een 30-tal bestanden in. Deze bevatten allemaal woordlijsten. De bestanden hebben allemaal een andere extensie (.txt, .lst,...), maar zijn wel degelijk allemaal simpele lijsten.
Het gaat om meer dan 160gb aan data.
Ik wil, als mijn machine het aankan, deze lijst samenvoegen tot 1 lijst (of in het slechtste geval tot 2).
Het sorteren en uniek maken van een bestaande lijst doe ik momenteel met dit:
cat lijst_test.txt | sort | uniq > gesorteerdelijst.txt
Om nu de hele folder te doen wil ik dit gebruiken;
cat * | sort | unique > Sorted_unique_list.txt
Welk commando zouden jullie gebruiken om zo zuinig mogelijk te zijn met resources en dus zo snel mogelijk.
Ik heb inmiddels gelezen dat je het sort commando wel kan tweaken met bv "sort -S 50% --parallel=2 ". Iemand dat hier praktijk ervaring heeft?
Het commando zou dan iets moeten zijn als:
cat * | sort -S 50% --parallel=4 | unique > Sorted_unique_list.txt
Ik zou dit willen uitvoeren op een Windows host met vmware Linux guest. Host heeft 16gb en i7 ter beschikking. Ik heb tijd, als het dagen zou duren, geen probleem. :-)
Is dit het snelste commando?
Misschien nog voortgang tonen met PV?
Het gaat om meer dan 160gb aan data.
Ik wil, als mijn machine het aankan, deze lijst samenvoegen tot 1 lijst (of in het slechtste geval tot 2).
Het sorteren en uniek maken van een bestaande lijst doe ik momenteel met dit:
cat lijst_test.txt | sort | uniq > gesorteerdelijst.txt
Om nu de hele folder te doen wil ik dit gebruiken;
cat * | sort | unique > Sorted_unique_list.txt
Welk commando zouden jullie gebruiken om zo zuinig mogelijk te zijn met resources en dus zo snel mogelijk.
Ik heb inmiddels gelezen dat je het sort commando wel kan tweaken met bv "sort -S 50% --parallel=2 ". Iemand dat hier praktijk ervaring heeft?
Het commando zou dan iets moeten zijn als:
cat * | sort -S 50% --parallel=4 | unique > Sorted_unique_list.txt
Ik zou dit willen uitvoeren op een Windows host met vmware Linux guest. Host heeft 16gb en i7 ter beschikking. Ik heb tijd, als het dagen zou duren, geen probleem. :-)
Is dit het snelste commando?
Misschien nog voortgang tonen met PV?