Tweakers,
Voor een school project moet ik een data analyse project uitvoeren. Hiervoor willen wij een dataset met data van Steam gebruiken ( https://steam.internet.byu.edu ). De onderzoeksvraag en documentatie is al gemaakt en we zijn er vanuit gegaan dat deze dataset wel op een desktop te draaien was. Dom natuurlijk, dit hadden wij eerst moeten proberen want het importeren van het SQL bestand wil niet lukken. Het is nu te laat om een nieuwe dataset te zoeken en een onderzoeksvraag + documentatie op te stellen. Aanstaande woensdag krijgen we een go of no go.
De database is ongeveer 180GB groot en al een week aan het importeren, de indexes maken duurt tergend lang op mijn computer (i5 7400, 16GB RAM, 4TB 7200RPM schijf). De schijf is de bottleneck en is continu 100% belast.
De vraag is dus, hoe ga ik deze database importeren? Of nog beter, eenmaal geïmporteerd, is er überhaupt een query op te draaien?
Ik heb gezocht op een manier hoe ik de indexes uit het create script kan slopen maar een 100gb+ bestand openen in een editor is geen optie. Een zoektocht naar speciale programma's die grote bestanden aan kunnen loopt ook op niets uit.
Ik heb ook al geprobeerd of MySQL de indexes kan overslaan d.m.v. configuratie maar ook daar kan ik niets zinnigs over vinden.
Rekenkracht vanuit school is helaas niet beschikbaar. Ook cloudservices met "studenten" krediet zijn niet toereikend omdat de kosten ver boven het beschikbare krediet zitten.
Heeft iemand ervaring met het importeren van grote databases of tips hoe ik dit zou kunnen aanpakken?
Voor een school project moet ik een data analyse project uitvoeren. Hiervoor willen wij een dataset met data van Steam gebruiken ( https://steam.internet.byu.edu ). De onderzoeksvraag en documentatie is al gemaakt en we zijn er vanuit gegaan dat deze dataset wel op een desktop te draaien was. Dom natuurlijk, dit hadden wij eerst moeten proberen want het importeren van het SQL bestand wil niet lukken. Het is nu te laat om een nieuwe dataset te zoeken en een onderzoeksvraag + documentatie op te stellen. Aanstaande woensdag krijgen we een go of no go.
De database is ongeveer 180GB groot en al een week aan het importeren, de indexes maken duurt tergend lang op mijn computer (i5 7400, 16GB RAM, 4TB 7200RPM schijf). De schijf is de bottleneck en is continu 100% belast.
De vraag is dus, hoe ga ik deze database importeren? Of nog beter, eenmaal geïmporteerd, is er überhaupt een query op te draaien?
Ik heb gezocht op een manier hoe ik de indexes uit het create script kan slopen maar een 100gb+ bestand openen in een editor is geen optie. Een zoektocht naar speciale programma's die grote bestanden aan kunnen loopt ook op niets uit.
Ik heb ook al geprobeerd of MySQL de indexes kan overslaan d.m.v. configuratie maar ook daar kan ik niets zinnigs over vinden.
Rekenkracht vanuit school is helaas niet beschikbaar. Ook cloudservices met "studenten" krediet zijn niet toereikend omdat de kosten ver boven het beschikbare krediet zitten.
Heeft iemand ervaring met het importeren van grote databases of tips hoe ik dit zou kunnen aanpakken?