Goedemiddag Tweakers
Ik ben professioneel aan het werk in AI, information retrieval, en data mining. Het meeste werk doe ik dan ook op onze servers of op een cluster. Vaak ben ik echter met zoveel tegelijk bezig, dat het niet verantwoord is om de servers of de cluster zo vaak in te plannen. Daarom wil ik mijn eigen PC gebruiken om de simpelere processen uit te voeren, of om eigen projecten in dit genre uit te voeren.
Mijn huidige computer bestaat uit de volgende onderdelen:
De Greens heb ik met WDIDLE3 'gehackt'. Een van hen gebruik ik om mijn data crunching op te doen. Het gaat voornamelijk om eenvoudige acties die niet veel CPU nodig hebben, maar wel veel disk access nodig hebben (bv. grote XML bestanden uitlezen en omvormen, of heel veel CSVs wegschrijven, of bestanden comprimeren, enz.). Deze acties kunnen vaak in parallel lopen.
Momenteel lukt het op een enkele green op zich wel, maar de snelheid is beperkt. Ik kan bijvoorbeeld 'slechts' drie directories met XML-files tegelijkertijd inlezen en op hetzelfde ogenblik informatie hieruit wegschrijven (dus 3x lees, 3x schrijf) en de schijf zit op 100% gebruik.
Ik vroeg me af of hier geen oplossing voor te bedenken is (die het verder gebruik van m'n OS met rust laat). Zou er bijvoorbeeld een raid-oplossing zijn, waar er meer bandbreedte beschikbaar is op de schijf/schijven? Of zijn er simpelweg schijven die veel beter voor dit doel geschikt zijn (Blues, Reds...)?
Ik ben professioneel aan het werk in AI, information retrieval, en data mining. Het meeste werk doe ik dan ook op onze servers of op een cluster. Vaak ben ik echter met zoveel tegelijk bezig, dat het niet verantwoord is om de servers of de cluster zo vaak in te plannen. Daarom wil ik mijn eigen PC gebruiken om de simpelere processen uit te voeren, of om eigen projecten in dit genre uit te voeren.
Mijn huidige computer bestaat uit de volgende onderdelen:
De Greens heb ik met WDIDLE3 'gehackt'. Een van hen gebruik ik om mijn data crunching op te doen. Het gaat voornamelijk om eenvoudige acties die niet veel CPU nodig hebben, maar wel veel disk access nodig hebben (bv. grote XML bestanden uitlezen en omvormen, of heel veel CSVs wegschrijven, of bestanden comprimeren, enz.). Deze acties kunnen vaak in parallel lopen.
Momenteel lukt het op een enkele green op zich wel, maar de snelheid is beperkt. Ik kan bijvoorbeeld 'slechts' drie directories met XML-files tegelijkertijd inlezen en op hetzelfde ogenblik informatie hieruit wegschrijven (dus 3x lees, 3x schrijf) en de schijf zit op 100% gebruik.
Ik vroeg me af of hier geen oplossing voor te bedenken is (die het verder gebruik van m'n OS met rust laat). Zou er bijvoorbeeld een raid-oplossing zijn, waar er meer bandbreedte beschikbaar is op de schijf/schijven? Of zijn er simpelweg schijven die veel beter voor dit doel geschikt zijn (Blues, Reds...)?