Ik heb een sql-database met ca 15mln records. Die data wordt extern aangeleverd, en zal periodiek 2x per jaar) volledig ververst moeten worden (= leeggooien en opnieuw opbouwen) uit ascii-files. De data wordt wekelijks bijgewerkt (+40.000 recs).
Op deze data wordt een 100-tal formules losgelaten, die behoorlijk wat reken/selectiewerk vragen (bijv. gemiddelde van 15 recs uit die 15mln / gemiddelde van 15 andere recs uit die 15 mln, vergeleken met de max uit 25 recs uit die 15mln. in één formule komen gemiddeld een stuk of drie van dergelijke constructies voor)
Op de resultaten van dat rekenwerk worden vervolgens allerlei queries uitgevoerd, zoals het aantal keer dat bepaalde formules True op hebben geleverd binnen een bepaalde selectie.
Het is nu zo opgebouwd dat de formules worden doorgerekend 'na' het bijwerken van de brongegevens. De resultaten worden in een andere tabel weggeschreven, zodat de query-performance een beetje acceptabel blijft.
Het vullen van de database en het rekenwerk zijn dus batchgewijs opgebouwd. Voor de wekelijkse batch is dat niet zo heel veel, maar voor de halfjaarlijkse is hij behoorlijk zwaar.
Het queryen op de rekenresultaten (tabel met 15mln recs, 100 velden, half 'bit' en half 'float') gebeurd dagelijks met wisselende queries.
Eea wil ik op een aparte machine gaan draaien. Het draait nu bij wijze van test op mn gewone desktop (P-IV, 2.66, 1GB ram), maar ik wil het op een aparte 'server' gaan draaien.
en dan nu de vraag:
Hebben jullie tips voor de aanschaf van hardware waarmee de performance zo optimaal mogelijk is?
(Wat ook financieel nog een beetje interessant blijft, want het is voor 'hobby'
)
Op deze data wordt een 100-tal formules losgelaten, die behoorlijk wat reken/selectiewerk vragen (bijv. gemiddelde van 15 recs uit die 15mln / gemiddelde van 15 andere recs uit die 15 mln, vergeleken met de max uit 25 recs uit die 15mln. in één formule komen gemiddeld een stuk of drie van dergelijke constructies voor)
Op de resultaten van dat rekenwerk worden vervolgens allerlei queries uitgevoerd, zoals het aantal keer dat bepaalde formules True op hebben geleverd binnen een bepaalde selectie.
Het is nu zo opgebouwd dat de formules worden doorgerekend 'na' het bijwerken van de brongegevens. De resultaten worden in een andere tabel weggeschreven, zodat de query-performance een beetje acceptabel blijft.
Het vullen van de database en het rekenwerk zijn dus batchgewijs opgebouwd. Voor de wekelijkse batch is dat niet zo heel veel, maar voor de halfjaarlijkse is hij behoorlijk zwaar.
Het queryen op de rekenresultaten (tabel met 15mln recs, 100 velden, half 'bit' en half 'float') gebeurd dagelijks met wisselende queries.
Eea wil ik op een aparte machine gaan draaien. Het draait nu bij wijze van test op mn gewone desktop (P-IV, 2.66, 1GB ram), maar ik wil het op een aparte 'server' gaan draaien.
en dan nu de vraag:
Hebben jullie tips voor de aanschaf van hardware waarmee de performance zo optimaal mogelijk is?
(Wat ook financieel nog een beetje interessant blijft, want het is voor 'hobby'