AI benchmarks van de Strix Halo echt wel representatief? - Geachte redactie

zondag 17 augustus 2025 02:32

Acties:

0 Henk 'm!

Topicstarter

Artikel: GMKtec EVO-X2 met AMD Ryzen AI Max+ 395 Review
Artikel: Framework Desktop Review

Auteur:@Tomas Hochstenbach

De mogelijkheid om grote AI-modellen te draaien is er dankzij de grote hoeveelheid ram, maar de rekenkracht daarvoor ontbreekt eigenlijk, zoals ik vorige maand ook al concludeerde in mijn review van de GMKtec EVO-X2 met dezelfde processor.

Ik denk dat deze conclusie niet helemaal juist is. Het eerste punt is dat als we het over hardware begrenzingen hebben, zal de geheugen bandbreedte ontzettend veel meer invloed hebben dan de rekenkracht van de GPU. (Je ziet hier qua hardware ook het grootste nadeel ten opzichte van Nvidia dedicated videokaarten)

Maar ik denk dat het grootste probleem met de benchmarks is dat jullie relatief oude, trage LLM's hebben gebruikt. Jullie hebben vooral Dense LLM's gebruikt en nagenoeg geen MoE modellen, wat nu wel de standaard is. De prestatieverschillen daar tussen zijn niet te onderschatten.

Ik had sinds begin dit jaar een Mac Mini M4 Pro met 64GiB, voor het draaien van LLM's en heb sinds maart een Framework in bestelling staan met het zelfde doel. Dus ik was in eerste instantie bij jullie GMKtec EVO-X2 review erg teleurgesteld in de LLM prestaties die jullie rapporteerden voor de Strix Halo. Maar ik begon er steeds meer aan te twijfelen, omdat ik op mijn Mac Mini M4 Pro LLM's veel sneller kon draaien. En dat terwijl de prestaties van de Strix Halo waarschijnlijk iets hoger liggen dan de M4 Pro. Ik heb op de Mac Mini M4 Pro LLM's van tussen de 32B en 106B parameters gedraaid met tientallen t/s. Voorbeelden zijn Qwen3 32B en GLM AIR 106B Q3 (MoE), die ik draaide op snelheden van rond de 30 a 40 t/s.
(Ook wist ik dat QWQ en Llama (DENSE) die ik begin dit jaar nog gebruikte, stukken langzamer waren)

Inmiddels hebben twee YouTube video's bevestigd dat de prestaties die jullie laten zien vooral komen doordat jullie oude DENSE modellen gebruiken terwijl de huidige standaard MoE is.

De beste video, van Alex Ziskind zit helaas achter een paywall: YouTube: Faster Than Expected… and Whisper Quiet | MEMBERS
Maar deze video laat ook zien hoe snel de strix halo is: YouTube: GLM 4.5-Air-106B and Qwen3-235B on AMD "Strix Halo" AI Ryzen MAX+ 39...

Enkele voorbeelden van prestaties uit Alex Ziskind video:
gpt-oss-120b: 32 t/s
Qwen3-coder-30B: 46 t/s

Dit zijn erg vlotte prestaties van erg goede/grotere LLM's.

Opleiding Brandveiligheid

maandag 18 augustus 2025 10:41

Acties:

0 Henk 'm!

Tomas Hochstenbach

Redacteur componenten

@Emielio
Dank voor je feedback! Ik herken het voor een groot deel wel, want bij het benchmarken van AI-toepassingen loop je bijna per definitie achter de feiten aan. Voor je een reproduceerbare test hebt uitgedokterd en voldoende vergelijkingsmateriaal hebt getest, is er al wel weer een nieuwer, beter model populair.

Nu maakt dat eigenlijk ook niet zo veel uit voor het belangrijkste doel van onze tests, namelijk het vergelijken van de AI-prestaties van verschillende systemen. Als een systeem sneller is in model A, is dat waarschijnlijk ook zo in model B. Complicerende factor is bovendien dat veel systemen teruggaan naar fabrikanten. Nieuwe modellen die ik toevoeg aan de test, kan ik bijvoorbeeld niet meer op de Mac Studio draaien.

Dat we een beetje achter de feiten aanlopen is dus ingecalculeerd, maar de huidige selectie tests lijkt me alsnog veel beter dan helemaal geen aandacht besteden aan de prestaties in AI-toepassingen. Voor toekomstige reviews blijf ik steeds kijken wat op dat moment relevant is, zowel qua populariteit als context die we kunnen bieden met de resultaten van andere machines.

zondag 24 augustus 2025 23:44

Acties:

0 Henk 'm!

Emielio

Topicstarter

Qwen to the rescue. Ik heb net de online versie van Qwen2.5-14B-Instruct-1M gebruikt, en die kan teksten genereren die 5 keer zo lang zijn als wat ChatGPT 5 Pro kan hahaha. En dat voor een 14B model. Maar dit model is speciaal voor dit doel gemaakt. Ik hem een 8.000 woorden tekst in 1 keer om laten verbeteren en meteen om laten zetten naar html code voor wordpress. Als ik dit met ChatGPT doe, kort hij het elke keer in tot 2000 woorden.

Opleiding Brandveiligheid