Artikel: GMKtec EVO-X2 met AMD Ryzen AI Max+ 395 Review
Artikel: Framework Desktop Review
Auteur:@Tomas Hochstenbach
Maar ik denk dat het grootste probleem met de benchmarks is dat jullie relatief oude, trage LLM's hebben gebruikt. Jullie hebben vooral Dense LLM's gebruikt en nagenoeg geen MoE modellen, wat nu wel de standaard is. De prestatieverschillen daar tussen zijn niet te onderschatten.
Ik had sinds begin dit jaar een Mac Mini M4 Pro met 64GiB, voor het draaien van LLM's en heb sinds maart een Framework in bestelling staan met het zelfde doel. Dus ik was in eerste instantie bij jullie GMKtec EVO-X2 review erg teleurgesteld in de LLM prestaties die jullie rapporteerden voor de Strix Halo. Maar ik begon er steeds meer aan te twijfelen, omdat ik op mijn Mac Mini M4 Pro LLM's veel sneller kon draaien. En dat terwijl de prestaties van de Strix Halo waarschijnlijk iets hoger liggen dan de M4 Pro. Ik heb op de Mac Mini M4 Pro LLM's van tussen de 32B en 106B parameters gedraaid met tientallen t/s. Voorbeelden zijn Qwen3 32B en GLM AIR 106B Q3 (MoE), die ik draaide op snelheden van rond de 30 a 40 t/s.
(Ook wist ik dat QWQ en Llama (DENSE) die ik begin dit jaar nog gebruikte, stukken langzamer waren)
Inmiddels hebben twee YouTube video's bevestigd dat de prestaties die jullie laten zien vooral komen doordat jullie oude DENSE modellen gebruiken terwijl de huidige standaard MoE is.
De beste video, van Alex Ziskind zit helaas achter een paywall: YouTube: Faster Than Expected… and Whisper Quiet | MEMBERS
Maar deze video laat ook zien hoe snel de strix halo is: YouTube: GLM 4.5-Air-106B and Qwen3-235B on AMD "Strix Halo" AI Ryzen MAX+ 39...
Enkele voorbeelden van prestaties uit Alex Ziskind video:
gpt-oss-120b: 32 t/s
Qwen3-coder-30B: 46 t/s
Dit zijn erg vlotte prestaties van erg goede/grotere LLM's.
Artikel: Framework Desktop Review
Auteur:@Tomas Hochstenbach
Ik denk dat deze conclusie niet helemaal juist is. Het eerste punt is dat als we het over hardware begrenzingen hebben, zal de geheugen bandbreedte ontzettend veel meer invloed hebben dan de rekenkracht van de GPU. (Je ziet hier qua hardware ook het grootste nadeel ten opzichte van Nvidia dedicated videokaarten)De mogelijkheid om grote AI-modellen te draaien is er dankzij de grote hoeveelheid ram, maar de rekenkracht daarvoor ontbreekt eigenlijk, zoals ik vorige maand ook al concludeerde in mijn review van de GMKtec EVO-X2 met dezelfde processor.
Maar ik denk dat het grootste probleem met de benchmarks is dat jullie relatief oude, trage LLM's hebben gebruikt. Jullie hebben vooral Dense LLM's gebruikt en nagenoeg geen MoE modellen, wat nu wel de standaard is. De prestatieverschillen daar tussen zijn niet te onderschatten.
Ik had sinds begin dit jaar een Mac Mini M4 Pro met 64GiB, voor het draaien van LLM's en heb sinds maart een Framework in bestelling staan met het zelfde doel. Dus ik was in eerste instantie bij jullie GMKtec EVO-X2 review erg teleurgesteld in de LLM prestaties die jullie rapporteerden voor de Strix Halo. Maar ik begon er steeds meer aan te twijfelen, omdat ik op mijn Mac Mini M4 Pro LLM's veel sneller kon draaien. En dat terwijl de prestaties van de Strix Halo waarschijnlijk iets hoger liggen dan de M4 Pro. Ik heb op de Mac Mini M4 Pro LLM's van tussen de 32B en 106B parameters gedraaid met tientallen t/s. Voorbeelden zijn Qwen3 32B en GLM AIR 106B Q3 (MoE), die ik draaide op snelheden van rond de 30 a 40 t/s.
(Ook wist ik dat QWQ en Llama (DENSE) die ik begin dit jaar nog gebruikte, stukken langzamer waren)
Inmiddels hebben twee YouTube video's bevestigd dat de prestaties die jullie laten zien vooral komen doordat jullie oude DENSE modellen gebruiken terwijl de huidige standaard MoE is.
De beste video, van Alex Ziskind zit helaas achter een paywall: YouTube: Faster Than Expected… and Whisper Quiet | MEMBERS
Maar deze video laat ook zien hoe snel de strix halo is: YouTube: GLM 4.5-Air-106B and Qwen3-235B on AMD "Strix Halo" AI Ryzen MAX+ 39...
Enkele voorbeelden van prestaties uit Alex Ziskind video:
gpt-oss-120b: 32 t/s
Qwen3-coder-30B: 46 t/s
Dit zijn erg vlotte prestaties van erg goede/grotere LLM's.