Ah, in dat geval is daar sowieso winst te behalen.
Sage en Flash Attention zijn paketten die het verwerken sneller laten gebeuren, Flash maakt als het ware de snelweg breder, Sage de auto's kleiner (even simpel gezegd). Triton heb je nodig om beide te laden, dus die eerst installeren. Bij Flash moet je de specifieke versie hebben die voor je gpu generatie werkt, ik kan die voor een 30xx serie even niet vinden want dit is dus voor Blackwell (50xx serie).
Modelle als Flux en Z Turbo gebruiken vervolgens automatisch Flash, als je ook Sage wil gebruiken moet je een SageAttention node tussen de model loader en de sampler zetten.
Flash levert je zo'n 2x snelheidswinst op en tot 50% minder geheugengebruik.
Sage is nogmaals 30-40% sneller dan Flash maar heeft wel een theoretisch kwaliteitsverlies v.d. afbeeldingen (>1%)
Disclaimer als je bovenstaand probeert is het risico best aanwezig dat je je comfy breekt dus doe het in een aparte map of wees bereid alles opnieuw in te stellen. Eigen verantwoordelijkheid dus want het is wel echt tweaken, maar ik dacht wellicht hebben sommigen hier er iets aan dus ik deel het even
code:
1
2
3
4
| python -m pip install --upgrade pip python -m pip install triton-windows python -m pip install sageattention python -m pip install "https://huggingface.co/ussoewwin/Flash-Attention-2_for_Windows/resolve/main/flash_attn-2.8.2+cu129torch2.8.0cxx11abiTRUE-cp312-cp312-win_amd64.whl" "https://huggingface.co/Panchovix/sageattention2.1.1-blackwell2.0-windows-nightly/resolve/main/sageattention-2.1.1-cp312-cp312-win_amd64.whl" --force-reinstall --no-deps |
Sage en Flash Attention zijn paketten die het verwerken sneller laten gebeuren, Flash maakt als het ware de snelweg breder, Sage de auto's kleiner (even simpel gezegd). Triton heb je nodig om beide te laden, dus die eerst installeren. Bij Flash moet je de specifieke versie hebben die voor je gpu generatie werkt, ik kan die voor een 30xx serie even niet vinden want dit is dus voor Blackwell (50xx serie).
Modelle als Flux en Z Turbo gebruiken vervolgens automatisch Flash, als je ook Sage wil gebruiken moet je een SageAttention node tussen de model loader en de sampler zetten.
Flash levert je zo'n 2x snelheidswinst op en tot 50% minder geheugengebruik.
Sage is nogmaals 30-40% sneller dan Flash maar heeft wel een theoretisch kwaliteitsverlies v.d. afbeeldingen (>1%)
Disclaimer als je bovenstaand probeert is het risico best aanwezig dat je je comfy breekt dus doe het in een aparte map of wees bereid alles opnieuw in te stellen. Eigen verantwoordelijkheid dus want het is wel echt tweaken, maar ik dacht wellicht hebben sommigen hier er iets aan dus ik deel het even
youtube.com/@hisrep