Artikel: nieuws: Onderzoeksbedrijf: DeepSeek R1-model heeft meer geld gekost om te tra...
Auteur: @JayStout
Ik heb al een paar keer gezien dat Tweakers DeepSeek V3 en R1 door elkaar haalt. DeepSeek heeft nooit gezegd dat R1 5,6 miljoen dollar kostte om te trainen. Dat hebben ze gezegd over V3. V3 performt ongeveer zo goed als GPT-4o. Het is R1 dat zo goed presteert als o1, maar over R1 heeft DeepSeek geen cijfers uitgebracht. In alle gevallen gaat het om het grootste model en niet om de dense distilled versies.
Bronnen:
Kosten van V3:
https://arxiv.org/pdf/2412.19437
https://github.com/deepse...blob/main/DeepSeek_R1.pdf
Overigens staat dit allemaal ook in het bronartikel van het Tweakers-artikel:
https://semianalysis.com/...-v3%e2%80%99s-performance
Dit geeft wel aan dat ik me afvraag of jullie de bron goed hebben bestudeerd voordat het artikel is geschreven.
Auteur: @JayStout
Ik heb al een paar keer gezien dat Tweakers DeepSeek V3 en R1 door elkaar haalt. DeepSeek heeft nooit gezegd dat R1 5,6 miljoen dollar kostte om te trainen. Dat hebben ze gezegd over V3. V3 performt ongeveer zo goed als GPT-4o. Het is R1 dat zo goed presteert als o1, maar over R1 heeft DeepSeek geen cijfers uitgebracht. In alle gevallen gaat het om het grootste model en niet om de dense distilled versies.
Bronnen:
Kosten van V3:
https://arxiv.org/pdf/2412.19437
Performance-verschil V3 vs R1:DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of
the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M.
https://github.com/deepse...blob/main/DeepSeek_R1.pdf
Overigens staat dit allemaal ook in het bronartikel van het Tweakers-artikel:
https://semianalysis.com/...-v3%e2%80%99s-performance
Dit geeft wel aan dat ik me afvraag of jullie de bron goed hebben bestudeerd voordat het artikel is geschreven.
Een experimentele community-site: https://technobabblenerdtalk.nl/. DM voor invite code.