Vraag


Acties:
  • 0 Henk 'm!

  • excessliquidity
  • Registratie: Januari 2022
  • Laatst online: 25-04-2022
Goedenavond Tweakers,

Mijn werkgever heeft mij met een leuke puzzel opgezadeld, ik kan daarbij wel wat hulp gebruiken.

Het zit als volgt: mijn werkgever is een filmproducent die momenteel beschikt over ca. 5 PB aan materiaal. Elk jaar komt daar ca. 0,2 PB bij.

Bestanden variëren van 1-100 MB en 1-700 GB.

Op dit moment staat al deze data op een tweetal "x-servers" uit het jaar kruik op een externe locatie. Die dingen kunnen volgens mij elk moment instorten. Up- en downloaden van zulke bestanden levert geregeld frustratie op bij de partij waar de servers gehost worden ivm het voltrekken van de internetverbinding.

De vraag is als volgt: wat zou een goede cloud-provider zijn voor deze hoeveelheid data, met dien verstande dat we ook nog dagelijks met 20-30 man met deze bestanden werken? De wens is er om er makkelijk bij te kunnen, waar dan ook ter wereld. Ik denk dat eigen servers praktisch niet te betalen zijn voor deze hoeveelheid data.

Na een beetje struinen op het internet zat ik zelf te denken aan de Google Workspace Enterprise oplossing, die bieden voor zover mij bekend letterlijk onbeperkt opslag in Drive tegen een vast bedrag per maand. Maximum bestandsgrootte 5 TB, maar wel een dagelijks uploadlimiet van 750 GB.

Roept u maar, zeer benieuwd waar jullie aan denken!

Beste antwoord (via rens-br op 31-01-2022 11:40)


  • excessliquidity
  • Registratie: Januari 2022
  • Laatst online: 25-04-2022
Goed...

Het blijkt om 5U aan rackspace te gaan met een max van 10 TB. Op alle LTO tapes samen staat ca 5 PB.

Voorgesteld om voor die 10 TB naar een NAS te gaan met een back-up naar Google Workspace Enterprise.

Veel dank voor de snelle en uitgebreide reacties, zeer gewaardeerd.

Alle reacties


Acties:
  • 0 Henk 'm!

  • rens-br
  • Registratie: December 2009
  • Nu online

rens-br

Admin IN & Moderator Mobile
@excessliquidity welkom op Tweakers.

Ik heb je vraag even afgesplitst vanaf Het Online Backup Topic, aangezien een los topic in dit geval beter is.

Acties:
  • 0 Henk 'm!

  • peize9
  • Registratie: Juni 2012
  • Laatst online: 15:24
Ik denk dat je het beste even contact op kan nemen met een aantal hosting bedrijven en kan vragen voor een offerte. Azure, AWS of iets als TransIP. Het is niet echt een standaard usecase.

Wordt alle data dus altijd actief gebruikt of is er ook veel lazy storage?

Two possibilities exist: either we are alone in the Universe or we are not. Both are equally terrifying. ― Arthur C. Clarke


Acties:
  • +3 Henk 'm!

  • IceTeaGX
  • Registratie: Maart 2010
  • Nu online
excessliquidity schreef op dinsdag 25 januari 2022 @ 22:29:
Na een beetje struinen op het internet zat ik zelf te denken aan de Google Workspace Enterprise oplossing, die bieden voor zover mij bekend letterlijk onbeperkt opslag in Drive tegen een vast bedrag per maand. Maximum bestandsgrootte 5 TB, maar wel een dagelijks uploadlimiet van 750 GB.

Roept u maar, zeer benieuwd waar jullie aan denken!
5PB aan 750GB per dag duurt 6667 dagen, nog maar te zwijgen over de groei. Als je pas over 20 jaar in de cloud wilt zitten, strak plan. Dat gaat hem dus niet worden denk ik.
En dat gaan spreiden over meerdere gebruikers, blijft een geprul, dat is hier niet voor gemaakt.

5PB in de cloud, live toegankelijk (dus niet archive) gaat je meerdere duizenden euro per maand kosten bij een ernstige provider. Daar moet je trafiek, en backups nog bijrekenen.

Maar 5PB op 'een tweetal "x-servers" uit het jaar kruik' lijkt me nogal sterk. Zelfs met 10TB schijven heb je er 500(!) nodig om (zonder enige vorm van redundantie of backup) zoveel data op te zetten. Ben je zeker dat je de hoeveelheid correct hebt?

Acties:
  • +2 Henk 'm!

  • superduper
  • Registratie: Juli 2001
  • Laatst online: 07:34

superduper

Z3_3.0 Woeiiii

Leuke case.. Maar zoals @IceTeaGX al zei wel even goed om de getallen te checken. Als ik kijk hoeveel rackspace onze 3PB isilon in beslag neemt twijfel ik ook wel óf aan de 5 PB of aan de '2 oude X servers' idd.

Anyway, dit is echt wel mogelijk om in de cloud weg te stoppen, maar regel iets van een fysieke initele dump oid, anders ben je erg lang aan het uploaden... En uiteraard gaat dit geld kosten, maar dat kost een 5 PB enterprise storage ook als je weer een nieuwe voor 5 jaar aanschaft. Als je niet voor supersnelle storage gaat reken grofweg op een ton of 5. Als je dan een cloud oplossing voor <5k/maand kan vinden dan zou ik geen ijzer meer naar binnen slepen.

Een zuster instituut die ik goed ken is helemaal over op google cloud gegaan, met >3 PB data die ze ook frequent gebruiken, en in subsets met mensen delen. Dit bevalt ze enorm veel beter dan de on-premise omgeving die ze hiervoor hadden. Hun extra voordeel was dat er ook gerekend moet worden op die data wat dan ook lekker in GCP kan, dat zal TS niet zozeer hebben.

Ik zou wel echt gaan praten met sales/tech mensen van de provider waar je naar kijkt. Dit vereist wel wat maatwerk en je komt er niet goed uit met wat er zomaar op een website te berekenen is. Laat staan dat de bedragen bruikbaar zijn.

[ Voor 31% gewijzigd door superduper op 26-01-2022 09:29 ]


Acties:
  • +1 Henk 'm!

  • Uberprutser
  • Registratie: Januari 2000
  • Laatst online: 13:44
GWE gaat niet je vriend zijn, mede vanwege de up/download limieten (en het is niet zo snel).
Met dit soort volumes moet je je altijd afvragen; wat is hot (wordt dagelijks gebruikt) en wat is cold (af en toe nodig) om je kosten te drukken. Wat voor protocol wil je erheen (NFS, SMB, S3). Wat voor performance je verwacht is ook geen onbelangrijke. Verder is het leuk als je het ergens anders hebt staan maar je wil ook een backup op een andere locatie als die data belangrijk is? En hoe ga je verbinding maken naar je datasets?

Ik regelmatig met dit soort vraagstukken zoals ~1 EB met een groei van 1PB per 3 dagen.
Je kan je voorstellen dat 1 kleine fout in je requirements een flinke klap in je gezicht kan zijn met dit soort omgevingen.

En ja, kijk nog eens goed of die 2 servers wel echt 5PB hebben en of het niet ergens anders is geparkeerd met de servers als proxy erheen?

As you may already have guessed, following the instructions may break your system and you are on your own to fix it again.


Acties:
  • 0 Henk 'm!

  • Equator
  • Registratie: April 2001
  • Laatst online: 19-05 20:30

Equator

Crew Council

#whisky #barista

Afhankelijk van de manier waarop je deze bestanden wilt benaderen, en hoe vaak je deze bestanden moet benaderen zou ik kijken naar een storage oplossing met de juiste performance (SSD, SAS, SATA) met een archive oplossing naar de cloud (oudere data wordt online opgeslagen en is opvraagbaar met een performance hit.)

Welke oplossing je hier ook tegenaan zet, het kost geld, en niet een klein beetje. Eigen servers/storage (al dan niet zelf beheerd) of een dienst van een partij die dit kan realiseren is denk ik de beste oplossing.

5PB wegzetten in een redelijk goedkope en perfomante S3 oplossing (Wasabi) kost je alsnog een kleine €30K,- per maand!!
In AWS S3 cold archive ben je wellicht goedkoper uit, maar daar heb je langere tijd nodig om het op te vragen.

Maar 5PB is echt heel veel. Een storage leverancier als HPE, of NetApp is denk ik interessant om mee te gaan praten.

Houd ook rekening met doorlooptijden. 5PB uploaden naar iets (storage, cloud or whatever) met een 10Gbps verbinding, kost je 2 maanden tijd (theoretisch met volledige maximale throughput)

Ik zoek nog een engineer met affiniteit voor Security in de regio Breda. Kennis van Linux, Endpoint Security is een pré. Interesse, neem contact met me op via DM.


Acties:
  • 0 Henk 'm!

  • superduper
  • Registratie: Juli 2001
  • Laatst online: 07:34

superduper

Z3_3.0 Woeiiii

Uberprutser schreef op woensdag 26 januari 2022 @ 10:28:

Ik regelmatig met dit soort vraagstukken zoals ~1 EB met een groei van 1PB per 3 dagen.
Holyf... Wat gerenereert zoveel data, of werk je bij TikTok :)

Acties:
  • 0 Henk 'm!

  • Klippy
  • Registratie: Oktober 2000
  • Laatst online: 19-05 23:54

Klippy

Still Game

Voor de initiële transfer zijn er ook nog fysieke mogelijkheden natuurlijk, zoals AWS Snow.
Dus staat je daar ook niet blind op.
De grote cloud providers veranderen ook met de markt, zo heb je bij AWS sinds kort ook goedkope storage die je toch vrijwel direct kan benaderen https://aws.amazon.com/ab...-retrieval-storage-class/

Maar alles hangt zoals gezegd dus af van hoeveel je echt dagelijks gebruikt. GWE zal je daar ook niet kunnen helpen als je performance wil. Dit klinkt toch wel als een scenario met kosten van tussen de 50 en 100K per maand, dus ik denk dat je nog eens met je werkgever moet praten :)

Voordeel is wel dat de cloud providers je graag helpen voor dit soort bedragen, dus je krijgt wel hulp zat voor de technische en financiële zaken. Qua bedrag is het niet zo schokkend natuurlijk, dat betalen wij ook per maand aan AWS, maar niet alleen voor storage.

Steam | SXQncyBhbGwgZ29vZCwgbWFuISDwn5iO


Acties:
  • +1 Henk 'm!

  • Equator
  • Registratie: April 2001
  • Laatst online: 19-05 20:30

Equator

Crew Council

#whisky #barista

Klippy schreef op woensdag 26 januari 2022 @ 15:03:
Voor de initiële transfer zijn er ook nog fysieke mogelijkheden natuurlijk, zoals AWS Snow.
Dus staat je daar ook niet blind op.
Klopt de Snowball kende ik wel. Maar die gaat maar tot 42TB. Dus voor 5PB heb je er daar minimaal 100 van nodig. De Snowmobile (Ik kan de naamgeving van AWS wel waarderen :) ) gaat tot 100PB. Maar dan nog moet je de data daarheen krijgen. Al heb je 4x10Gb of 100Gb bandbreedte ter beschikking, het is een puist data waar je eng van wordt, en dat duurt lang.
De grote cloud providers veranderen ook met de markt, zo heb je bij AWS sinds kort ook goedkope storage die je toch vrijwel direct kan benaderen https://aws.amazon.com/ab...-retrieval-storage-class/
Nice, die kende ik nog niet. Maar je blijft met downloadtijden zitten als je een bestand van 500GB moet bewerken en dat ding staat in de Cloud en je PC niet. Of je moet een 100Gb DirectConnect hebben :P
Maar alles hangt zoals gezegd dus af van hoeveel je echt dagelijks gebruikt. GWE zal je daar ook niet kunnen helpen als je performance wil. Dit klinkt toch wel als een scenario met kosten van tussen de 50 en 100K per maand, dus ik denk dat je nog eens met je werkgever moet praten :)

Voordeel is wel dat de cloud providers je graag helpen voor dit soort bedragen, dus je krijgt wel hulp zat voor de technische en financiële zaken. Qua bedrag is het niet zo schokkend natuurlijk, dat betalen wij ook per maand aan AWS, maar niet alleen voor storage.
Het kost inderdaad geld, dat moet de TS niet vergeten.



@excessliquidity kan je alsjeblieft wat meer input geven over de manier waarop er wordt gewerkt met deze data? En heeft deze data een 'houdbaarheidsdatum' waarna er niets meer wordt aangepast? Wat ik bedoel is, hoeveel procent van de data wordt er niet meer veranderd en wat is actieve data?

Wat voor tooling gebruiken jullie om die data te bewerken? Is dat software, of zit daar ook hardware bij (los van workstations)? Anders zou het nog een idee zijn om de data in de Cloud op te slaan en een Cloud werkplek te gebruiken om de downloadtijd/inlaadtijd te beperken. Mits die cloudwerkplek natuurlijk de mogelijkheden biedt die jullie nodig hebben (denk aan grafische performance).

En last: hebben wehet echt over 5PB dus 5000 TB?

Ik zoek nog een engineer met affiniteit voor Security in de regio Breda. Kennis van Linux, Endpoint Security is een pré. Interesse, neem contact met me op via DM.


Acties:
  • 0 Henk 'm!

  • jeroentjeh
  • Registratie: Oktober 2005
  • Laatst online: 15:25
Wellicht is een BOX Enterprise een oplossing. Grote bedrijven zoals Disney werken hier ook mee.

https://www.box.com/pricing

Acties:
  • 0 Henk 'm!

  • IceTeaGX
  • Registratie: Maart 2010
  • Nu online
jeroentjeh schreef op donderdag 27 januari 2022 @ 08:46:
Wellicht is een BOX Enterprise een oplossing. Grote bedrijven zoals Disney werken hier ook mee.

https://www.box.com/pricing
De single file upload limit is dan een probleem, want er zouden files tot 700GB aanwezig zijn.


*knip*. Laat dit achterwege aub.

[ Voor 17% gewijzigd door rens-br op 27-01-2022 09:23 ]


Acties:
  • Beste antwoord
  • +2 Henk 'm!

  • excessliquidity
  • Registratie: Januari 2022
  • Laatst online: 25-04-2022
Goed...

Het blijkt om 5U aan rackspace te gaan met een max van 10 TB. Op alle LTO tapes samen staat ca 5 PB.

Voorgesteld om voor die 10 TB naar een NAS te gaan met een back-up naar Google Workspace Enterprise.

Veel dank voor de snelle en uitgebreide reacties, zeer gewaardeerd.

Acties:
  • 0 Henk 'm!

  • DennusB
  • Registratie: Mei 2006
  • Niet online
Dit kan wellicht ook nog helpen als het om tapes gaat : https://aws.amazon.com/storagegateway/vtl/

Owner of DBIT Consultancy


Acties:
  • 0 Henk 'm!

  • init6
  • Registratie: Mei 2012
  • Niet online
Met de huidige informatie is niet heel veel te adviseren, het is namelijk helemaal niet bekend hoe deze data benaderd word en welke limieten daaraan zijn gesteld. Ik zou dus als ik jou was een document aanmaken met alle eisen en dan vervolgens met dat document alle oplossingen door gaan.

Ik kan nu wel Ceph, Glacier of een Synology aan kunnen raden maar als jij een applicatie hebt die verwacht dat de files via een bepaald protocol worden aangeboden dan is je usecase helemaal anders...

Edit lees nu dat die 5PiB in tapes zit en 10T ondemand storage. Opmerking over capaciteit weg gehaald.

[ Voor 23% gewijzigd door init6 op 27-01-2022 15:46 ]


Acties:
  • 0 Henk 'm!

  • excessliquidity
  • Registratie: Januari 2022
  • Laatst online: 25-04-2022
Dit topic mag op slot wat mij betreft, dank allen!

Acties:
  • 0 Henk 'm!

  • HKLM_
  • Registratie: Februari 2009
  • Laatst online: 12:49
excessliquidity schreef op zaterdag 29 januari 2022 @ 12:09:
Dit topic mag op slot wat mij betreft, dank allen!
Why? Wat is dan hè oplossing? Weet je zeker dat Google Workspace Enterprise je gaat brengen wat je wilt?

Ik weet dat je in Azure 10PB kan hosten waarbij Microsoft ook nog de disken of server kan komen ophalen om hem direct in het DC over de pompen naar Azure.

[ Voor 36% gewijzigd door HKLM_ op 29-01-2022 12:17 ]

Cloud ☁️


Acties:
  • 0 Henk 'm!

  • JeroenE
  • Registratie: Januari 2001
  • Niet online
De oplossing was dat de uitgangssituatie verkeerd was. Die genoemde PB's zijn een stapeltje tapes en het gaat om 10TB opslag. Die worden nu blijkbaar op een NAS gezet. Zie excessliquidity in "Cloud provider voor 5 PB"
Pagina: 1