Ik vroeg mij dit al een tijdje af en heb ook veel op google gezocht naar het antwoord, maar er is niks over te vinden. Kan iemand mij een inschatting geven hoe groot alle nieuwsgroepen bij elkaar zijn, of hoe je dat zou kunnen berekenen. Hopelijk kan iemand mij verder helpen
Moeilijk te schatten, je kunt bij sommige nieuwsproviders zien hoeveel opslagcapaciteit ze hebben maar dat is dan met een retentie van 300+ dagen...
https://powershellisfun.com
Verwijderd
Waarom zou je dat willen weten?
Ik denk namelijk dat dit onmogelijk zelf te bepalen is. Je zou kunnen schatten, maar dit is natuurlijk niet nauwkeurig en representatief.
En wat bedoel je dan met "hoe groot"? Het aantal Terabytes dat hier staan opgeslagen, het aantal nieuwsgroepen dat er zijn, ...
Ik denk namelijk dat dit onmogelijk zelf te bepalen is. Je zou kunnen schatten, maar dit is natuurlijk niet nauwkeurig en representatief.
En wat bedoel je dan met "hoe groot"? Het aantal Terabytes dat hier staan opgeslagen, het aantal nieuwsgroepen dat er zijn, ...
Hmm, het totaal zal niet ver van oneindig afzitten 
Het hangt van het aantal dagen retentie af wat usenetproviders hanteren. Hier is verder geen norm voor dus een accurate schatting krijg je nooit.
Het hangt van het aantal dagen retentie af wat usenetproviders hanteren. Hier is verder geen norm voor dus een accurate schatting krijg je nooit.
Het aantal petabytes. Maar dat is dus volgens jou niet te doen? Het hoeft ook niet op GB nauwkeurig ik wil alleen een beeld hebben hoe groot het allemaal bij elkaar is.Verwijderd schreef op zaterdag 23 januari 2010 @ 18:05:
Waarom zou je dat willen weten?
Ik denk namelijk dat dit onmogelijk zelf te bepalen is. Je zou kunnen schatten, maar dit is natuurlijk niet nauwkeurig en representatief.
En wat bedoel je dan met "hoe groot"? Het aantal Terabytes dat hier staan opgeslagen, het aantal nieuwsgroepen dat er zijn, ...
Dat gaat dus niet. Er is niet zoals "het" Usenet. Iedere usenetprovider heeft z'n eigen retentie, sommigen ruim een jaar, sommigen maar een paar dagen. Bij providers zoals Giganews kun je richting duizenden terabytes gaan denken, wellicht zelfs wel richting petabytes.editoor schreef op zaterdag 23 januari 2010 @ 18:15:
[...]
Het aantal petabytes. Maar dat is dus volgens jou niet te doen? Het hoeft ook niet op GB nauwkeurig ik wil alleen een beeld hebben hoe groot het allemaal bij elkaar is.
Zie Wikipedia: Usenet voor een uitleg hoe Usenet in elkaar steekt. Daar staat ook een tabel met de groei van de hoeveelheid data die per dag wordt toegevoegd.
Daar vind je ook een linkje naar NewsAdmin, een site die onder andere statistieken van Usenet verzamelt: http://www.newsadmin.com/usenet_stats_index.asp
Daar vind je ook een linkje naar NewsAdmin, een site die onder andere statistieken van Usenet verzamelt: http://www.newsadmin.com/usenet_stats_index.asp
The problem with common sense is that it's not all that common. | LinkedIn | Flickr
Retentie bepaald idd de capaciteit, en of ze alle groepen voeren. Ik geloof dat de gemiddelde feed iets van een paar Tb per dag is. Goed 2 jr geleden was het iets van 2Tb per dag, ik zie nu dat het inmiddels rond de 5 ligt. Giganews zit over de 500 dagen, dus dat is ongeveer 2,5 Pb....Wildfire schreef op zaterdag 23 januari 2010 @ 18:19:
[...]
Dat gaat dus niet. Er is niet zoals "het" Usenet. Iedere usenetprovider heeft z'n eigen retentie, sommigen ruim een jaar, sommigen maar een paar dagen. Bij providers zoals Giganews kun je richting duizenden terabytes gaan denken, wellicht zelfs wel richting petabytes.
De werkelijke opslag die ze hebben zal hier een veelvoud van zijn, want met 2.5Pb aan diskjes zal de performance zuigen, ze zullen niet alle klanten op 1 hdd-setje gooien.
google maar eens op diablo statistics. Diablo is een veelgebruikt pakket voor feeding.
[google=diablo statistics]
Caiway krijgt bv gemiddeld 4Tb per dag: http://xindi.nntp.kabelfoon.nl/news/
news-service.com 5Tb: http://www.news-service.com/stat/feeder1-stats/
(waarbij news-service.com ook de #1 van de top1000 is)
[ Voor 21% gewijzigd door DJSmiley op 23-01-2010 18:45 ]
Verwijderd
Het is anderhalf jaar aan retentie bij Giganews, dus als het toen inderdaad 2 TB per dag was kan je niet zomaar het aantal dagen retentie vermenigvuldigen met wat ze nu binnen krijgen per dag.
Maar het is op zich wel interessant, vooral omdat er geen einde aan de retentie upgrades lijkt te komen bij de grote providers, terwijl het een aantal jaar geleden gefaseerd met een aantal dagen per keer werd geupgrade. Opslag zal nu wel flink goedkoper zijn in tegenstelling tot toen...
Maar het is op zich wel interessant, vooral omdat er geen einde aan de retentie upgrades lijkt te komen bij de grote providers, terwijl het een aantal jaar geleden gefaseerd met een aantal dagen per keer werd geupgrade. Opslag zal nu wel flink goedkoper zijn in tegenstelling tot toen...
All groups
Total number of files in database: 52926263
Total number of parts (messages) in database: 4442957049
Total size of files: 1.53 PB
Volgens binsearch, ongeveer 300 dagen
Maar er zullen nog wel meer groepen zijn..
Total number of files in database: 52926263
Total number of parts (messages) in database: 4442957049
Total size of files: 1.53 PB
Volgens binsearch, ongeveer 300 dagen
Maar er zullen nog wel meer groepen zijn..
AMD Ryzen 5800X - 32GB DDR4 Corsair RGB - XFX 6900XT - Panasonic HIT 990Wp - AE200L WPB met cv-ondersteuning
http://binsearch.info/groupinfo.php

Edit; damn, ik zie zojuist dat degene boven mij van dezelfde site de statistieken gehaald heeft
http://www.nzbindex.nl/groups/?sort=size&desc=1
Edit; damn, ik zie zojuist dat degene boven mij van dezelfde site de statistieken gehaald heeft
http://www.nzbindex.nl/groups/?sort=size&desc=1
Dat is al het dubbele tov Binsearch, maar er zitten ook dubbel zoveel groepen bijNZBIndex indexed 711 groups totaling 3.26 PB
23.325.265 collections
125.649.582 files
9.644.403.718 parts
[ Voor 106% gewijzigd door Matis op 24-01-2010 14:54 ]
If money talks then I'm a mime
If time is money then I'm out of time
2PB als je ook op other groups kliktJim423 schreef op zondag 24 januari 2010 @ 14:48:
All groups
Total number of files in database: 52926263
Total number of parts (messages) in database: 4442957049
Total size of files: 1.53 PB
Volgens binsearch, ongeveer 300 dagen
Maar er zullen nog wel meer groepen zijn..
Maar NZBindex zit dan ook op 350+ dagen.
AMD Ryzen 5800X - 32GB DDR4 Corsair RGB - XFX 6900XT - Panasonic HIT 990Wp - AE200L WPB met cv-ondersteuning
Ik ga er vanuit dat providers wel aan Data De-duplicatie doen. Een goede boer die voor een paar (tig)duizend euro de fysieke data een factor 3 terug kan brengen is een stuk goedkoper dan een san van 2,5 Pb.
Wikipedia: Data deduplication
[rant] als je ziet dat zo'n beetje elke release, ongeacht het genre) bijna 10x geupload wordt..[/rant]
Wikipedia: Data deduplication
[rant] als je ziet dat zo'n beetje elke release, ongeacht het genre) bijna 10x geupload wordt..[/rant]
[ Voor 15% gewijzigd door Hennie-M op 25-01-2010 00:11 ]
"NZBIndex indexed 711 groups totaling 3.27 PB"Matis schreef op zondag 24 januari 2010 @ 14:52:
http://binsearch.info/groupinfo.php
Edit; damn, ik zie zojuist dat degene boven mij van dezelfde site de statistieken gehaald heeft
http://www.nzbindex.nl/groups/?sort=size&desc=1
[...]
Dat is al het dubbele tov Binsearch, maar er zitten ook dubbel zoveel groepen bij
Zijn dit echt alle nieuwsgroepen of is er nog meer?
Wss zullen er nog wel een aantal private nieuwsgroepen zijn, maar die worden niet geïndexeerd, duheditoor schreef op maandag 25 januari 2010 @ 19:12:
"NZBIndex indexed 711 groups totaling 3.27 PB"
Zijn dit echt alle nieuwsgroepen of is er nog meer?
If money talks then I'm a mime
If time is money then I'm out of time
Ik zou het ook wel leuk vinden om te weten hoe ze dit technisch oplossen... hoe kun je ooit zoveel down/uploads tegelijkertijd met een hoge snelheid voorzien van de nodige data.
Iemand eigenlijk een idee hoe groot het serverpark + SAN (dat vermoed ik) is van bijv. eweka?
Iemand eigenlijk een idee hoe groot het serverpark + SAN (dat vermoed ik) is van bijv. eweka?
Natuurlijk laten ze er weinig over doorschemeren, maar ik denk dat het een groot aantal grote serverparken bedraagt.De Eweka Internet Services Usenetdienst wordt geleverd via onze eigen backbone in Nederland. Momenteel hebben wij meerdere 10 gigabit uplinks met zowel de Amsterdamse Internet Exchange (AMS-IX) als de Nederlandse Internet Exchange (NLIX).
If money talks then I'm a mime
If time is money then I'm out of time
Ik denk dat Data De-duplicatie moeilijk is. Vaak wordt er wel hetzelfde geuploaded maar net een ander formaat en/of anders gerart. Verder staat de data al sowieso meerdere malen opgeslagen, met een diskset red je het niet.Hennie-M schreef op maandag 25 januari 2010 @ 00:08:
Ik ga er vanuit dat providers wel aan Data De-duplicatie doen. Een goede boer die voor een paar (tig)duizend euro de fysieke data een factor 3 terug kan brengen is een stuk goedkoper dan een san van 2,5 Pb.
Wikipedia: Data deduplication
[rant] als je ziet dat zo'n beetje elke release, ongeacht het genre) bijna 10x geupload wordt..[/rant]
Het kan wel hoor met deduplicatie, wij hebben zelf ook 2 boxen staan van DataDomain en die draaien als een zonnetje.
En het werkt op block niveau en niet op file niveau.
High Throughput and Extended Retention: A 16-controller DDX array provides up to 86.4 TB per hour throughput and delivers up to 56.7 petabytes of capacity depending on backup policy and data change rate. This provides up to 18 months of online retention, ensuring fast and reliable data recoveries from disk.
http://www.datadomain.com/products/arrays.html
En het werkt op block niveau en niet op file niveau.
High Throughput and Extended Retention: A 16-controller DDX array provides up to 86.4 TB per hour throughput and delivers up to 56.7 petabytes of capacity depending on backup policy and data change rate. This provides up to 18 months of online retention, ensuring fast and reliable data recoveries from disk.
http://www.datadomain.com/products/arrays.html
Das het geheim van de SmidMatis schreef op maandag 25 januari 2010 @ 19:20:
[...]
Natuurlijk laten ze er weinig over doorschemeren, maar ik denk dat het een groot aantal grote serverparken bedraagt.
Zijn er trouwens ook instanties/usenetproviders die posts ouder dan hun retentie backuppen voor evt. later gebruik? Of is zoiets niet mogelijk?
vast wel mogelijk, maar zeer kostbaar, en waarom zou je dat willen
[ Voor 14% gewijzigd door heuveltje op 25-01-2010 21:48 ]
Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d
De omschrijving van Tweaknews geeft je een indicatie:
Retentie 240+ dagen (groeiend naar 360)
Newsgroepen alle actieve (>107.000)
Opslag 1600 TB aan artikelen
Retentie 240+ dagen (groeiend naar 360)
Newsgroepen alle actieve (>107.000)
Opslag 1600 TB aan artikelen
Veel te veel. Ga er maar van uit dat alles er zon 10 keer opstaat.
Enja het is moeilijk te schatten, maar denk wel dat ze aan de 4 miss 5 PB komen!
Enja het is moeilijk te schatten, maar denk wel dat ze aan de 4 miss 5 PB komen!
Zucht...
Niet zozeer kostbaar voor een usenetprovider als je het vergelijkt met de posts die binnen de retentie vallen. Die moeten namelijk achter een snelle verbinding in allerlei snelle vormen 24/7 beschikbaar zijn. Wat ik bedoel is alles wat buiten de retentie dreigt te vallen tijdelijk in tweevoud (bijvoorbeeld) offline opslaan. In vergelijking met de data die onder de retentie valt is dat natuurlijk peanuts op het gebied van kosten.heuveltje schreef op maandag 25 januari 2010 @ 21:48:
vast wel mogelijk, maar zeer kostbaar, en waarom zou je dat willen
Op deze manier spaar je relatief goedkoop retentie op, en zo zou je dan na een x aantal dagen (zodra het runnen van 'retentie' goedkoper is geworden) meteen een x aantal dagen retentie achter je huidige retentie met data die anders verloren was gegaan.
Of bekijk ik het verkeerd?
Ik vraag me vooral af of na de max retentie van de grootste usenetprovider de data echt verloren gaat.
[ Voor 8% gewijzigd door LieveNiels op 25-01-2010 22:04 ]
Verwijderd
Usenet groeit ook dagelijks, posts worden gecrosspost in meerdere groepen. Dat kost een usenetboer ook weer 15GB extra bijv als een dvd in 3 a 4 groepen wordt gezet.
Al met al kom je met 20 a 25 PetaByte wel zo'n beetje in de buurt van een grote usenetboer. En dan heb je de uitval nog van je opslag + de backup-opslag in het geval er ook daadwerkelijk uitval plaatsvind.
Al met al een hele dure business.
Al met al kom je met 20 a 25 PetaByte wel zo'n beetje in de buurt van een grote usenetboer. En dan heb je de uitval nog van je opslag + de backup-opslag in het geval er ook daadwerkelijk uitval plaatsvind.
Al met al een hele dure business.
Ik run eweka niet, dus ik moet er ook maar naar gokkenLieveNiels schreef op maandag 25 januari 2010 @ 21:58:
[...]
Niet zozeer kostbaar voor een usenetprovider als je het vergelijkt met de posts die binnen de retentie vallen. Die moeten namelijk achter een snelle verbinding in allerlei snelle vormen 24/7 beschikbaar zijn. Wat ik bedoel is alles in tweevoud (bijvoorbeeld) offline opslaan, in vergelijking met de data die onder de retentie valt is dat natuurlijk peanuts op het gebied van kosten.
Op deze manier spaar je relatief goedkoop retentie op, en op deze manier zou je dan na een x aantal dagen (zodra het runnen van 'retentie' goedkoper is geworden) meteen een x aantal dagen retentie achter je huidige retentie met data die anders verloren was gegaan.
Of bekijk ik het verkeerd?
Maar je bekijkt het verkeerd denk ik.
Wel degelijk kostbaar voor een USP. want het zijn kosten die je elke dag opnieuw maakt (elke dag opnieuw 5TB aan tapes die hemaakt en opgeslagen moeten wordem) + de behoorlijke investering om uberhaubt dat te kunnen.
Daarnaast levert het niks op, want niemand neemt een abbonement voor iets waar ze niet bijkunnen.
Over je "aanvul argument"
-Harddisk worden idd langzaam goedkoper, maar de datastroom word snel groter.
Dus je moet al vergroten alleen om de groei voor te zijn, laat staan in te lopen.
-Mocht je een al jaar retentie hebben, em dam flink investeren en je storage met 10% uitbreiden, dan betekent dat nog steeds dat als je gewoon wacht je storage binnen een maand al weer vol zit.
Mocht je echt flink investeren en bv van 9naar 12 maanden gaan, dan is het waarschijnlijk nog steeds goedkoper om 1malig een deal met bv giganews aan te gaan, dan jouw storage oplossing.
Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d
Dit klopt in elk geval niet, een (echte) crosspost word maar 1x opgeslagen, niet bijv 3x voor elke groep. Gelukkig is de software tegenwoordig zo slim, anders zou het helemaal belachelijk uit de klauwen lopen.Verwijderd schreef op maandag 25 januari 2010 @ 22:00:
Usenet groeit ook dagelijks, posts worden gecrosspost in meerdere groepen. Dat kost een usenetboer ook weer 15GB extra bijv als een dvd in 3 a 4 groepen wordt gezet.
Dit klopt welAl met al een hele dure business.
Als er nou ook nog minimaal een paar weken tussen zou zitten zou het niet eens zo erg zijn.Hennie-M schreef op maandag 25 januari 2010 @ 00:08:
[rant] als je ziet dat zo'n beetje elke release, ongeacht het genre) bijna 10x geupload wordt..[/rant]
Maar er zijn zat groepen die een release dezelfde dag nog opnieuw uploaden met hun naam eraan
Dat gaat ten koste van de retentie.
Verwijderd
Vroeger was wel degelijk sprake van crossposts en verbruikte opslag hoor. Inderdaad, nieuwe software weet hier onderscheid uit te maken, maar vroeger was het anders. En inderdaad, postings worden vaak dubbel neergezet, alleen met een andere naam. Usenet is ook heel populair om andere dingen te verspreiden, toename van virussen/trojans is ook enorm toegenomen.Punica- schreef op maandag 25 januari 2010 @ 22:12:
[...]
Dit klopt in elk geval niet, een (echte) crosspost word maar 1x opgeslagen, niet bijv 3x voor elke groep. Gelukkig is de software tegenwoordig zo slim, anders zou het helemaal belachelijk uit de klauwen lopen.
En wat denk je van de mislukte uploads? Als je FTD gebruikt zie je vaak zat dat mensen een bestand uploaden maar hun internet uitvalt, dan is je upload kaduuk. Kun je weer opnieuw beginnen, maar die 2GB die er al op staat, blijft er ook opstaan. 
En reposts omdat sommige uploads alsnog beschadigd zijn.
En reposts omdat sommige uploads alsnog beschadigd zijn.
[ Voor 10% gewijzigd door Mr. Awesome op 25-01-2010 22:39 ]
Het zit iig al in Diablo sinds versie 1, wat al 9 jaar bestaat.Verwijderd schreef op maandag 25 januari 2010 @ 22:25:
[...]
Vroeger was wel degelijk sprake van crossposts en verbruikte opslag hoor. Inderdaad, nieuwe software weet hier onderscheid uit te maken, maar vroeger was het anders. En inderdaad, postings worden vaak dubbel neergezet, alleen met een andere naam. Usenet is ook heel populair om andere dingen te verspreiden, toename van virussen/trojans is ook enorm toegenomen.
Je kunt met een fatsoenlijk programma als PowerPost gewoon segments re-posten en je upload later hervatten.hyptonize schreef op maandag 25 januari 2010 @ 22:39:
En wat denk je van de mislukte uploads? Als je FTD gebruikt zie je vaak zat dat mensen een bestand uploaden maar hun internet uitvalt, dan is je upload kaduuk. Kun je weer opnieuw beginnen, maar die 2GB die er al op staat, blijft er ook opstaan.
En reposts omdat sommige uploads alsnog beschadigd zijn.
Dat zou dus niets uit mogen maken, maar doordat het meer voor 'het grote publiek' is geworden krijg je al dat soort kwaliteitsdalingen.
Als iemand hier een serieuze discussie over wil starten, prima (met betrekking tot gebruikte technieken etc.), maar zoals het topic er nu uitziet loopt het volledig uit de hand. Je kunt ook niet verwachten dat je een onderwerp inkadert met een dergelijke simpele vraag natuurlijk.
Dus, hij gaat dicht.
Dus, hij gaat dicht.
Pagina: 1
Dit topic is gesloten.
![]()