Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

Hoe groot zijn alle nieuwsgroepen bij elkaar?

Pagina: 1
Acties:
  • 2.282 views

  • editoor
  • Registratie: September 2009
  • Laatst online: 30-11 20:41
Ik vroeg mij dit al een tijdje af en heb ook veel op google gezocht naar het antwoord, maar er is niks over te vinden. Kan iemand mij een inschatting geven hoe groot alle nieuwsgroepen bij elkaar zijn, of hoe je dat zou kunnen berekenen. Hopelijk kan iemand mij verder helpen :)

  • Tags NL
  • Registratie: December 1999
  • Laatst online: 27-11 14:20

Tags NL

Harmful or Harmless?

Moeilijk te schatten, je kunt bij sommige nieuwsproviders zien hoeveel opslagcapaciteit ze hebben maar dat is dan met een retentie van 300+ dagen...

https://powershellisfun.com


Verwijderd

Waarom zou je dat willen weten?
Ik denk namelijk dat dit onmogelijk zelf te bepalen is. Je zou kunnen schatten, maar dit is natuurlijk niet nauwkeurig en representatief.
En wat bedoel je dan met "hoe groot"? Het aantal Terabytes dat hier staan opgeslagen, het aantal nieuwsgroepen dat er zijn, ...

  • BHQ
  • Registratie: November 2003
  • Laatst online: 30-11 20:20

BHQ

Hmm, het totaal zal niet ver van oneindig afzitten :+

Het hangt van het aantal dagen retentie af wat usenetproviders hanteren. Hier is verder geen norm voor dus een accurate schatting krijg je nooit.

  • editoor
  • Registratie: September 2009
  • Laatst online: 30-11 20:41
Verwijderd schreef op zaterdag 23 januari 2010 @ 18:05:
Waarom zou je dat willen weten?
Ik denk namelijk dat dit onmogelijk zelf te bepalen is. Je zou kunnen schatten, maar dit is natuurlijk niet nauwkeurig en representatief.
En wat bedoel je dan met "hoe groot"? Het aantal Terabytes dat hier staan opgeslagen, het aantal nieuwsgroepen dat er zijn, ...
Het aantal petabytes. Maar dat is dus volgens jou niet te doen? Het hoeft ook niet op GB nauwkeurig ik wil alleen een beeld hebben hoe groot het allemaal bij elkaar is.

  • Wildfire
  • Registratie: Augustus 2000
  • Laatst online: 02:31

Wildfire

Joy to the world!

editoor schreef op zaterdag 23 januari 2010 @ 18:15:
[...]


Het aantal petabytes. Maar dat is dus volgens jou niet te doen? Het hoeft ook niet op GB nauwkeurig ik wil alleen een beeld hebben hoe groot het allemaal bij elkaar is.
Dat gaat dus niet. Er is niet zoals "het" Usenet. Iedere usenetprovider heeft z'n eigen retentie, sommigen ruim een jaar, sommigen maar een paar dagen. Bij providers zoals Giganews kun je richting duizenden terabytes gaan denken, wellicht zelfs wel richting petabytes.

Systeemspecs | Mijn V&A spulletjes | Mijn RIPE Atlas probe


  • Orion84
  • Registratie: April 2002
  • Laatst online: 09:30

Orion84

Admin General Chat / Wonen & Mobiliteit

Fotogenie(k)?

Zie Wikipedia: Usenet voor een uitleg hoe Usenet in elkaar steekt. Daar staat ook een tabel met de groei van de hoeveelheid data die per dag wordt toegevoegd.

Daar vind je ook een linkje naar NewsAdmin, een site die onder andere statistieken van Usenet verzamelt: http://www.newsadmin.com/usenet_stats_index.asp

The problem with common sense is that it's not all that common. | LinkedIn | Flickr


  • DJSmiley
  • Registratie: Mei 2000
  • Laatst online: 13-11 18:21
Wildfire schreef op zaterdag 23 januari 2010 @ 18:19:
[...]


Dat gaat dus niet. Er is niet zoals "het" Usenet. Iedere usenetprovider heeft z'n eigen retentie, sommigen ruim een jaar, sommigen maar een paar dagen. Bij providers zoals Giganews kun je richting duizenden terabytes gaan denken, wellicht zelfs wel richting petabytes.
Retentie bepaald idd de capaciteit, en of ze alle groepen voeren. Ik geloof dat de gemiddelde feed iets van een paar Tb per dag is. Goed 2 jr geleden was het iets van 2Tb per dag, ik zie nu dat het inmiddels rond de 5 ligt. Giganews zit over de 500 dagen, dus dat is ongeveer 2,5 Pb....

De werkelijke opslag die ze hebben zal hier een veelvoud van zijn, want met 2.5Pb aan diskjes zal de performance zuigen, ze zullen niet alle klanten op 1 hdd-setje gooien.

google maar eens op diablo statistics. Diablo is een veelgebruikt pakket voor feeding.
[google=diablo statistics]


Caiway krijgt bv gemiddeld 4Tb per dag: http://xindi.nntp.kabelfoon.nl/news/
news-service.com 5Tb: http://www.news-service.com/stat/feeder1-stats/
(waarbij news-service.com ook de #1 van de top1000 is)

[ Voor 21% gewijzigd door DJSmiley op 23-01-2010 18:45 ]


Verwijderd

Het is anderhalf jaar aan retentie bij Giganews, dus als het toen inderdaad 2 TB per dag was kan je niet zomaar het aantal dagen retentie vermenigvuldigen met wat ze nu binnen krijgen per dag.

Maar het is op zich wel interessant, vooral omdat er geen einde aan de retentie upgrades lijkt te komen bij de grote providers, terwijl het een aantal jaar geleden gefaseerd met een aantal dagen per keer werd geupgrade. Opslag zal nu wel flink goedkoper zijn in tegenstelling tot toen...

  • Jim423
  • Registratie: September 2007
  • Laatst online: 30-11 22:35
All groups
Total number of files in database: 52926263
Total number of parts (messages) in database: 4442957049
Total size of files: 1.53 PB

Volgens binsearch, ongeveer 300 dagen :)
Maar er zullen nog wel meer groepen zijn..

AMD Ryzen 5800X - 32GB DDR4 Corsair RGB - XFX 6900XT - Panasonic HIT 990Wp - AE200L WPB met cv-ondersteuning


  • Matis
  • Registratie: Januari 2007
  • Laatst online: 09:56

Matis

Rubber Rocket

http://binsearch.info/groupinfo.php

:)

Edit; damn, ik zie zojuist dat degene boven mij van dezelfde site de statistieken gehaald heeft :P


http://www.nzbindex.nl/groups/?sort=size&desc=1
NZBIndex indexed 711 groups totaling 3.26 PB

23.325.265 collections
125.649.582 files
9.644.403.718 parts
Dat is al het dubbele tov Binsearch, maar er zitten ook dubbel zoveel groepen bij :+

[ Voor 106% gewijzigd door Matis op 24-01-2010 14:54 ]

If money talks then I'm a mime
If time is money then I'm out of time


  • Fish
  • Registratie: Juli 2002
  • Niet online

Fish

How much is the fish

Jim423 schreef op zondag 24 januari 2010 @ 14:48:
All groups
Total number of files in database: 52926263
Total number of parts (messages) in database: 4442957049
Total size of files: 1.53 PB

Volgens binsearch, ongeveer 300 dagen :)
Maar er zullen nog wel meer groepen zijn..
2PB als je ook op other groups klikt ;)

Iperf


  • Jim423
  • Registratie: September 2007
  • Laatst online: 30-11 22:35
Maar NZBindex zit dan ook op 350+ dagen.

AMD Ryzen 5800X - 32GB DDR4 Corsair RGB - XFX 6900XT - Panasonic HIT 990Wp - AE200L WPB met cv-ondersteuning


  • Hennie-M
  • Registratie: December 2000
  • Laatst online: 10:51
Ik ga er vanuit dat providers wel aan Data De-duplicatie doen. Een goede boer die voor een paar (tig)duizend euro de fysieke data een factor 3 terug kan brengen is een stuk goedkoper dan een san van 2,5 Pb.

Wikipedia: Data deduplication
[rant] als je ziet dat zo'n beetje elke release, ongeacht het genre) bijna 10x geupload wordt..[/rant]

[ Voor 15% gewijzigd door Hennie-M op 25-01-2010 00:11 ]


  • editoor
  • Registratie: September 2009
  • Laatst online: 30-11 20:41
Matis schreef op zondag 24 januari 2010 @ 14:52:
http://binsearch.info/groupinfo.php

:)

Edit; damn, ik zie zojuist dat degene boven mij van dezelfde site de statistieken gehaald heeft :P


http://www.nzbindex.nl/groups/?sort=size&desc=1


[...]


Dat is al het dubbele tov Binsearch, maar er zitten ook dubbel zoveel groepen bij :+
"NZBIndex indexed 711 groups totaling 3.27 PB"

Zijn dit echt alle nieuwsgroepen of is er nog meer?

  • Matis
  • Registratie: Januari 2007
  • Laatst online: 09:56

Matis

Rubber Rocket

editoor schreef op maandag 25 januari 2010 @ 19:12:
"NZBIndex indexed 711 groups totaling 3.27 PB"

Zijn dit echt alle nieuwsgroepen of is er nog meer?
Wss zullen er nog wel een aantal private nieuwsgroepen zijn, maar die worden niet geïndexeerd, duh :+

If money talks then I'm a mime
If time is money then I'm out of time


  • Pinooo
  • Registratie: Januari 2007
  • Laatst online: 30-11 21:02
Ik zou het ook wel leuk vinden om te weten hoe ze dit technisch oplossen... hoe kun je ooit zoveel down/uploads tegelijkertijd met een hoge snelheid voorzien van de nodige data.

Iemand eigenlijk een idee hoe groot het serverpark + SAN (dat vermoed ik) is van bijv. eweka?

  • Matis
  • Registratie: Januari 2007
  • Laatst online: 09:56

Matis

Rubber Rocket

De Eweka Internet Services Usenetdienst wordt geleverd via onze eigen backbone in Nederland. Momenteel hebben wij meerdere 10 gigabit uplinks met zowel de Amsterdamse Internet Exchange (AMS-IX) als de Nederlandse Internet Exchange (NLIX).
Natuurlijk laten ze er weinig over doorschemeren, maar ik denk dat het een groot aantal grote serverparken bedraagt.

If money talks then I'm a mime
If time is money then I'm out of time


  • PolarBear
  • Registratie: Februari 2001
  • Niet online
Hennie-M schreef op maandag 25 januari 2010 @ 00:08:
Ik ga er vanuit dat providers wel aan Data De-duplicatie doen. Een goede boer die voor een paar (tig)duizend euro de fysieke data een factor 3 terug kan brengen is een stuk goedkoper dan een san van 2,5 Pb.

Wikipedia: Data deduplication
[rant] als je ziet dat zo'n beetje elke release, ongeacht het genre) bijna 10x geupload wordt..[/rant]
Ik denk dat Data De-duplicatie moeilijk is. Vaak wordt er wel hetzelfde geuploaded maar net een ander formaat en/of anders gerart. Verder staat de data al sowieso meerdere malen opgeslagen, met een diskset red je het niet.

  • Bierkameel
  • Registratie: December 2000
  • Niet online

Bierkameel

Alle proemn in n drek

Het kan wel hoor met deduplicatie, wij hebben zelf ook 2 boxen staan van DataDomain en die draaien als een zonnetje.
En het werkt op block niveau en niet op file niveau.

High Throughput and Extended Retention: A 16-controller DDX array provides up to 86.4 TB per hour throughput and delivers up to 56.7 petabytes of capacity depending on backup policy and data change rate. This provides up to 18 months of online retention, ensuring fast and reliable data recoveries from disk.
http://www.datadomain.com/products/arrays.html

  • Punica-
  • Registratie: September 2003
  • Laatst online: 27-11-2023
Matis schreef op maandag 25 januari 2010 @ 19:20:
[...]


Natuurlijk laten ze er weinig over doorschemeren, maar ik denk dat het een groot aantal grote serverparken bedraagt.
Das het geheim van de Smid ;)

  • LieveNiels
  • Registratie: December 2005
  • Laatst online: 18-11 21:03

LieveNiels

On Fire

Zijn er trouwens ook instanties/usenetproviders die posts ouder dan hun retentie backuppen voor evt. later gebruik? Of is zoiets niet mogelijk?

  • heuveltje
  • Registratie: Februari 2000
  • Laatst online: 29-11 19:55

heuveltje

KoelkastFilosoof

vast wel mogelijk, maar zeer kostbaar, en waarom zou je dat willen :?

[ Voor 14% gewijzigd door heuveltje op 25-01-2010 21:48 ]

Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d


  • jopie
  • Registratie: Juli 1999
  • Nu online
De omschrijving van Tweaknews geeft je een indicatie:

Retentie 240+ dagen (groeiend naar 360)
Newsgroepen alle actieve (>107.000)
Opslag 1600 TB aan artikelen

  • SgtElPotato
  • Registratie: Juli 2008
  • Laatst online: 10:20
Veel te veel. Ga er maar van uit dat alles er zon 10 keer opstaat.
Enja het is moeilijk te schatten, maar denk wel dat ze aan de 4 miss 5 PB komen!

Zucht...


  • LieveNiels
  • Registratie: December 2005
  • Laatst online: 18-11 21:03

LieveNiels

On Fire

heuveltje schreef op maandag 25 januari 2010 @ 21:48:
vast wel mogelijk, maar zeer kostbaar, en waarom zou je dat willen :?
Niet zozeer kostbaar voor een usenetprovider als je het vergelijkt met de posts die binnen de retentie vallen. Die moeten namelijk achter een snelle verbinding in allerlei snelle vormen 24/7 beschikbaar zijn. Wat ik bedoel is alles wat buiten de retentie dreigt te vallen tijdelijk in tweevoud (bijvoorbeeld) offline opslaan. In vergelijking met de data die onder de retentie valt is dat natuurlijk peanuts op het gebied van kosten.

Op deze manier spaar je relatief goedkoop retentie op, en zo zou je dan na een x aantal dagen (zodra het runnen van 'retentie' goedkoper is geworden) meteen een x aantal dagen retentie achter je huidige retentie met data die anders verloren was gegaan.

Of bekijk ik het verkeerd?

Ik vraag me vooral af of na de max retentie van de grootste usenetprovider de data echt verloren gaat.

[ Voor 8% gewijzigd door LieveNiels op 25-01-2010 22:04 ]


Verwijderd

Usenet groeit ook dagelijks, posts worden gecrosspost in meerdere groepen. Dat kost een usenetboer ook weer 15GB extra bijv als een dvd in 3 a 4 groepen wordt gezet.

Al met al kom je met 20 a 25 PetaByte wel zo'n beetje in de buurt van een grote usenetboer. En dan heb je de uitval nog van je opslag + de backup-opslag in het geval er ook daadwerkelijk uitval plaatsvind.

Al met al een hele dure business.

  • heuveltje
  • Registratie: Februari 2000
  • Laatst online: 29-11 19:55

heuveltje

KoelkastFilosoof

LieveNiels schreef op maandag 25 januari 2010 @ 21:58:
[...]


Niet zozeer kostbaar voor een usenetprovider als je het vergelijkt met de posts die binnen de retentie vallen. Die moeten namelijk achter een snelle verbinding in allerlei snelle vormen 24/7 beschikbaar zijn. Wat ik bedoel is alles in tweevoud (bijvoorbeeld) offline opslaan, in vergelijking met de data die onder de retentie valt is dat natuurlijk peanuts op het gebied van kosten.

Op deze manier spaar je relatief goedkoop retentie op, en op deze manier zou je dan na een x aantal dagen (zodra het runnen van 'retentie' goedkoper is geworden) meteen een x aantal dagen retentie achter je huidige retentie met data die anders verloren was gegaan.

Of bekijk ik het verkeerd?
Ik run eweka niet, dus ik moet er ook maar naar gokken
Maar je bekijkt het verkeerd denk ik.

Wel degelijk kostbaar voor een USP. want het zijn kosten die je elke dag opnieuw maakt (elke dag opnieuw 5TB aan tapes die hemaakt en opgeslagen moeten wordem) + de behoorlijke investering om uberhaubt dat te kunnen.

Daarnaast levert het niks op, want niemand neemt een abbonement voor iets waar ze niet bijkunnen.

Over je "aanvul argument"
-Harddisk worden idd langzaam goedkoper, maar de datastroom word snel groter.
Dus je moet al vergroten alleen om de groei voor te zijn, laat staan in te lopen.
-Mocht je een al jaar retentie hebben, em dam flink investeren en je storage met 10% uitbreiden, dan betekent dat nog steeds dat als je gewoon wacht je storage binnen een maand al weer vol zit.

Mocht je echt flink investeren en bv van 9naar 12 maanden gaan, dan is het waarschijnlijk nog steeds goedkoper om 1malig een deal met bv giganews aan te gaan, dan jouw storage oplossing.

Heuveltjes CPU geschiedenis door de jaren heen : AMD 486dx4 100, Cyrix PR166+, Intel P233MMX, Intel Celeron 366Mhz, AMD K6-450, AMD duron 600, AMD Thunderbird 1200mhz, AMD Athlon 64 x2 5600, AMD Phenom X3 720, Intel i5 4460, AMD Ryzen 5 3600 5800x3d


  • Punica-
  • Registratie: September 2003
  • Laatst online: 27-11-2023
Verwijderd schreef op maandag 25 januari 2010 @ 22:00:
Usenet groeit ook dagelijks, posts worden gecrosspost in meerdere groepen. Dat kost een usenetboer ook weer 15GB extra bijv als een dvd in 3 a 4 groepen wordt gezet.
Dit klopt in elk geval niet, een (echte) crosspost word maar 1x opgeslagen, niet bijv 3x voor elke groep. Gelukkig is de software tegenwoordig zo slim, anders zou het helemaal belachelijk uit de klauwen lopen.
Al met al een hele dure business.
Dit klopt wel ;)

  • SH4D3H
  • Registratie: Juni 2004
  • Laatst online: 04-10 13:25
Hennie-M schreef op maandag 25 januari 2010 @ 00:08:
[rant] als je ziet dat zo'n beetje elke release, ongeacht het genre) bijna 10x geupload wordt..[/rant]
Als er nou ook nog minimaal een paar weken tussen zou zitten zou het niet eens zo erg zijn.
Maar er zijn zat groepen die een release dezelfde dag nog opnieuw uploaden met hun naam eraan :X

Dat gaat ten koste van de retentie.

Verwijderd

Punica- schreef op maandag 25 januari 2010 @ 22:12:
[...]


Dit klopt in elk geval niet, een (echte) crosspost word maar 1x opgeslagen, niet bijv 3x voor elke groep. Gelukkig is de software tegenwoordig zo slim, anders zou het helemaal belachelijk uit de klauwen lopen.
Vroeger was wel degelijk sprake van crossposts en verbruikte opslag hoor. Inderdaad, nieuwe software weet hier onderscheid uit te maken, maar vroeger was het anders. En inderdaad, postings worden vaak dubbel neergezet, alleen met een andere naam. Usenet is ook heel populair om andere dingen te verspreiden, toename van virussen/trojans is ook enorm toegenomen.

  • Mr. Awesome
  • Registratie: Januari 2006
  • Laatst online: 26-08 18:34

Mr. Awesome

Vroeger hyptonize

En wat denk je van de mislukte uploads? Als je FTD gebruikt zie je vaak zat dat mensen een bestand uploaden maar hun internet uitvalt, dan is je upload kaduuk. Kun je weer opnieuw beginnen, maar die 2GB die er al op staat, blijft er ook opstaan. ;)
En reposts omdat sommige uploads alsnog beschadigd zijn.

[ Voor 10% gewijzigd door Mr. Awesome op 25-01-2010 22:39 ]


  • Punica-
  • Registratie: September 2003
  • Laatst online: 27-11-2023
Verwijderd schreef op maandag 25 januari 2010 @ 22:25:
[...]


Vroeger was wel degelijk sprake van crossposts en verbruikte opslag hoor. Inderdaad, nieuwe software weet hier onderscheid uit te maken, maar vroeger was het anders. En inderdaad, postings worden vaak dubbel neergezet, alleen met een andere naam. Usenet is ook heel populair om andere dingen te verspreiden, toename van virussen/trojans is ook enorm toegenomen.
Het zit iig al in Diablo sinds versie 1, wat al 9 jaar bestaat.

  • SH4D3H
  • Registratie: Juni 2004
  • Laatst online: 04-10 13:25
hyptonize schreef op maandag 25 januari 2010 @ 22:39:
En wat denk je van de mislukte uploads? Als je FTD gebruikt zie je vaak zat dat mensen een bestand uploaden maar hun internet uitvalt, dan is je upload kaduuk. Kun je weer opnieuw beginnen, maar die 2GB die er al op staat, blijft er ook opstaan. ;)
En reposts omdat sommige uploads alsnog beschadigd zijn.
Je kunt met een fatsoenlijk programma als PowerPost gewoon segments re-posten en je upload later hervatten.
Dat zou dus niets uit mogen maken, maar doordat het meer voor 'het grote publiek' is geworden krijg je al dat soort kwaliteitsdalingen.

  • IEF
  • Registratie: Februari 2004
  • Laatst online: 27-11 20:42

IEF

Why so serious?

Als iemand hier een serieuze discussie over wil starten, prima (met betrekking tot gebruikte technieken etc.), maar zoals het topic er nu uitziet loopt het volledig uit de hand. Je kunt ook niet verwachten dat je een onderwerp inkadert met een dergelijke simpele vraag natuurlijk.

Dus, hij gaat dicht.
Pagina: 1

Dit topic is gesloten.