Hardware.info met veel status 410 en verdwenen content

Pagina: 1
Acties:

Acties:
  • +1 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
Ik merk dat het hardware.info archief nu minder pagina's bevat dan voorheen.
Pagina's die voorheen bestonden krijgen nu een 410 status code (permanent verwijderd).

Bijvoorbeeld:
https://nl.hardware.info/...0-14isk-80r50073uk.355473

Hiermee voldoet het niet meer aan de 'archief' functie:
Deze site wordt niet meer voorzien van updates en je kijkt nu naar een archief.
1)
Ik vind het zonde als dit stukje geschiedenis definitief verdwijnt. Hebben jullie nog een kopie die we bijvoorbeeld op Torrent kunnen zetten of op een andere manier in leven kunnen houden, bijvoorbeeld via een CDN cache? Aangezien er niets meer bijkomt kunnen bijna alle functies (zoals filters) - uitgezonderd zoeken op ingetypte tekst - statisch worden, dus passen prima op een CDN.

2)
Waarom leidt de link niet naar de juiste pagina op Tweakers?
Dan kan het een 308 worden in plaats van een 410, want wellicht ook iets voor SEO oplevert; nog beter gericht traffic naar Tweakers.net

3)
Ook stonden er op HWI producten die niet op Tweakers staan:
https://tweakers.net/pric...ord=lenovo-yoga-500-14isk
geeft niet een 80R50073UK versie bijvoorbeeld.
Dus zou het mooi zijn als PriceWatch vanuit historisch perspectief wordt aangevuld met die ontbrekende data. En dan eventueel (als dat niet al lang gedaan is) PriceWatch op de achtergrond splitsen in dingen die nog te koop zijn en dingen die niet meer te koop zijn i.v.m. performance / andere zoekdoelen.

4)
De data die verdwijnt lijkt willekeurig?
https://nl.hardware.info/...xy-a51-128gb-black.563547
https://nl.hardware.info/...axy-a51-128gb-blue.563545
https://nl.hardware.info/...y-a51-128gb-silver.587467
https://nl.hardware.info/...xy-a51-128gb-white.563499

[ Voor 16% gewijzigd door djwice op 01-06-2024 13:46 ]

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • 0 Henk 'm!

  • Kees
  • Registratie: Juni 1999
  • Laatst online: 22:58

Kees

Serveradmin / BOFH / DoC
1) Ik was een aantal producten vergeten in de dump, die heb ik er net even heen gezet, blijkbaar over het hoofd gezien. De dump is nu completer. Ook archive.org heeft een dump met alle data.

2) Omdat het archief een statische site is, de pagina bestaat of niet, en als hij niet bestaat dan bestond hij vroeger vast ooit wel en nu niet meer, dus een 410 Gone is op zijn plaats

3) We gaan geen tijd stoppen in het toevoegen van producten die niet meer verkocht worden. En het is niet eenvoudig om 'eventjes' de database van hwi in tweakers te gooien (wat ook een van de redenen is dat we ermee gestopt zijn, we moesten twee verschillende databases onderhouden met elk hun eigen processen).

"Een serveradmin, voluit een serveradministrator, is dan weer een slavenbeheerder oftewel een slavendrijver" - Rataplan


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
Hoi Kees,

Ik zag veel 410 pagina's voor dingen die wel in de sitemap stonden, of via de navigatie bereikbaar waren, zoals de telefoon onder punt 4) in m'n openings post. Vandaar.
Dank je dat je de aanvulling gevonden en gedaan hebt!

De pagina's die ik afgelopen week op archive.org van HWI vond was verre van compleet (1/8 tot zeker geen 50% van de pagina's in de sitemap).
Ik zoek wellicht verkeerd? Of is die recent bijgewerkt?

[ Voor 3% gewijzigd door djwice op 04-06-2024 14:32 ]

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • +2 Henk 'm!

  • Kees
  • Registratie: Juni 1999
  • Laatst online: 22:58

Kees

Serveradmin / BOFH / DoC
Archive.org is er nog mee bezig, maar die gaan behoorlijk langzaam te werk. Dan heb je het over een paar miljoen url's die ze met 10 per minuut crawlen. Ze zijn in februari begonnen en nu nog niet klaar :/

Ik zie ook al wat er niet goed ging. Blijkbaar had ik alleen producten met prijzen gepakt in plaats van alle producten (verkeerde tabel). Dat is nu gefixt. De telefoons die je linkte onder 4 hebben 3 een prijs en 1 niet.

[ Voor 35% gewijzigd door Kees op 04-06-2024 14:36 ]

"Een serveradmin, voluit een serveradministrator, is dan weer een slavenbeheerder oftewel een slavendrijver" - Rataplan


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
Ah, thanks! Mooi dan is archive.org eventually complete :)

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
Kees schreef op dinsdag 4 juni 2024 @ 14:35:
Archive.org is er nog mee bezig, maar die gaan behoorlijk langzaam te werk. Dan heb je het over een paar miljoen url's die ze met 10 per minuut crawlen. Ze zijn in februari begonnen en nu nog niet klaar :/
In neem aan dat je de HWI site nu in iets als Varnish cache hebt zitten en flat files gebruikt als source, maar wellicht staat de 'oude' raid limiter configuratie er nog voor die de database tegen overbelasting moest beschermen en is archive.org daarom zo traag met binnenhalen?

... ik realiseer me nu net dat HWI natuurlijk vele tientallen GB's groot is met al die plaatjes, dus geen idee of dat uberhaupt in een Varnish (RAM) cache zou passen 8)7 ...

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • +1 Henk 'm!

  • Kees
  • Registratie: Juni 1999
  • Laatst online: 22:58

Kees

Serveradmin / BOFH / DoC
Het archief is nu zo'n 250G groot aan flat files, dus zonder php oid. Dat pas wel in de ram, maar 98% ervan zal nooit meer opgevraagt worden. Het staat dus gewoon in een s3-like bucket.

En nee, archive.org kreeg geen ratelimiting en had makkelijk 1000 keer meer requests per minuut kunnen doen dan ze nu deden.

"Een serveradmin, voluit een serveradministrator, is dan weer een slavenbeheerder oftewel een slavendrijver" - Rataplan


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
Ah cool, https://min.io/ ofzo :)
Ah, dus archive.org beperkt zichzelf, wellicht om zo te zorgen dat ze kunnen garanderen dat andere sites niet worden overbelast. Op zicht vriendelijk uitgangspunt.


Ik zie dat bijvoorbeeld https://nl.hardware.info/...ire-5-a515-57-56xg.651909 die wel in de sitemap stond nu (nog) een 410 geeft.

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • 0 Henk 'm!

  • Qwerty-273
  • Registratie: Oktober 2001
  • Laatst online: 20:20

Qwerty-273

Meukposter

***** ***

Wacht je nu op de standaard webcrawler van archive.org om de website in te laden, dat kan inderdaad behoorlijk lang duren. Geen idee of met de api's je dat kan versnellen (vast wel maar daar zit je ook met een behoorlijke learning curve), of dat je dan eigenlijk alleen uitkomt bij de gerelateerde Archive-It oplossing met een prijskaartje.

https://help.archive.org/help/archive-whole-web-sites/

Erzsébet Bathory | Strajk Kobiet | You can lose hope in leaders, but never lose hope in the future.


Acties:
  • +2 Henk 'm!

  • DaFeliX
  • Registratie: December 2002
  • Laatst online: 16:25

DaFeliX

Tnet Devver
Qwerty-273 schreef op vrijdag 7 juni 2024 @ 08:06:
Wacht je nu op de standaard webcrawler van archive.org om de website in te laden, dat kan inderdaad behoorlijk lang duren. Geen idee of met de api's je dat kan versnellen (vast wel maar daar zit je ook met een behoorlijke learning curve), of dat je dan eigenlijk alleen uitkomt bij de gerelateerde Archive-It oplossing met een prijskaartje.

https://help.archive.org/help/archive-whole-web-sites/
We wachten niet op de standaard crawler, we hebben archive.org benaderd (en betaald) en staan in direct contact met ze. Dat is ook waarom we stellig kunnen zeggen dat ze er mee bezig zijn :)

Einstein: Mijn vrouw begrijpt me niet


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
DaFeliX schreef op vrijdag 7 juni 2024 @ 12:55:
[...]


We wachten niet op de standaard crawler, we hebben archive.org benaderd (en betaald) en staan in direct contact met ze. Dat is ook waarom we stellig kunnen zeggen dat ze er mee bezig zijn :)
Vanochtend gecheckt minder dan 40% van de HTML pagina's staan in archive.org.
En minder dan 2,5% van de sub-content (embedded content).
Wellicht komt dat deels doordat er eerder 410 werd terug gegeven voor content die wel in de sitemap staat/stond. Ook kreeg veel sub-content een 410, ook als de html wel live stond.

[ Voor 18% gewijzigd door djwice op 07-06-2024 13:36 ]

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
@Kees Zou het de snelheid van archive.org te versnellen door de sitemap bestanden opnieuw live te zetten?
Kijkend naar
https://web.archive.org/w...hardware.info/sitemap.xml
lijkt deze vanaf april ook een 410 te geven.

Maar goed - als dat zou uitmoeten - zou je in de logs vóór april natuurlijk wel een hogere snelheid moeten zien dan in april en mei.

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
@Kees Ik keek op https://www.ssllabs.com/s...t&s=213.239.154.31&latest en zie dat hardware.info en *.hardware.info ook daar in het certificaat zit.
Heeft het tweakers.net IP-adres ook een (minder beperkende) aangepaste raid-limit voor archive.org?

Ik heb er geen verstand van, maar dacht wellicht heeft het invloed op hoe archive.org er mee om gaat.
(bijvoorbeeld neem het minimale van alle raid-limiters die je op een domein tegenkomt).

Weet dat ik dit goed bedoel, ik denk namelijk dat ik eigenlijk dingen zeg die jij al lang bekeken heb, maar wie weet dat mijn onwetendheid hierin toch kan helpen :)

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
@Kees / @Qwerty-273 Ik keek op archive.org en zie dat op 1 dag de homepage meerdere keren wordt gecrawlt. Ik heb naar de HTTP header gekeken en zie daar


Date:
Mon, 24 Jun 2024 05:31:49 GMT
Etag:
"gz[24849-616c2cc03b097]"
Expires:
Mon, 24 Jun 2024 05:31:49 GMT
Last-Modified:
Tue, 23 Apr 2024 12:36:02 GMT


Wellicht helpt het de snelheid van indexeren van de inmiddels niet meer veranderende website, als de Last-Modified naar de werkelijke laastste modificatie verwijzen en Expires heel ver in de toekomst.

En dit voor alle pagina's, eigenlijk zoals jullie al bij de binaries gedaan hebben;
https://hardware.info/images/productgroups/125x75/8.png (ook op de homepage):
Date:
Mon, 24 Jun 2024 05:37:44 GMT
Etag:
"255a-5fdb59fa74240"
Expires:
Sun, 04 Jun 2034 12:00:49 GMT
Last-Modified:
Fri, 09 Jun 2023 17:23:13 GMT


Wellicht helpt deze tip :)

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/


Acties:
  • 0 Henk 'm!

  • Rinzwind
  • Registratie: Juli 2000
  • Laatst online: 02-05 08:22
*knip* Dit voegt niets meer toe

[ Voor 87% gewijzigd door Gonadan op 18-08-2024 18:33 ]


Acties:
  • 0 Henk 'm!

  • djwice
  • Registratie: September 2000
  • Niet online
@Rinzwind
Een deel van Tweakers (nog geen 5%) is gerepliceert in publieke archieven.

Het is zeer waardevol voor taal modellen omdat er weinig (geen?) andere Nederlandse tech fora zijn waar zo veel mensen in het Nederlands met elkaar over tech praten.

Het is ook mooi dat het al vele jaren zo is, dat helpt het model de taal ontwikkeling te leren, en ook de ontwikkeling van individuen: hoe verandert de taal van jeugdig naar senior IT rol.

Dit is dus zeer waardevol voor Nederland en haar taal/cultuur.

Daarom zijn modellen die de Tweakers data mee hebben kunnen nemen ook in het Nederlands redelijk goed in tech antwoorden. Het klinkt natuurlijker dan in talen waar zulke data niet beschikbaar is.

[ Voor 16% gewijzigd door djwice op 18-08-2024 18:36 ]

Mijn LEGO MOC's met PDF bouwinstructies en stop-motion animaties vind je op https://rebrickable.com/users/BrickDesignerNL/mocs/

Pagina: 1