Toon posts:

[MYSQL] Links in DB controleren

Pagina: 1
Acties:

Verwijderd

Topicstarter
Wij beheren een startportal en alle links daarvan staan in een database. Nu zullen er ongetwijfeld dead links in de database staan. Is er een script om te controleren of er achter een url nog daadwerkelijk een site hangt. Het is voor ons niet te doen om dit handmatig te doen aangezien het meer als 50.000 links zijn.
Ik hoop dat iemand hiervoor een script heeft of een idee hoe ik dit zou moeten aanpakken.

Verwijderd

een socket openen waarbij je kijkt of je response terug krijgt. Zo niet: zet je je primary key op de stack en aan het eind drop je die uit de db. Misschien de parsetime van de pagina wat omhoog gooien want 50.000 is wel redelijk wat...

  • Gert
  • Registratie: Juni 1999
  • Laatst online: 05-12-2025
Een 404 is ook een response. Ik zou dus naar de header kijken, hoewel zelfs dat niet waterdicht is aangezien een redirect naar een of andere zoekpagina ook een dode link kan zijn.

  • Creepy
  • Registratie: Juni 2001
  • Laatst online: 21:50

Creepy

Tactical Espionage Splatterer

Verwijderd schreef op donderdag 08 september 2005 @ 11:43:
Ik hoop dat iemand hiervoor een script heeft of een idee hoe ik dit zou moeten aanpakken.
Dat eerste is hier niet de bedoeling. Dat zien we namelijk als een scriptrequest ;) Zie ook P&W FAQ - Scriptrequests

Maar het zelf maken is hier natuurlijk wel de bedoeling :) Het lijkt me een kleine moeite om een connectie te openen naar de URL en te kijken wat voor response je van de webserver terugkrijgt.

"I had a problem, I solved it with regular expressions. Now I have two problems". That's shows a lack of appreciation for regular expressions: "I know have _star_ problems" --Kevlin Henney


Verwijderd

Topicstarter
Hoe zou ik dat moeten aanpakken dan, naar de header kijken?

Verwijderd

Verwijderd schreef op donderdag 08 september 2005 @ 12:07:
Hoe zou ik dat moeten aanpakken dan, naar de header kijken?
Ja, dat lijkt me logisch. Een HTTP server zou een 404 header moeten teruggeven als een pagina niet (meer) bestaat. Als je het meteen goed aanpakt, kijk je meteen of er redirect headers of andere interessante gegevens bij zitten. Een redirect header zou erop kunnen wijzen dat een URL veranderd is, of dat er ergens anders nieuwere gegevens zijn.

Overigens is het nogal vreemd dat je als beheerder van een portal zo weinig van het HTTP protocol weet. Daar zou ik me dus maar eens in gaan verdiepen.

  • mosymuis
  • Registratie: Maart 2002
  • Laatst online: 07-01 19:39
Voor een overzichtelijke lijst met de HTTP status meldingen die je krijgt, klik je hier.
Pagina: 1