[JS] Links extraheren uit source - Softwareontwikkeling

dinsdag 3 februari 2004 00:23

Acties:

Verwijderd

Topicstarter

Ik heb een stukje content. Hierin zitten diverse links verwerkt, en deze wil ik indexeren om vervolgens een link checker mee te bouwen.

Om links uit een anchor tag te halen kun je simpel door de hele collectie loopen, maar ik loop tegen een ander probleempje aan. Onclick, location.href, location.replace, css files, etc. etc.

Nu zou ik dit serverside kunnen doen, lekker makkelijk, maar met een hoop concurrent users op een systeem levert dit een shitload aan performance hits op. Met de huidige werkstations leg ik deze indexering liever aan de client kant.

Eigenlijk komt het hier op neer, hoe maak ik zo effectief mogelijk een indexering aan van alle mogelijke verwijzingen naar een url, zowel absoluut als relatief, aan.

Nog mooier zou zijn als het wiel al was uitgevonden, maar ik kon helemaal niets vinden dat zo ver ging. Wellicht dat de huidige browser engines kunnen worden aangesproken om een indexering terug te krijgen van de links, en anders wordt het lomp zoekwerk met indexOf en wat loop werk.

dinsdag 3 februari 2004 00:28

Acties:

crisp

Devver

Pixelated

binnen scripting is het redelijk ondoenlijk om alle links eruit te filteren; je geeft het zelf al een beetje aan, maar wat dacht je hiervan:

JavaScript:

1 2	var url='http://www.tweakers.net'; window.open(url);

of preloaders:

JavaScript:

1
2
3

var img1src = 'bla.gif';
var img1 = new Image();
img1.src = img1src;

Je kan dus naar mijn mening nooit alles afvangen; ik zou gewoon de 20/80 rule toepassen...

Intentionally left blank

dinsdag 3 februari 2004 01:11

Acties:

SchizoDuckie

Kwaak

Misschien een raar idee hoor, maar als je dit toch al aan de client kant wil laten uitvoeren betekent dit dus dat je links pas wil checken op het moment dat er ook daadwerkelijk content opgevraagd wordt?

Kan je niet gewoon een goeie 404 error handler schrijven? da's daar voor gemaakt namelijk

Dat checkt uiteraard nog geen externe links, maar ook daar is server-side checken efficienter in lijkt me (mits je uiteraard een soort van caching systeem bijhoudt waarin externe links bijvoorbeeld maar eens per dag of per week gechecked worden)

Stop uploading passwords to Github!

dinsdag 3 februari 2004 10:59

Acties:

Verwijderd

Topicstarter

crisp schreef op 03 februari 2004 @ 00:28:
binnen scripting is het redelijk ondoenlijk om alle links eruit te filteren; je geeft het zelf al een beetje aan, maar wat dacht je hiervan:
JavaScript:
1
2
var url='http://www.tweakers.net';
window.open(url);
of preloaders:
JavaScript:
1
2
3
var img1src = 'bla.gif';
var img1 = new Image();
img1.src = img1src;
Je kan dus naar mijn mening nooit alles afvangen; ik zou gewoon de 20/80 rule toepassen...

Het wordt inderdaad een flinke klus, maar ik wil het voor de uitdaging wel zowiezo proberen. Ik zat te denken aan het splitten van de content (document.body.innerHTML) op " ", en daarna per index te kijken wat de procentuele kans is op een url.

Die komen dan in een 2de array, waar een betere controle plaatsvindt.

dinsdag 3 februari 2004 16:11

Acties:

Verwijderd

http://validator.w3.org/checklink ?

dinsdag 3 februari 2004 16:36

Acties:

André

Analytics dude

Verwijderd schreef op 03 februari 2004 @ 16:11:
http://validator.w3.org/checklink ?

Anne, heel gaaf dit, zoiets zit ook in frontpage maar dat gebruik ik toch maar liever niet.

Blijft wel een feit dat deze checker ook niet met JS links om kan gaan, hij geeft zelfs een foutboodschap.