Ik zeg ook nergens dat de inhoud van een useragent string iets met beveiliging te maken heeft. Dat een useragent makkelijk te faken is, is wel algemeen bekend.
Het kan wel als een extra'tje gebruikt worden voor spiders als google, msn, yahoo etc.. Spiders die zich houden aan de response. Maar als je een jat-spider inzet, heb je daar natuurlijk als maker kompleet lak aan.
De techniek achter een site als jaap is gewoon simpel. Je download een spider, en je laat zo'n ding lekker z'n ding doen. Daarna een aantal filters er bij, en klaar (even grof weg gezegd).
Ook een site als jaap.nl is spiderbaar, alleen moet je dan wel een spider hebben die ajax ondersteund.
Het is gewoon een feit dat geen enkele beveiliging 100% waterdicht is. Je kan het men wel zo moeilijk mogenlijk maken, maar alles is te omzeilen.
quote:
Nope. HTML is geen programmeer/script-taal. Het parsen/verwerken van de data bij een spider-run ontbreekt dan.
quote:
Je gaat er vanuit dat ik geen HTML kan lees ik

Nu kan ik dat wel en heb ik ook wel basis kennis van PHP en MySQL dus ik ga er zowieso mijn best voor doen.
Ah.. dan weet je dus precies wat een spider doet, gewoon pagina's ophalen, en ergens opslaan voor verwerking

quote:
Het is voor mij meer de vraag in hoeverre dit complex is, als ik lees dat Jaap meerdere spiders heeft die elk afzonderlijk werken en geprogrammeerd zijn heb ik het idee dat dit niet door iemand met enige kennis van HTML te creeeren is maar shoot me if im wrong

Dat zou kunnen, maar het lijkt mij meer logisch om 1 spider te gebruiken om een pagina op te vragen, en het door verschillende parsers te ontleden. Althans, zo zou ik het doen.
Op het moment dat een site dan de lay-out aanpast, kan je de spider blijven gebruiken, en hoef je enkel de juiste parser aan te passen.
En in hoeverre dat complex is, dat ligt aan de kennis die je hebt. Ik vind dingen complex die andere koek en ei vinden, en andersom.
RaZ wijzigde dit bericht 17-05-2008 15:46 (44%)