Momenteel heb ik van meerdere sites enkele duizenden html-pagina's.
Nu haal ik er al informatie uit via boilerpipe etc. Maar de meeste van die methodes zijn meer gericht op 1 stuk tekst en daar de info uit halen, alhoewel dat best mooi werkt wilde ik eigenlijk ietsje verder gaan doordat ik simpelweg meer info heb dan 1 pagina.
Ik heb zeg maar een duizend pagina's van google-results, dan kan ik handmatig zien dat de menubalk bijna altijd gelijk is en dus geen relevante info zal bevatten. Maar hoe destilleer ik dit uit 1000'en files?
Qua aanpak had ik iets volgt voor ogen :
1: per pagina alle attributen / javascript verwijderen (vanwege sessie id's / google analytics grappen etc)
2: (optioneel) per pagina onderverdelen in block-level tags.
3: een duizend-way diff doen
en dan de gelijke delen opslaan.
Maarja hoe doe je die duizend-way diff en hoe voorkom je dat 1 uitzondering (contact-pagina bijv) de rest overhoop gooit.
Nu was mijn huidige idee :
- Herschrijf alle url's met get-waarden naar alfabetisch gesorteerde getwaardes als directory (vb : google.nl/index.php?search=wat&browser=fire -> google.nl/index.php/browser=fire/search=wat) zodat ik soortgelijke pagina's bij soortgelijke pagina's heb ongeacht de volgorde van de get-waardes.
- Ga dan op het laagste nivo beginnen en vergelijk blocklevel voor blocklevel per pagina voor pagina.
- Ga dan een directory omhoog en vergelijk de templates verkregen uit de vorige stap met elkaar.
Aan het einde remove per nivo de templates van de html pagina en je zou enkel maar de relevante info over moeten houden...
Alhoewel dit volgens mij best wel moet werken zit ik met toch af te vragen of er niet een handiger methode is dan dit brute-forcen. Iemand een goed idee?
Nu haal ik er al informatie uit via boilerpipe etc. Maar de meeste van die methodes zijn meer gericht op 1 stuk tekst en daar de info uit halen, alhoewel dat best mooi werkt wilde ik eigenlijk ietsje verder gaan doordat ik simpelweg meer info heb dan 1 pagina.
Ik heb zeg maar een duizend pagina's van google-results, dan kan ik handmatig zien dat de menubalk bijna altijd gelijk is en dus geen relevante info zal bevatten. Maar hoe destilleer ik dit uit 1000'en files?
Qua aanpak had ik iets volgt voor ogen :
1: per pagina alle attributen / javascript verwijderen (vanwege sessie id's / google analytics grappen etc)
2: (optioneel) per pagina onderverdelen in block-level tags.
3: een duizend-way diff doen
Maarja hoe doe je die duizend-way diff en hoe voorkom je dat 1 uitzondering (contact-pagina bijv) de rest overhoop gooit.
Nu was mijn huidige idee :
- Herschrijf alle url's met get-waarden naar alfabetisch gesorteerde getwaardes als directory (vb : google.nl/index.php?search=wat&browser=fire -> google.nl/index.php/browser=fire/search=wat) zodat ik soortgelijke pagina's bij soortgelijke pagina's heb ongeacht de volgorde van de get-waardes.
- Ga dan op het laagste nivo beginnen en vergelijk blocklevel voor blocklevel per pagina voor pagina.
- Ga dan een directory omhoog en vergelijk de templates verkregen uit de vorige stap met elkaar.
Aan het einde remove per nivo de templates van de html pagina en je zou enkel maar de relevante info over moeten houden...
Alhoewel dit volgens mij best wel moet werken zit ik met toch af te vragen of er niet een handiger methode is dan dit brute-forcen. Iemand een goed idee?