YaCY is een decentrale zoekmachine en bestaat al een tijdje. Ik kon er zo snel geen bestaand topic over vinden, dus ik open er zelf maar eentje.
Nu dat het stof rondom het Facebook schandaal wat begint neer te dwarrelen ben ik eens rond gaan kijken naar mijn eigen afhankelijkheid van de "grote jongens". Eén van die afhankelijkheden is natuurlijk de zoekmachine. "Googlen" is niet voor niets een werkwoord. Het is gewoon verreweg de meest dominante speler. En ondertussen wordt er een nauwkeurig profiel bijgehouden van je doen en laten.
Ik gebruik daarom al een tijdje DuckDuckGo en dat bevalt best goed. Als ik onverhoopt nog steeds Google nodig heb, is dat slechts een extra !g weg, wat deze engine heel flexibel maakt.
Maar toen ik weer eens YaCy tegenkwam dacht ik: "ja, een decentrale index is eigenlijk best een goed idee".
Dus ik ben al wat enthousiast aan het indexeren geslagen. Waaronder bij een aantal grotere sites, zoals tweakers, de NOS, 1Limburg en OMGUbuntu. Daar merk ik een aantal dingen bij op:
Nu dat het stof rondom het Facebook schandaal wat begint neer te dwarrelen ben ik eens rond gaan kijken naar mijn eigen afhankelijkheid van de "grote jongens". Eén van die afhankelijkheden is natuurlijk de zoekmachine. "Googlen" is niet voor niets een werkwoord. Het is gewoon verreweg de meest dominante speler. En ondertussen wordt er een nauwkeurig profiel bijgehouden van je doen en laten.
Ik gebruik daarom al een tijdje DuckDuckGo en dat bevalt best goed. Als ik onverhoopt nog steeds Google nodig heb, is dat slechts een extra !g weg, wat deze engine heel flexibel maakt.
Maar toen ik weer eens YaCy tegenkwam dacht ik: "ja, een decentrale index is eigenlijk best een goed idee".
Dus ik ben al wat enthousiast aan het indexeren geslagen. Waaronder bij een aantal grotere sites, zoals tweakers, de NOS, 1Limburg en OMGUbuntu. Daar merk ik een aantal dingen bij op:
- Die indexes lopen snel op. Op dit moment zit ik 12GB aan opslag. Dit kan met name bij een VPS snel aantikken.
- Sowieso is de documentatie voor het opzetten van YaCy op een VPS wat karig. Ik heb het vooralsnog niet aan de praat gekregen.
- Het verbruikt standaard bijzonder weinig resources van je systeem. Dat maakt het indexeren trager, maar meerdere sites crawlen is zeker doenbaar.
- Tweakers vindt crawlers duidelijk niet leuk. Blijkbaar negeren de standaard settings van YaCY de robot.txt. Dit ben ik momenteel nog aan het uitzoeken en ik heb een unblock al aangevraagd
