'Obscure' websites detecteren

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

  • Sponge
  • Registratie: Januari 2002
  • Laatst online: 20-09 19:05

Sponge

Serious Game Developer

Topicstarter
Hi,

Ik ben bezig met een (PHP) 'hobby' webapplicatie waarbij ik zoveel mogelijk geautomatiseert wil hebben. Een van de onderdelen is de spider/indexer. Deze spider navigeert en indexeert netjes over de links die het tegenkomt, rekeninghoudend met serverload en robots.txt.

Echter is er een potentieel probleem:

Als de spider een link tegenkomt naar www.een18plussite.com, dan gaat deze natuurlijk ook gewoon geindexeerd worden (inclusief weer links naar andere sites). Iets wat ik toch enigszins wil voorkomen. Wellicht ga ik sowieso nog een handmatige controle doen op de URL's (en dan alleen kijken naar domeinnamen), maar het zou toch wel handig zijn als dit grotendeels vanzelf kon - zonder al te veel false positives.

Nu kwam ik de Google safe browsing API tegen, maar die gaat alleen over phishing/malware sites. Verder heb ik niet echt wat kunnen vinden behalve software om je internet verbinding 'schoon' te houden voor kinderogen ;).

Uiteraard kan ik gewoon zoeken op bepaalde keywords, maar de kans op fouten is enorm. Wellicht zat ik nog te denken aan een verhouding "foute woorden" tov. de totale content.

Heeft iemand suggesties? Of al eens iets hiervoor bedacht?

Acties:
  • 0 Henk 'm!

  • Voutloos
  • Registratie: Januari 2002
  • Niet online
Doe eens 1 stapje terug:
Waarom wil je nu bepaalde sites indexeren? Is dat puur om het een keer gemaakt te hebben of heb je nog meer criteria? :)

{signature}


Acties:
  • 0 Henk 'm!

  • Sponge
  • Registratie: Januari 2002
  • Laatst online: 20-09 19:05

Sponge

Serious Game Developer

Topicstarter
Uiteindelijk zal er een zoekfunctie op de site zitten ;). Maar voornamelijk ook een globaal overzicht hoe sites aan elkaar gekoppeld (parent, children) zijn en in dat globale overzicht kan dus opeens een hele boomstructuur met 18+ sites komen te staan, en dat heb ik liever zo min mogelijk :).

Acties:
  • 0 Henk 'm!

  • CyBeR
  • Registratie: September 2001
  • Niet online

CyBeR

💩

Pornosites zijn over 't algemeen niet bepaald obscuur, dus waarom wil je die dan detecteren?

All my posts are provided as-is. They come with NO WARRANTY at all.


Acties:
  • 0 Henk 'm!

  • Sponge
  • Registratie: Januari 2002
  • Laatst online: 20-09 19:05

Sponge

Serious Game Developer

Topicstarter
Ik wil dus in mijn database icm. Xapian niet te veel pornosites e.d. hebben, puur omdat ik er zo min mogelijk 18+ materiaal er tussen wil hebben. Om maar even een grafisch voorbeeldje erbij te pakken: Zoeken op google images met "teen" geeft geen problemen an sich. Je ziet wat Miss <type> awards e.d. en wat voeten :P. Zet je de safe search uit (stond op gemiddeld), dan wordt het toch net iets minder "safe for work".

En dat is dus precies wat ik zo een beetje wil voorkomen. Uiteindelijk moet deze web applicatie public draaien ( met een paar disclaimers...) maar het moet niet zo zijn dat je altijd de foute dingen tegen gaat komen...

Acties:
  • 0 Henk 'm!

  • McVirusS
  • Registratie: Januari 2000
  • Laatst online: 18-09 12:01
Heeft Google geen API waar je Safesearch resultaten mee kan zoeken? Dan kan je gewoon kijken of er resultaten terugkomen als je zoekt op site:sex.nl bijvoorbeeld. Met Safesearch op streng komen daar geen resultaten mee terug op Google.

Acties:
  • 0 Henk 'm!

  • Kalentum
  • Registratie: Juni 2004
  • Laatst online: 18:07
Wat je ook kan doen is een filter gebruiken.

Je zou bv DNS-servers die je gebruikt op de computer waar die spider op staat kunnen omzetten naar Opendns.com. Je kan daar instellen dat je geen adult sites wilt zien. Als je naar een adult site gaat, krijg je een waarschuwingspagina van opendns.com terug. Op die manier hoef je niet zelf te filteren.

Ik had net even getest en in de meest stricte instelling wordt zelfs got geblokkeerd :?

[ Voor 13% gewijzigd door Kalentum op 14-08-2010 13:38 ]


Acties:
  • 0 Henk 'm!

  • moto-moi
  • Registratie: Juli 2001
  • Laatst online: 09-06-2011

moto-moi

Ja, ik haat jou ook :w

De eerste vraag die ik blijf houden is 'waarom wil je zelf een crawler schrijven', ten tweede zou je voor de oplossing voor je probleem naar safe-for-kids websites kunnen kijken en zien of je daar op de een-of-andere manier op een legale manier gebruik van kan maken, door bijv. hun tool te installeren voor je crawler of door hun blocked website lijst te vinden.

God, root, what is difference? | Talga Vassternich | IBM zuigt


Acties:
  • 0 Henk 'm!

  • Dorgaldir
  • Registratie: September 2009
  • Laatst online: 10-04 22:52

Dorgaldir

Creature of the web

ik weet niet of je er iets aan hebt maar als je nu in de publieke zoekresultaten een "report" knopje zet word het simpeler om de porno sites eruit te filteren, op voorwaarde dat je gebruikers weten hoe en waneer je een report knopje moet gebruiken natuurlijk

Just me


Acties:
  • 0 Henk 'm!

  • Sponge
  • Registratie: Januari 2002
  • Laatst online: 20-09 19:05

Sponge

Serious Game Developer

Topicstarter
@rutgerw, daar had ik nog niet aan gedacht. Ik zal eens kijken naar die DNS oplossing ('FamiliyShield'). Als dat een beetje degelijk werkt, dan hoef ik er niet eens een regel aan te programmeren.

@moto-moi: Je maakt zelf nooit eens prototypes van ideetjes wat je hebt? Soms zijn bestaande spiders net niet wat je wilt hebben, ik heb er al met een aantal gewerkt. Ik had al eens een spider gemaakt een aantal jaar geleden, maar die heb ik nu herschreven naar cURL. Erg prettig met PHP ipv file_get_contents ;).

Overigens is het idee om zo'n programma als proxy te gebruiken ook een goed idee, vergelijkbaar met rutgerw.Als dat idee niet werkt, dan ga ik het daarmee maar eens proberen. (Maar dat ga ik dan wel in een VM doen. :P)

@Galen: Report knopje komt er sowieso. Maar wat ik op de achtergrond van de webapp doe is behoorlijk CPU intensief en iets weghalen kan behoorlijk wat te weeg brengen (tenzij ik eerst de nodes gewoon blanco maak..) :).

Acties:
  • 0 Henk 'm!

  • mindcrash
  • Registratie: April 2002
  • Laatst online: 22-11-2019

mindcrash

Rebellious Monkey

Veel 'obscure' websites hebben ook een "rating" meta tag op de pagina's staan met de waarde: RTA-5042-1996-1400-1577-RTA. Op basis van deze tag kun je dus pagina's met 'obscure' content filteren (dit doen commerciële filterproducten trouwens ook).

Zie ook rtalabel.org

[ Voor 9% gewijzigd door mindcrash op 14-08-2010 14:29 ]

"The people who are crazy enough to think they could change the world, are the ones who do." -- Steve Jobs (1955-2011) , Aaron Swartz (1986-2013)


Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Gebruik gewoon OpenDNS of 1 van de vele alternatieven; dan heb je gewoon een publiek onderhouden blacklist/whitelist welke aardig up to date blijft. 100% sluitend zul je het nooit krijgen, dat is één ding dat zeker is. Je zou nog de content kunnen 'scannen' op een shitload aan keywords maar ook daarmee zul je het niet waterdicht krijgen of eerder false positives gaan krijgen.

Overigens zijn er ook zat lijsten met domeinen te vinden voor proxies als (Safe)Squid, IPCop en whatnot welke je eventueel ook zou kunnen gebruiken. Let wel even op het toegestane gebruik in alle gevallen!

[ Voor 21% gewijzigd door RobIII op 14-08-2010 14:47 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Acties:
  • 0 Henk 'm!

  • Sponge
  • Registratie: Januari 2002
  • Laatst online: 20-09 19:05

Sponge

Serious Game Developer

Topicstarter
Ik zit even met OpenDNS te testen, en het werkt best wel goed :). Komt ook gewoon netjes een 404 uit rollen, dus dan hoeft er verder niet eens wat aan de indexer code gedaan te worden!
Pagina: 1