Crawler - Softwareontwikkeling

woensdag 23 september 2015 18:41

Acties:

Topicstarter

Hallo,

Voor het maken van een "vingerafdruk" van een taal voor frequentie analyse van texten die gecodeerd zijn met shifted alphabet etc wil ik wikipedia crawlen. Nu is het de bedoeling dat de software de linken verzameld, text van de pagina analyseerd en dan de volgende link opend. Nu is mijn vraag, kan ik dit zo doen? Of wordt ik dan gebanned door wikipedia (nogal onhandig tegenwoordig

)?

Alvast bedankt!

woensdag 23 september 2015 18:43

Acties:

Gleighton

Kun je niet gewoon de hele dataset van wikipedia downloaden? Geloof dat zie die gewoon zelf aanbieden (is wel groot). Wat heb je zelf al gevonden?

woensdag 23 september 2015 18:44

Acties:

gekkie

Als je op een relatief rustig tempo crawlt zal het wel los lopen op eender welke site.

Maar goed gewoon de dataset downloaden is wel zo simpel, je bent niet de eerste die statistiek bedrijft op de dataset van wikipedia geloof ik

[ Voor 46% gewijzigd door gekkie op 23-09-2015 18:45 ]

woensdag 23 september 2015 19:17

Acties:

tj.jackel

Topicstarter

Hm volgens mij mag het niet.

Please do not use a web crawler[edit]

Please do not use a web crawler to download large numbers of articles. Aggressive crawling of the server can cause a dramatic slow-down of Wikipedia.

Sample blocked crawler email[edit]
IP address nnn.nnn.nnn.nnn was retrieving up to 50 pages per second from wikipedia.org addresses. robots.txt has a rate limit of one per second set using the Crawl-delay setting. Please respect that setting. If you must exceed it a little, do so only during the least busy times shown in our site load graphs at stats.wikimedia.org/EN/ChartsWikipediaZZ.htm. It's worth noting that to crawl the whole site at one hit per second will take several weeks. The originating IP is now blocked or will be shortly. Please contact us if you want it unblocked. Please don't try to circumvent it – we'll just block your whole IP range.If you want information on how to get our content more efficiently, we offer a variety of methods, including weekly database dumps which you can load into MySQL and crawl locally at any rate you find convenient. Tools are also available which will do that for you as often as you like once you have the infrastructure in place.Instead of an email reply you may prefer to visit #mediawiki connect at irc.freenode.net to discuss your options with our team.
Note that the robots.txt currently has a commented out Crawl-delay:

## *at least* 1 second please. preferably more

## we're disabling this experimentally 11-09-2006
#Crawl-delay: 1

Please be sure to use an intelligent non-zero delay regardless.

woensdag 23 september 2015 20:00

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

tj.jackel schreef op woensdag 23 september 2015 @ 19:17:
Hm volgens mij mag het niet.

Je quote notabene zélf dat 't wel mag (maar met restricties). Overigens is het ook handig als je even de bron vermeldt...

Maar zoals de rest ook al aangeeft: gewoon downloaden die hap; wederom notabene op dezelfde pagina die je quote. Dat was werkelijk ontzettend moeilijk te vinden... Waarom moeilijk doen met een crawler

[ Voor 22% gewijzigd door RobIII op 23-09-2015 20:07 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

woensdag 23 september 2015 20:31

Acties:

tj.jackel

Topicstarter

Omdat het me een leuke uitdaging leek om een crawler te maken.

woensdag 23 september 2015 20:52

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

tj.jackel schreef op woensdag 23 september 2015 @ 20:31:
Omdat het me een leuke uitdaging leek om een crawler te maken.

Gaat het je nou om "frequentie analyse van texten die gecodeerd zijn met shifted alphabet etc" of om de crawler

Want zoals ik je topicstart lees is de crawler "a means to an end" ofwel een 'noodzakelijk kwaad om je doel te bereiken' (uitgaande van het feit dat je niet wist dat je wikipedia's data kan downloaden en dus helemaal geen crawler nodig hebt).

Verder is je vraag ook helemaal niet "hoe bouw ik een crawler" (daar kom ik zo op terug) maar "kan ik dit zo doen? Of wordt ik dan gebanned door wikipedia" waarop het antwoord, zoals eerder aangegeven, is: ongewenst, dataset downloaden, ja je wordt gebanned als je overlast veroorzaakt.

Als je vraag is: hoe bouw ik een crawler: [google="build a crawler <je taal hier>"]. We doen hier niet aan scriptrequests noch kan iemand even uitleggen/voordoen/opzet geven/whatever. Je bent van harte welkom met een concrete vraag in Programming maar verder dan dat: in de Devschuur® hebben we 't over zélf maken en we kunnen/willen je best in de juiste richting wijzen mits de juiste vragen stelt en een topic opent dat voldoet aan de uiteengezette eisen in de Quickstart.

Komt nog eens bij dat het veel fijner is om iemand te helpen die zelf ook zo-nu-en-dan eens wat bijdraagt in een topic van een ander en niet alleen maar voor z'n eigen "gewin" komt helpdesken. En dit alles is niet voor 't eerst dat we je daarop wijzen.

[ Voor 10% gewijzigd door RobIII op 23-09-2015 20:57 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij