Webcrawler die zoekt naar termen in broncode van websites

Pagina: 1
Acties:
  • 242 views

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Ik wil dat een stukje script de broncode van een gegeven aantal websites controleert op bepaalde zoektermen en de resultaten (inzake of deze zoektermen gevonden zijn, en wàt er gevonden is) netjes in een tabel retourneert.

Ik heb wel wat kennis van Java(Script) en PHP, ik vraag me af of het bovengenoemde met deze talen mogelijk is. En hoe kan ik dat autonoom zoeken naar termen in de broncode van een gegeven aantal websites het beste aanpakken (qua programmeren)?

Ik had gekeken naar open-source crawlers (klik), maar dat was toch niet helemaal wat ik zocht (deze scriptjes struinen het hele internet af terwijl ik een gegeven aantal websites wil onderzoeken!).

Acties:
  • 0 Henk 'm!

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
scriptrequest
Verwijderd schreef op woensdag 27 januari 2010 @ 18:21:
Ik heb wel wat kennis van Java(Script) en PHP, ik vraag me af of het bovengenoemde met deze talen mogelijk is.
PHP wel. Javascript wordt lastig, maar gelukkig is dat heel iets anders dan JAVA waar het wél weer makkelijk mee kan. Hoe je die twee zo in 1 woord probeert samen te vatten met de "(script)"-toevoeging zegt me echter al min-of-meer dat je het verschil nog niet (helemaal) duidelijk is.

code:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
function crawlpage(url)
  content = get_page(url)
  scancontent(content)
  foreach (url in extract_urls(content))
    //hier eventueel een guard inbouwen dat je niet "te diep" gaat of het domein verlaat etc.
    crawlpage(url)  //woei! recursie ftw! \0/
  next
end function

function scancontent(content)
  results = extract_interesting_stuff(content)
  foreach (result in results)
    echo 'Found something! ' + result
  next
end function

function main
  websites = retrieve_list_of_websites() //db, textfile, xml, whatever
  foreach (website in websites)
    crawlpage(website)
  next
end function


Zie overigens ook Waar hoort mijn topic?; het is me namelijk niet duidelijk waarom je dit in SEA hebt gezet :?

Hoe dan ook; scriptrequests staan we dus niet toe. Open gerust een nieuw topic (in het juiste forum) mocht je vragen hebben over code die je geschreven hebt etc, maar laat dan dus wél zien wat je geprobeerd hebt, wat er niet lukt etc. etc. (zie ook onze Quickstart).

[ Voor 61% gewijzigd door RobIII op 27-01-2010 18:41 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Dit topic is gesloten.