Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien
Toon posts:

Python script uurlijks draaien; welk platform?

Pagina: 1
Acties:

Verwijderd

Topicstarter
Ik heb een Python scriptje gemaakt wat ik ieder uur wil laten draaien. Het scraped simpelweg wat data met hulp van Splinter (met Firefox driver), en schrijft dat naar een database.

Mijn vraag is nu, op welk platform kan ik dit het beste gaan draaien? Is het echt noodzakelijk dat ik een aparte PC inricht hiervoor, of zou Heroku of een VPS een meer kosteneffectieve methode zijn?

Alvast dank. :)

  • torchwood
  • Registratie: December 2013
  • Laatst online: 20-11 09:53
Python werkt in mij ogen het beste op linux ... je zou evt dat via vbox kunnen draaien op je eigen pc of een dual boot.

Je kan letterlijk alles doen op linux van webserver tot router.... maarja.
je zou dan via cronjob dan het script om uur laten draaien.


Ik hoop dit een beetje helpt ik helaas niet genoeg kennis van python om je echt te helpen. ben wel bezig om het te leren.

[ Voor 8% gewijzigd door torchwood op 16-09-2014 11:46 ]


  • Rmg
  • Registratie: November 2003
  • Laatst online: 23:41

Rmg

Aangezien je splinter gebruikt heb je dus firefox nodig en dus een grafische desktop.

Mijn gok is dat het makkelijkste is om een windows VPS te regelen, dat kan voor < 6 euro als je niet te veel eisen hebt.

Verwijderd

Topicstarter
Dank voor de reacties. Zou het ook mogelijk zijn op een Pi te doen, of is die simpelweg te traag om dit soort dingen te handelen?

  • pedorus
  • Registratie: Januari 2008
  • Niet online
Dat Heroku lijkt me een beetje duur. Ik zou voor een $5/maand instance bij digitalocean gaan ofzo. Je kunt vast nog wel ergens een kortingscode vinden van een tientje om het gratis uit te proberen. Pi zou ook kunnen, een desktop gebruiken als server kost zomaar 150 euro/jaar aan stroom, een Pi 7 euro/jaar. Beetje afhankelijk van hoe complex je scriptje is natuurlijk. Ik verwacht alleen iets meer onderhoud/downtime met een Pi. Ik zou sowieso liever linux gebruiken dan Windows vooor een server.

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten


  • Neoz
  • Registratie: November 2001
  • Laatst online: 21-11 15:22

Neoz

Neoz & Hobbes

Kan het niet op een "simpele" NAS als een Synology ?

Serve The Humanity , Be Server


  • NMe
  • Registratie: Februari 2004
  • Laatst online: 20-11 11:59

NMe

Quia Ego Sic Dico.

Verwijderd schreef op dinsdag 16 september 2014 @ 12:10:
Dank voor de reacties. Zou het ook mogelijk zijn op een Pi te doen, of is die simpelweg te traag om dit soort dingen te handelen?
Hoe verwacht je daar antwoord op zonder informatie over hoe complex je handeling is? Afhankelijk van wat je script doet kan je Pi 90% van de tijd uit zijn neus vreten of juist 90% van de tijd op een veel te hoge load draaien.
Neoz schreef op dinsdag 16 september 2014 @ 12:35:
Kan het niet op een "simpele" NAS als een Synology ?
Tenzij die er toevallig al staat ben je met een NAS (al dan niet van Synology) duurder uit dan met een simpele barebone-PC...

[ Voor 23% gewijzigd door NMe op 16-09-2014 12:43 ]

'E's fighting in there!' he stuttered, grabbing the captain's arm.
'All by himself?' said the captain.
'No, with everyone!' shouted Nobby, hopping from one foot to the other.


  • Kalentum
  • Registratie: Juni 2004
  • Laatst online: 21:29
Rmg schreef op dinsdag 16 september 2014 @ 11:53:
Aangezien je splinter gebruikt heb je dus firefox nodig en dus een grafische desktop.

Mijn gok is dat het makkelijkste is om een windows VPS te regelen, dat kan voor < 6 euro als je niet te veel eisen hebt.
Je kan in principe Firefox onder Linux headless draaien. Dus een GUI is in principe niet nodig.

TS had misschien beter een andere techniek kunnen kiezen om een website te scrapen, namelijk eentje die geen Firefox nodig had.

Wat je kiest om het op te draaien is afhankelijk van je budget en van je kennis. Mijn persoonlijke keuze zou een Linux vps zijn voor een paar euro per maand.

  • gekkie
  • Registratie: April 2000
  • Laatst online: 23:29
Wat scrape je aan data ? (ik neem niet aan dat visuele formatting een echt issue is ? of heb je javascript support nodig ?)

Meestal is html aardig parsebaar met gangbare (xml) parsers in diverse talen nadat je hebt binnen gehaald met je webclient componentje.

Zo scrape ik zelf met python voor een aantal sites op een bepaald aantal keywords de huidige google ranking van de eerste 5 pagina's (top50), werkt prima headless :)

Het spannende setje imports:

from urlparse import urlparse
from BeautifulSoup import BeautifulSoup

import urllib2
import httplib

import xml.etree.ElementTree as ET

(edit: even wat ingekort tot de relevantste voor website scraping)

[ Voor 77% gewijzigd door gekkie op 16-09-2014 17:58 ]

Pagina: 1