Website rippen / kopieren (met PHP-login)

Pagina: 1
Acties:

Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
Na behoorlijk (een dag) te hebben gezocht en geprobeerd (Website Ripper Copier en HTTrack etc), heb ik helaas nog steeds geen programma (of methode) kunnen vinden waarmee ik een site helemaal naar mn schijf kan trekken, die met een PHP-login (in de pagina) is beschermd (waarvan ik uiteraard een account bezit).
Bijna alle progjes hiervoor kunnen met HTTP-authentication omgaan, maar geen enkele met PHP-loginpagina's!? |:(

Ik heb het dan dus over alles, van plaatjes tot alles waar links heen gaan, bestanden en flash (niet essentieel), alles dus.

De login is een simpele login.php pagina waarin een loginveld en een passwordveld zitten die ingevuld moeten worden.
Op de een of andere manier lukt het niet met WRC (middels cookie importering uit IE of met HTTP-auth (logisch)) maar ook met geen enkel progje middels een URL als blah.nl/login.php?login=joop&pass=pooj helaas. :/

Wie weet hoe ik een dergelijke site met al zijn bestanden en mappenstructuren automatisch kan 'rippen', want dat moet toch zo kunnen?! :?

Acties:
  • 0 Henk 'm!

  • gambieter
  • Registratie: Oktober 2006
  • Niet online

gambieter

Just me & my cat

Stan schreef op woensdag 29 april 2009 @ 01:21:
Wie weet hoe ik een dergelijke site met al zijn bestanden en mappenstructuren automatisch kan 'rippen', want dat moet toch zo kunnen?! :?
Waarom zou dat zo moeten kunnen, als je de database niet hebt? Verder kan het zijn dat de beheerder een beveiliging heeft ingebouwd.

Heb je de beheerder om toestemming gevraagd om die content te downloaden?

I had a decent lunch, and I'm feeling quite amiable. That's why you're still alive.


Acties:
  • 0 Henk 'm!

  • Manuel
  • Registratie: Maart 2008
  • Laatst online: 17-05 20:26
PHP is server-side het wordt allemaal server-side geparsed, daarom is het niet mogelijk PHP bestanden te 'rippen' aangezien een HTTrack (bijv) eerst de pagina moet laden, dan heeft de server alles al gegenereerd.

Indien je het echt wilt kun je overgaan op 'hacken' etc. maar dat is niet aan te raden.
Trouwens, als het veld een naam heeft kun je de waarde wel opgeven:

HTML: test.html
1
2
<input type="text" name="gebruikersnaam" />
<input type="password" name="wachtwoord" />


http://***.***.***.***/login.php?gebruikersnaam=Blaat&wachtwoord=schaap
Dan zul je zien dat het wel wordt ingevult, maar aangezien je dit niet bedoelt als ik het zo lees.

Maar goed, hopelijk is mijn bericht duidelijk.
(Trouwens, een PHP-login script is niet zo moeilijk te maken ^^)

Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
Ik ben blijkbaar niet helemaal duidelijk.

Het gaat niet om de PHP-source, maar gewoon een 'client side' reeds parsed kopie van een site.
Ik kan dus wel handmatig inloggen en elke menuoptie (en alle 100 subopties) steeds aanklikken/laden en dan in Firefox "Save page/frame" doen, maar dan ben ik een jaar bezig.
Een URL met daarin de pass en login werkt dus niet, dat pakken die progjes niet. Ik denk omdat de login een POST wil en geen GET?

Ik zoek dus een programma die 'HTML-screenshots' maakt van een complete (PHP-)site, achter een PHP-loginpagina, met alle area's en dus ook fotos etc.

Misschien is inderdaad een lokale custom pagina met een "link die inlogt op de remote site" geen slecht idee, al wissel je dan weer van domein, iets wat die progjes niet willen (anders loop je het risico heel internet te copyen ;))

[ Voor 9% gewijzigd door Stan op 29-04-2009 02:35 . Reden: POST/GET ]


Acties:
  • 0 Henk 'm!

Anoniem: 50893

Teleport Pro/ultra :

http://www.tenmax.com/teleport/pro/home.htm

Ik gebruik het zelf vaak om snel wallpapers van een site te halen, bij de ene site lukt dat wel en de andere weer niet, afhankelijk van de beveiliging van de site :)

Gebruik wel normale instellingen zodat je request geen server plat legt of dat je gebruik word gezien als een attack. Er zijn gebruikers die alleen maar aan zichzelf denken waardoor je problemen geeft maar ook kan ontvangen ;) En probeer je de verkeerde site leeg te trekken dan komen ze vanzelf wel bij je thuis ;) Het progamma op zich is legaal, het gebruik dien je echter met "respect" te doen. DOe je zoiets bij de FBI, als voorbeeld, dan heb je kans dat je bezoek krijgt :P

Acties:
  • 0 Henk 'm!

  • mad_max234
  • Registratie: September 2003
  • Laatst online: 07-02 11:09

mad_max234

AMD Athlon II M320

Dan nog zal je nooit kunnen inloggen omdat je geen db heb waar alle inlog gegevens staan. ;) Er is dus niks anders dan de genereerde html versie die jij download (en eventueel files die zichtbaar), je mist dus heel veel achter liggende files die uiteraard ook niet toegankelijk zijn voor buitenstaanders, anders zou het niet veilig zijn.

Wat jij wilt kan niet, je kan niet (achterliggende) php omzetten naar html en dan ook nog verwachten dat het werkt zoals php, html kan dat gewoon niet, is een markup taal, en geen script taal zoals php, wereld van verschil. En dan nog zal je nooit bij alle files kunnen komen die nodig zijn voor de werking, en database heb je ook niet, of toegang tot de database van de site zelf, als het goed is beveiligd tenminste. :)

links, menu's, foto, topic,s, etc dat werken gewoon, hele forums kan je downloaden en offline bekijken, geen probleem, die data is vrij te zien, maar dat is maar gedeelte van alle files die het forum laten werken en het inlog systeem hoef jij niet meer van te zien dan het html form, die php files die het inloggen daadwerkelijk verrichten zijn niet toegankelijk en worden door de server afgehandeld en komt geen browser bij te pas dus is ook niet te downloaden.

Hoop dat het duidelijk is. :)

-Andere hobby- -


Acties:
  • 0 Henk 'm!

Anoniem: 50893

mad_max234 schreef op woensdag 29 april 2009 @ 03:01:

Wat jij wilt kan niet, je kan niet (achterliggende) php omzetten naar html.
Teleport Pro set php gewoon om als een HTML site en kun je gewoon vanaf je harde schijf zo benaderen :

http://www.tenmax.com/teleport/support.htm

Acties:
  • 0 Henk 'm!

Anoniem: 26306

Inloggen betekent niet veel meer of minder dan dat er bij elke request iets moet worden overhandigd waaruit blijkt dat je bent ingelogd. Log in met een reguliere client, bekijk de cookies, en zorg dat de nodige cookies worden meegegeven bij het rippen van de site. Dat zal in de meeste gevallen werken.

[ Voor 6% gewijzigd door Anoniem: 26306 op 29-04-2009 07:44 ]


Acties:
  • 0 Henk 'm!

  • sam.vimes
  • Registratie: Januari 2007
  • Laatst online: 04-10-2024
Anoniem: 26306 schreef op woensdag 29 april 2009 @ 07:43:
Inloggen betekent niet veel meer of minder dan dat er bij elke request iets moet worden overhandigd waaruit blijkt dat je bent ingelogd. Log in met een reguliere client, bekijk de cookies, en zorg dat de nodige cookies worden meegegeven bij het rippen van de site. Dat zal in de meeste gevallen werken.
Helemaal mee eens. Let vooral op dat bij elke request.
Firefox met de LiveHttpHeaders (http://livehttpheaders.mozdev.org/) is je vriend.

Acties:
  • 0 Henk 'm!

  • Manuel
  • Registratie: Maart 2008
  • Laatst online: 17-05 20:26
Als ik je reactie lees wil je de post manipuleren?
Dus dat een script of programma dat voor je dat zodat jij alles kan downloaden?

Zeg even als ik goed zit, of juist niet natuurlijk ;)

Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
Nogmaals, ik HEB toestemming en heb dus een login en password gekregen, maar ik wil niet zelf handmatig alles moeten opslaan (zoals idd zo'n wallpapersite, als die achter een PHP-login zou zitten).

Probleem is dus idd dat de meeste van die progjes geen PHP-login aankunnen (alleen HTTP-auth) en WRC zegt cookies te kunnen importeren of zo maar dat werkt niet (ook al ben ik op moment van rippen/importeren ingelogd op die site)(dus ik doe iets fout of die site is 'slim'?).

Er lijkt me absoluut NIETS illegaals aan mijn wens. Ik heb login en ik kan alles ook met mn eigen ogen bekijken, dus waarom niet een dagje later offline? Het is iig net zo illegaal als een screenshot nemen van een website die je nog eens door wilt lezen (uiteraard is het voor mezelf en ben ik geenszins van plan de boel te verspreiden of publiceren!). O-)

@Parabellum:
Q: A site I want to copy requires me to enter a user id and password on a form. Can Teleport handle this?
A: If the site requires you to enter data through a "post" form, Teleport cannot handle it. Teleport can only answer forms that use the GET protocol, and which do not require any user input. Forms that require you to select things from a list, or to check boxes, or to enter data -- or forms that use the POST protocol -- cannot be accessed. This is a limitation of Teleport that currently has no workaround.
En dat blijf ik raar vinden, want ik heb vroeger ook wel scriptjes gemaakt die automatisch bepaalde velden posten en dan een site 'las' (beurskoersen), alleen wil ik nu ook alles achter (java/flash)menustructuren hebben. Waarom zijn al die progjes zo 'dom'!? |:(

[ Voor 32% gewijzigd door Stan op 29-04-2009 13:26 . Reden: Teleport quote ]


Acties:
  • 0 Henk 'm!

  • storeman
  • Registratie: April 2004
  • Laatst online: 22:47
Ik weet niet hoe goed je zelf bent in het programmeren, maar met de Zend_Http module uit Zend_Framework is het heel goed mogelijk om POST data te versturen en de reactie terug te krijgen. Ook zijn hier allerlei mogelijkheden om Cookies op te slaan voor meerdere requests.

Je moet dan uiteraard wel weten welke velden je moet posten, maar daar is wel achter te komen.

Als je deze weg inslaat ben je misschien niet lang bezig met rippen, maar wel met prutsen ;).

Overigens zou je daarna mbv Zend_Dom het DOM door kunnen nemen en scannen op js/css/img/links etc

"Chaos kan niet uit de hand lopen"


Acties:
  • 0 Henk 'm!

  • RMX
  • Registratie: Augustus 2000
  • Laatst online: 30-04 19:00

RMX

Maak een script en gebruik CURL

Acties:
  • 0 Henk 'm!

  • Manuel
  • Registratie: Maart 2008
  • Laatst online: 17-05 20:26
Op WmCity is al een hele poos een soort van "socket class" gemaakt, kijk maar: http://wmcity.nl/scripts.php?actie=bekijk&id=1531

Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
Ik kan NIET programmeren, en zoek dus een progje die dit gewoon kan en voor me 'ript'.
Namen van de velden van de PHP-POST-login ken ik.

Acties:
  • 0 Henk 'm!

  • Herko_ter_Horst
  • Registratie: November 2002
  • Niet online
PHP is in dit geval een 'red herring': heeft niets met je probleem te maken omdat het de client echt worst zal zijn op welke manier de HTML gemaakt wordt.

Je moet zoeken naar een tool die "form login" (en sessies) ondersteund. Eerste resultaat bij Googlen op "website mirror form login session" was: http://rbytes.net/software/jobo-review/

"Any sufficiently advanced technology is indistinguishable from magic."


Acties:
  • 0 Henk 'm!

  • Standeman
  • Registratie: November 2000
  • Laatst online: 17:23

Standeman

Prutser 1e klasse

Is het niet mogelijk om een eerst zelf in te loggen en dan de session (cookie / sessionid) door te geven aan het rip-programmatje?

Lijkt me dat zo'n feature wel bestaat? (Of heb ik nu aan iets origineels bedacht :?)

The ships hung in the sky in much the same way that bricks don’t.


Acties:
  • 0 Henk 'm!

  • TheMe
  • Registratie: December 2006
  • Laatst online: 17-02-2024
8)7
FTP?

Kun je een letterlijke kopie maken van een site, inc media, php-scripts.
Zul je die scripts wel weer moeten aanpassen als er ook databases achterhangen.

Maar... Als je toestemming hebt van de beheerder lijkt me dat niet het probleem...

Zet je 'm op je home apache server en benader je vanaf die server de db die nog steeds achter de site op internet staat.

There is no place like 127.0.0.1


Acties:
  • 0 Henk 'm!

Anoniem: 50893

Stan schreef op woensdag 29 april 2009 @ 13:21:

@Parabellum:

[...]

En dat blijf ik raar vinden, want ik heb vroeger ook wel scriptjes gemaakt die automatisch bepaalde velden posten en dan een site 'las' (beurskoersen), alleen wil ik nu ook alles achter (java/flash)menustructuren hebben. Waarom zijn al die progjes zo 'dom'!? |:(
Nee, het is niet raar maar als legale softwareaanbieder heb je te maken met grijze gebieden en mogelijk dat dit juist nu een mogelijkheid is die het grijze gebied te buiten gaat. Je moet niet vergeten, mensen proberen ook legaal hun brood te verdienen maar rekken soms de mogelijkheden op.

En als je zelf een officiele login heb dan is het misschien mogelijk dat je hoster automatisch iedere dag of om de paar dagen de door jouw gewenste content naar je upload, desnoods tegen een vergoeding alszijnde service :)

Progamma's zijn dus niet, zoals je het omschrijft, dom maar hebben grenzen ;)

Acties:
  • 0 Henk 'm!

  • Standeman
  • Registratie: November 2000
  • Laatst online: 17:23

Standeman

Prutser 1e klasse

TheMe schreef op woensdag 29 april 2009 @ 14:31:
8)7
FTP?

Kun je een letterlijke kopie maken van een site, inc media, php-scripts.
Zul je die scripts wel weer moeten aanpassen als er ook databases achterhangen.

Maar... Als je toestemming hebt van de beheerder lijkt me dat niet het probleem...

Zet je 'm op je home apache server en benader je vanaf die server de db die nog steeds achter de site op internet staat.
Lijkt me dat een beetje administrator het never nooit toelaat om DB access over het internet te geven :) (m.u.v. ssh / vpn)

The ships hung in the sky in much the same way that bricks don’t.


Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
@Herko:
Precies, ik leg het misschien gewoon wat te omslachtig uit.
Dat JoBo heb ik nodig ja (maar liever geen Java maar een Windows binary), en dan dus wel een progje dat alle links, ook in Java-menu's (en liefst ook Flash-menu's) volgt. _/-\o_
WRC biedt ook een optie voor cookie adding of importing, maar mij lukt het daarmee niet, dus liever een automatisch progje waarin je de genaamde velden input met de waardes van de login (zoals JoBo).
Er is overigens al een 1.4 van JoBo op de site van de maker, maar dit terzijde.

Update:
Ik heb nu JoBo geprobeerd, maar enige wat ik kan doen is een cookiestring toevoegen (kan met WRC ook). Ik kan dus niet de login en pass invullen (plus namen van die 2 form fields). Ik heb dus met JoBo alleen een uitgeklede WRC?

[ Voor 39% gewijzigd door Stan op 29-04-2009 15:00 . Reden: JoBo ervaring ]


Acties:
  • 0 Henk 'm!

  • Sosabowski
  • Registratie: Juni 2003
  • Laatst online: 17-05 19:39

Sosabowski

nerd

FlashGot misschien een optie?

The whole problem with the world is that fools and fanatics are always so certain of themselves, and wiser people so full of doubts. -- Bertrand Russell


Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
@IorGie:
Juistem, dat begint erop te lijken, ik ga hem binnenkort proberen! _/-\o_

Acties:
  • 0 Henk 'm!

  • mad_max234
  • Registratie: September 2003
  • Laatst online: 07-02 11:09

mad_max234

AMD Athlon II M320

Anoniem: 50893 schreef op woensdag 29 april 2009 @ 03:40:
[...]


Teleport Pro set php gewoon om als een HTML site en kun je gewoon vanaf je harde schijf zo benaderen :

http://www.tenmax.com/teleport/support.htm
Ja de cleint site van de website, maar een site heeft meer nodig dan een gerenderde html code om achterliggende functionaliteit mogelijk te maken, je kan html niet php taken laten uitvoeren, dat kan html gewoon niet.

Is onmogelijk om php om te zetten in html omdat het gewoon twee hele andere dingen zijn.

-Andere hobby- -


Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
De gekopieerde versie hoeft ook niets te kunnen. Das niet de issue. De issue is het rip-progje de taak van het inloggen middels een PHP-form te laten doen en de cookie te gebruiken voor de authenticatie bij het volgen van alle menu-links.

Ik zou namelijk ook best 1000x PrtScn kunnen doen en alle pagina's als JPG pakken (maar heb toch echt wat liever doorzoekbare tekst en links).

Acties:
  • 0 Henk 'm!

  • mad_max234
  • Registratie: September 2003
  • Laatst online: 07-02 11:09

mad_max234

AMD Athlon II M320

Oke nu snap ik je iets meer geloof ik. :)

Wat jij wilt is dus gewoon een website die offline werkt, maar dan achter een inlog syteem van die site?
Je wil dus niet inloggen, maar dat de gegeven zichtbaar zijn offline, inloggen is niet belangrijk zolang het maar zichtbaar is? Of begrijp ik je nog steeds niet goed? :)

-Andere hobby- -


Acties:
  • 0 Henk 'm!

  • Stan
  • Registratie: Augustus 2002
  • Laatst online: 16-08-2024
Nog 1 keertje:

Ik wil een 'screenshot' (momentopname) van een site, met VELE pagina's en plaatjes, die achter een login zit (PHP-form). Die login is het probleem, want vele progjes doen alleen HTTP-auth en geen PHP-POST-forms met cookie.
Liefst een kopie waarin ik ook in de menu's kan doorklikken (lokaal/offline), dus een semi-interactieve kopie, maar gewoon platte screenshots (liefst als tekst, of zelfs als JPG) zou ook evt kunnen.
Pagina: 1