GoT cookie wall & WWW::Mechanize

Pagina: 1
Acties:

Vraag


Acties:
  • 0 Henk 'm!

  • smoking2000
  • Registratie: September 2001
  • Laatst online: 25-06 05:12

smoking2000

DPC-Crew

dpkg-reconfigure reality

Topicstarter
Wat is er nodig om met WWW::Mechanize door de GoT cookie wall te komen?

Vorig jaar (1) was het voldoende om het cookieAcceptForm te submitten waarna het Stampede stemtopic in /5 gerequest en verwerkt kon worden.

Nu krijg ik, na het submitten van de cookieAcceptForm, een 200 OK met in de body:
Sessie validatie mislukt. Je browser is wellicht zo ingesteld dat cookies niet bewaard worden. Om je acceptatie te kunnen onthouden wordt een cookie gebruikt. Stel je browser zo in dat cookies opgeslagen worden en probeer het daarna opnieuw.
Het mech object gebruikt echter gewoon een in-memory cookie jar:
code:
1
2
3
4
my $mech = WWW::Mechanize->new(
                                agent      => "StampedeVoteCount/0.2",
                                cookie_jar => {},
                              );


Een explicient HTTP::Cookie object met autosave naar file maakt geen verschil.

Code van het script en bijbehorende Perl module is te vinden via:

http://linuxminded.nl/dpc/stampede-votes/

Directe links:

| [Folding@Home] Announce: Client monitor voor Linux (fci) | fci-1.8.4 | Fatal Error Group |

Alle reacties


Acties:
  • 0 Henk 'm!

  • Diecke
  • Registratie: December 2010
  • Laatst online: 18:28
Ik las laatst ergens in een tweakblog dat als je via useragent doorgeeft dat je een googleBot bent, je de cookie-wall simpel kan omzeilen.

dus probeer eens:
code:
1
2
3
4
my $mech = WWW::Mechanize->new(
  agent      => "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)",
  cookie_jar => {},
);

Acties:
  • 0 Henk 'm!

  • smoking2000
  • Registratie: September 2001
  • Laatst online: 25-06 05:12

smoking2000

DPC-Crew

dpkg-reconfigure reality

Topicstarter
Dank voor de tip, helaas resulteert dat in een 403 Forbidden.

De User-Agent voor Python mechanize werkt echter wel.

Ik wil echter mijn User-Agent liever niet faken, dus een betere oplossing om door de cookie wall te komen is nog zeer welkom.

[ Voor 66% gewijzigd door smoking2000 op 08-03-2017 07:57 ]

| [Folding@Home] Announce: Client monitor voor Linux (fci) | fci-1.8.4 | Fatal Error Group |


Acties:
  • +2 Henk 'm!

  • smoking2000
  • Registratie: September 2001
  • Laatst online: 25-06 05:12

smoking2000

DPC-Crew

dpkg-reconfigure reality

Topicstarter
Kees repliede op mijn mail naar cookies@tweakers.net met deze tips:
De cookiemuur kun je ook omzeilen door een extra header 'X-Cookies-Accepted: 1' toe te
voegen aan je request, of in je useragent iets op te nemen als 'spider' of 'crawler' of
'bot'.
Het opnemen van de X-Cookies-Accepted headers is voor mij de ideale oplossing.

| [Folding@Home] Announce: Client monitor voor Linux (fci) | fci-1.8.4 | Fatal Error Group |


Acties:
  • 0 Henk 'm!

  • AW_Bos
  • Registratie: April 2002
  • Laatst online: 23:57

AW_Bos

Liefhebber van nostalgie... 🕰️

Om hier even op in te haken: is dit een standaard wat Kees aanhaalt? Of gewoon iets wat hij bedacht heeft voor de Tweakende tweakers?
Want ik ben benieuwd hoe andere sites met cookie-wall's dit doen. Zouden ze echt met een whitelist werken (extra onderhoud!) om ervoor te zorgen dat spiders netjes hun muur negeren?

☀️ Goedemorgen zonneschijn! ☀️
☀️Ja, je maakt me zo gelukkig, en door jou voel ik me fijn! ☀️


Acties:
  • 0 Henk 'm!

  • smoking2000
  • Registratie: September 2001
  • Laatst online: 25-06 05:12

smoking2000

DPC-Crew

dpkg-reconfigure reality

Topicstarter
De X-header is iets specifieks aan de Tweakers implementatie lijkt mij, ook de pattern matching op de User-Agent zal site specifiek zijn.

| [Folding@Home] Announce: Client monitor voor Linux (fci) | fci-1.8.4 | Fatal Error Group |


Acties:
  • +1 Henk 'm!

  • Rannasha
  • Registratie: Januari 2002
  • Laatst online: 21:30

Rannasha

Does not compute.

AW_Bos schreef op donderdag 9 maart 2017 @ 15:42:
Om hier even op in te haken: is dit een standaard wat Kees aanhaalt? Of gewoon iets wat hij bedacht heeft voor de Tweakende tweakers?
Googlen op "X-Cookies-Accepted" (met aanhalingstekens, anders negeert Google de streepjes) levert een totaal van 6 hits op, waarvan 3 op Tweakers of Tweakblogs.

Lijkt me geen universele standaard dus :)

|| Vierkant voor Wiskunde ||


Acties:
  • 0 Henk 'm!

  • AW_Bos
  • Registratie: April 2002
  • Laatst online: 23:57

AW_Bos

Liefhebber van nostalgie... 🕰️

Duidelijk, jammer dat er geen standaard lijkt te zijn via dergelijke headers. Dat wordt dus whitelisten ;)

☀️ Goedemorgen zonneschijn! ☀️
☀️Ja, je maakt me zo gelukkig, en door jou voel ik me fijn! ☀️


Acties:
  • 0 Henk 'm!

  • ACM
  • Registratie: Januari 2000
  • Niet online

ACM

Software Architect

Werkt hier

smoking2000 schreef op woensdag 8 maart 2017 @ 07:43:
Dank voor de tip, helaas resulteert dat in een 403 Forbidden.
Iets anders dat we voor robots doen is sessies uitschakelen... anders zitten we onnodig onderhoud aan sessies voor robots te doen die toch bij elke pageview aan de robot-kant genegeerd worden. En dat betekent natuurlijk dat je pagina's waar je normaliter voor ingelogd moet zijn dan niet werken.

Echter hangt dat niet alleen van de useragent af, dus wellicht deed je nog iets anders onverwachts.
Ik wil echter mijn User-Agent liever niet faken, dus een betere oplossing om door de cookie wall te komen is nog zeer welkom.
Dat heeft ook onze voorkeur, dat je gewoon een user-agent neemt die (een beetje) duidelijk maakt wie je bent en waarom je geautomatiseerd de site opvraagt.

Sterker nog, meeliften op googlebot's useragent kan je juist sneller een blokkade opleveren, omdat wij herkennen dat je helemaal niet van een google-ip komt en toch probeert 'namens google' te crawlen.
smoking2000 schreef op donderdag 9 maart 2017 @ 15:44:
De X-header is iets specifieks aan de Tweakers implementatie lijkt mij, ook de pattern matching op de User-Agent zal site specifiek zijn.
Inderdaad. Voor het hele concept cookiewall is geen standaard, laat staan voor details om die dan bij geautomatiseerd 'bezoek' te kunnen omzeilen.
Pagina: 1