[PHP] Geindexeerde pagina's ophalen

Pagina: 1
Acties:

Onderwerpen


Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Ik ben bezig met een SEO tool waarmee ik het aantal geindexeerde pagina's van een bepaalde website wil ophalen.

Bij Google kan je dit bijvoorbeeld doen door 'site:dewebsite.nl' in te voeren.

Resultaten 1-10 van ongeveer 196 van dewebsite.nl. (0,07 seconden). Het getal 196 wil ik dus graag hebben.

Iemand enig idee op welke manier ik dit getal kan achterhalen? Ik vraag niet om een script alleen een zetje in de goede richting.

Acties:
  • 0 Henk 'm!

  • AtleX
  • Registratie: Maart 2003
  • Niet online

AtleX

Tyrannosaurus Lex 🦖

Met een regular expression kan je dit wel achterhalen. :)

Sole survivor of the Chicxulub asteroid impact.


Acties:
  • 0 Henk 'm!

Verwijderd

Wat ik niet begrijp: als je dit niet weet en niet kunt uitzoeken, waarom denk je dan dat je gequalificeerd genoeg bent om een SEO tool te kunnen maken?

Acties:
  • 0 Henk 'm!

  • Kwastie
  • Registratie: April 2005
  • Laatst online: 19-09 10:42

Kwastie

Awesomeness

ik neem aan dat google de pagina op steeds dezelfde manier uitvoert?
kopieer gewoon vanaf het 'aantal hits' 15 karakters.. (regular expressions anyone?)

[ Voor 40% gewijzigd door Kwastie op 23-04-2008 19:21 ]

When I get sad i stop being sad and be awesome instead


Acties:
  • 0 Henk 'm!

  • Sjoerd
  • Registratie: December 2003
  • Niet online
Verwijderd schreef op woensdag 23 april 2008 @ 19:18:
Wat ik niet begrijp: als je dit niet weet en niet kunt uitzoeken, waarom denk je dan dat je gequalificeerd genoeg bent om een SEO tool te kunnen maken?
Deze opmerking snap ik niet helemaal, het is toch niet omdat iemand even niet (heel) goed zoekt zich meteen niet meer mag bezig houden met het maken van een SEO tool?

Zelf ben ik zo vaak nog aan het prutsen, leer je alleen maar van toch?

Modelbouw - Alles over modelbouw, van RC tot diorama


Acties:
  • 0 Henk 'm!

  • we_are_borg
  • Registratie: September 2000
  • Laatst online: 15-09 09:28

we_are_borg

You will Comply

Verwijderd schreef op woensdag 23 april 2008 @ 19:18:
Wat ik niet begrijp: als je dit niet weet en niet kunt uitzoeken, waarom denk je dan dat je gequalificeerd genoeg bent om een SEO tool te kunnen maken?
Omdat niet iedereen alles weet en hij ook alleen maar een zetje in de goede richting wilt hebben om bij te leren. Zo doende kan hij toch proberen zo tool te maken, hij zeg trouwens ook niet dat het gaat lukken.

You need the computing power of a P1, 16 MB RAM and 1 GB Harddisk to run Win95. It took the computing power of 3 Commodore 64 to fly to the Moon. Something is wrong here, and it wasn't the Apollo.


Acties:
  • 0 Henk 'm!

  • Kwastie
  • Registratie: April 2005
  • Laatst online: 19-09 10:42

Kwastie

Awesomeness

een goede ontwikkelaar kent heus niet alle statments uit zijn hoofd, hij moet echt wel zo-nu-en-dan iets opzoeken op het internet. (of boek)

Hij probeerd alleen te zeggen dat je ook gewoon zelf had kunnen zoeken, waar ik het eigelijk mee eens ben. Trouwens een SEO tool in php? :9

When I get sad i stop being sad and be awesome instead


Acties:
  • 0 Henk 'm!

  • Bitage
  • Registratie: April 2006
  • Laatst online: 19-05-2024
Bron van Google:
Resultaten <b>1</b> - <b>10</b> van circa <b>769.000.000</b> voor <b>test</b> (<b>0,08</b> seconden)
Hier bakken we even een regex van (gebruik even PHP als taal):
PHP:
1
2
3
4
5
6
7
$keyword  = "test";
$haystack = file_get_contents('http://www.google.nl/search?hl=nl&q='.$keyword);

preg_match("#Resultaten \<b\>(.*?)\<\/b\> - \<b\>(.*?)\<\/b\> van circa \<b\>(.*?)\<\/b\> voor \<b\>(.*?)\<\/b\>  \(\<b\>(.*?)\<\/b\> seconden\)#si",$haystack,$matches);

// $matches[0] bevat de hele gevonden string
// $matches[3] alleen de hoeveelheid gevonden resultaten

Misschien excessief veel backslashes gebruikt en heb het verder ook niet getest, maar het zou een flinke schop in de goede richting zijn.

edit:// net getest, werkt prima ;)

Acties:
  • 0 Henk 'm!

  • Janoz
  • Registratie: Oktober 2000
  • Laatst online: 02:21

Janoz

Moderator Devschuur®

!litemod

@Kwastie, Sjoerd & we_are_borg : Dit probleem heeft nauwelijks iets te maken met het niet kennen van een statement of het niet goed kunnen zoeken. Als je nu al geen idee hebt hoe je van een altijd hetzelfde uitziende pagina altijd hetzelfde stukje tekst moet hebben dan lijkt het me een terechte vraag van Cheatah hoe de topicstarter uberhaupt de meer ingewikkeldere SEO functionaliteiten denkt te gaan implementeren.

Ken Thompson's famous line from V6 UNIX is equaly applicable to this post:
'You are not expected to understand this'


Acties:
  • 0 Henk 'm!

  • RaZ
  • Registratie: November 2000
  • Niet online

RaZ

Funky Cold Medina

Niet om het een of ander, maar dat Google van een website 200 pagina's geindexeerd heeft, heeft helemaal niets met SEO te maken.

Die 200 pagina's kan dus 100% zijn, maar ook 10%. Daarnaast weet je ook niet op welke plek je met bepaalde keywoords in de SERP staat, waar nu juist het hele SEO om draait.

Bottom-line: Het tooltje kan je met de regex wel vertellen hoeveel pagina's er geindexeerd zijn, maar heeft 0,0 met SEO te maken.

Anyways: succes met je tooltje ;)

Ey!! Macarena \o/


Acties:
  • 0 Henk 'm!

  • RemcoDelft
  • Registratie: April 2002
  • Laatst online: 03-05 10:30
Hier komt bij dat het geautomatiseerd benaderen van Google in strijd is met de regels van Google zelf, en dus simpelweg niet mag...

Acties:
  • 0 Henk 'm!

  • Confusion
  • Registratie: April 2001
  • Laatst online: 01-03-2024

Confusion

Fallen from grace

Verwijderd schreef op woensdag 23 april 2008 @ 19:15:
Iemand enig idee op welke manier ik dit getal kan achterhalen?
Bedoel je 'dit getal uit HTML die Google als zoekresultaat terugstuurt halen' of bedoel je 'dit getal op een andere manier (bijvoorbeeld via een of andere Google API) bepalen'?

Als je het eerst bedoelt: welke manieren ken je om

• Programmatisch een URL op te vragen? en
• In het resultaat een bepaalde string te zoeken?

Indien het antwoord op beide vragen 'geen' is: op welke manier zou je daar naar kunnen zoeken?

Wie trösten wir uns, die Mörder aller Mörder?


Acties:
  • 0 Henk 'm!

  • frickY
  • Registratie: Juli 2001
  • Laatst online: 18-09 14:42
RemcoDelft schreef op woensdag 23 april 2008 @ 20:05:
Hier komt bij dat het geautomatiseerd benaderen van Google in strijd is met de regels van Google zelf, en dus simpelweg niet mag...
Let hier op! Dit is inderdaad instrijd met de gebruikersvoorwaarden, en kan je een IP-ban opleveren.
Je dient hiervoor de Google API te gebruiken,

Acties:
  • 0 Henk 'm!

  • remcotolsma
  • Registratie: December 2005
  • Laatst online: 08-09 11:11
Kwastie schreef op woensdag 23 april 2008 @ 19:24:
Hij probeerd alleen te zeggen dat je ook gewoon zelf had kunnen zoeken, waar ik het eigelijk mee eens ben. Trouwens een SEO tool in php? :9
Is er iets mis met een SEO tool in PHP?
Janoz schreef op woensdag 23 april 2008 @ 19:56:
@Kwastie, Sjoerd & we_are_borg : Dit probleem heeft nauwelijks iets te maken met het niet kennen van een statement of het niet goed kunnen zoeken. Als je nu al geen idee hebt hoe je van een altijd hetzelfde uitziende pagina altijd hetzelfde stukje tekst moet hebben dan lijkt het me een terechte vraag van Cheatah hoe de topicstarter uberhaupt de meer ingewikkeldere SEO functionaliteiten denkt te gaan implementeren.
Het lijkt me dat de TS wel ideeën heeft over hoe hij dit getal er uit kan filteren. Zoals uit de reacties al blijkt zijn er verschillende methodes om deze waarde te achterhalen. Zo kan De HTML van een Google resultatenpagina worden geparsed of de Google AJAX Search API worden gebruikt. Zijn er misschien nog andere methodes en welke is dan de beste?
RaZ schreef op woensdag 23 april 2008 @ 20:02:
Niet om het een of ander, maar dat Google van een website 200 pagina's geindexeerd heeft, heeft helemaal niets met SEO te maken.

Die 200 pagina's kan dus 100% zijn, maar ook 10%. Daarnaast weet je ook niet op welke plek je met bepaalde keywoords in de SERP staat, waar nu juist het hele SEO om draait.

Bottom-line: Het tooltje kan je met de regex wel vertellen hoeveel pagina's er geindexeerd zijn, maar heeft 0,0 met SEO te maken.

Anyways: succes met je tooltje ;)
Het lijkt mij logisch dat websites met veel geïndexeerde pagina's hoger in de resultaten staan dan pagina's met minder geïndexeerde pagina's. Dus volgens mij heeft het aantal geïndexeerde pagina's zeker wel met SEO te maken.

Dat de zogenaamde 'estimated result count' niet altijd even nauwkeurig is misschien helemaal niet erg binnen de SEO tool. Dat is maar net wat er met deze waarde wordt gedaan binnen de SEO tool. Als je deze waarde over een aantal weken gaat vergelijken met je positie bij de zoekmachines kun je misschien wel interessante conclusies trekken...

Meer info:
http://netters.nl/aantal-paginas-in-google
http://www.sifry.com/alerts/archives/000320.html
frickY schreef op woensdag 23 april 2008 @ 20:17:
[...]

Let hier op! Dit is inderdaad instrijd met de gebruikersvoorwaarden, en kan je een IP-ban opleveren.
Je dient hiervoor de Google API te gebruiken,
Gelukkig is de AJAX Search API van Google vrij eenvoudig, hierbij misschien een klein zetje in de goede richting:
PHP:
1
2
3
4
5
6
7
8
9
10
11
<?php

$uri = 'http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=site:dewebsite.nl';

$data = file_get_contents($uri);

$result = json_decode($data);

echo 'Aantal: ', $result->responseData->cursor->estimatedResultCount;

?>
Pagina: 1