Google indexeerd hoofdpagina, maar rest niet? - Softwareontwikkeling

vrijdag 20 februari 2004 01:29

Acties:

Verwijderd

Topicstarter

Dit poste ik net op het Programming & Webscripting forum, maar daar werd hij geblocked door.oisyn. Helaas zei hij niet waar mijn post dan wel thuishoort

.

Ik kan geen ander forum vinden waar mijn vraag past (Internet & Technologie gaat alleen over ADSL enz.), dus laat hem aub staan

. Ty.

Hier komt ie...

Google heeft wel mijn hoofdpagina geindexeerd, namelijk www.stunning-stuff.com, maar de rest wil hij niet indexeren.

Alleen het menu op de pagina is javascript, dus ik snap dat hij die links niet indexeerd. Daarom staan de links naar de hoofdcategorieën (die ook in het JS menu staan) onderaan nog eens opgesomd. Hij zou eigenlijk dus alle links moeten vinden.

Ik kijk net nog ff op google en tot mijn grote verbazing wordt het nog wat gekker, mijn web site staat er opeens niet meer tussen op google: http://www.google.com/search?q=site%3Awww.stunning-stuff.com

Op www2 en www3 van google staat ie nog wel :S:
http://www2.google.com/se...%3Awww.stunning-stuff.com
http://www3.google.com/se...%3Awww.stunning-stuff.com

Check ook ff de head sectie van mijn web site, misschien dat daar wat mis is, al denk ik dat niet.

In mijn apache logs staat trouwens wel dat de googlebot trouwens wel verschillende keren is langsgeweest deze maand, maar hij heeft alleen www.stunning-stuff.com/ en www.stunning-stuff.com/robots.txt (bestaat niet) geprobeerd te 'GET'en.

Thx a bunch!

PHPaul

[ Voor 5% gewijzigd door Verwijderd op 20-02-2004 01:31 ]

vrijdag 20 februari 2004 11:09

Acties:

Verwijderd

Het is mogelijk de google-bot te sturen naar de paginas die jij wilt volgens mij...

Check deze link maar eens...

Volgens mij moet je daar wel bruikbare info uit kunnen halen...

[ Voor 45% gewijzigd door Verwijderd op 20-02-2004 11:10 . Reden: Website gezocht... ]

vrijdag 20 februari 2004 13:22

Acties:

Verwijderd

Topicstarter

Hmm. Bedankt voor de reactie, maar daar staat het antwoord helaas niet in. Hij zou alle links eigenlijk normaal moeten vinden, daar heb ik veel aandacht aan besteed bij het maken van de web site.

Maar dat is niet meer het grootste probleem. We staan er opeens helemaal niet meer in! niet op www, www2 en ook niet op www3??

Ik kan totaal geen reden vinden waarom hij ons opeens uit de index kicked. Ik heb alles volgens het boekje gedaan. Kan het zijn dat ie er ons uitgooid om ons opnieuw te gaan indexeren later (hopelijk ook alle subpagina's dan

)?

Heel erg bedankt

.

Paul

vrijdag 20 februari 2004 14:38

Acties:

Verwijderd

D'r is volgens mij ook zoiets als robots.txt, tweakers gebruikt dat ook...

vrijdag 20 februari 2004 15:49

Acties:

man-o-script

//

- Je kunt een robots.txt gebruiken, met:

code:

1	User-agent: *

- Plaats de goede tags in je <HEAD>, bijvoorbeeld:

code:

1
2
3

    <META name="revisit-after" content="7 days">
    <META name="robots" content="index,follow">
    <META name="googlebot" content="index,follow">

- Zorg voor een duidelijke directorystructuur.
Als Google in de gaten heeft dat de boel dynamisch wordt gegenereerd dan indexed hij vaak niet alle pagina's, dat is bedoeld om een server niet te overbelasten
(staat ook op de Google site!!! zie: http://www.google.nl/intl/nl/webmasters/)

Google is in staat om dynamisch gegenereerde pagina's te indexeren. Het aantal dynamisch gegenereerde pagina's dat Google indexeert, wordt echter bewust beperkt gehouden, aangezien dynamisch gegenereerde sites tijdens het crawlen makkelijk overbelast kunnen raken en crashen.

Maak dus gebruik van Multiviews (apache) of iets vergelijkbaars.

check de structuur van:
http://www.breedbandwinkel.nl/nieuws
daar zijn alle pagina's netjes geindexeerd

[ Voor 35% gewijzigd door man-o-script op 20-02-2004 15:54 ]

//

zaterdag 21 februari 2004 01:56

Acties:

Verwijderd

Topicstarter

Ok, bedankt.

Ik had inderdaad ondertussen al uitgevogeld dat het beter is om URI's zoals deze te gebruiken:
/articles/nature/animals/mammals/15
dan:
/index.php?catid=12&artid=15

robots.txt is alleen nodig om de spiders tegen te houden, en dat is dus wat ik NIET wil

.

revisit-after meta tag?? Die gebruikt toch geen (grote) se meer, dus die lijkt me overbodig, de index, follow heb ik inderdaad ook gebruikt.

Heel erg bedankt! Nu hopen dat google nadat ik alle URI's heb veranderd (wat nog behoorlijk wat werk wordt ivm hoe de hele site gegenereerd wordt) snel langskomt!

Groetjes,

Paul

zaterdag 21 februari 2004 09:53

Acties:

Verwijderd

revisit-after meta tag?? Die gebruikt toch geen (grote) se meer, dus die lijkt me overbodig, de index, follow heb ik inderdaad ook gebruikt.

HTTP headers is inderdaad beter.

Een JavaScript only menu lijkt me trouwens sowieso nooit echt goed, dus misschien moet je daar is naar gaan kijken.

zaterdag 21 februari 2004 14:07

Acties:

Verwijderd

Topicstarter

Het menu is javascript omdat het een fly-out menu is. Daar valt dus niks aan te doen (behalve dan om alles met php te genereren en de subs onload te verbergen). De HTML zou dan wel (denk ik) door Google gelezen worden.

Maar dat is niet het belangrijkste op dit moment, omdat de links die in het menu staan ook op andere manieren gevonden kunnen worden door de spiders (onderaan de pagina staan ze nog eens opgesomd: www.stunning-stuff.com).

In het menu zelf staan ook niet de belangrijkste keywords, dus het menu zal ik later denk ik gaan optimaliseren. Ik ga me nu eerst bezig houden met het het veranderen van de URI's zoals ik hierboven al zei.

Verwijderd schreef op 21 februari 2004 @ 09:53:
[...]
HTTP headers is inderdaad beter.

Het verband tussen HTTP headers en de revisit-after meta snap ik niet helemaal. Hoe bedoel je dat headers beter zijn?

zaterdag 21 februari 2004 21:07

Acties:

man-o-script

//

Je zal zowieso ook je headers eens moeten checken (makkelijk met mozilla firebird i.c.m. live http headers plugin).
De 'last modified since' header is namelijk ook een belangrijke

Dat robots.txt alleen is om robots tegen te houden is onzin, het stelt je ook in staat toegang te geven tot je site, dit wordt weldegelijk meegewogen.

//

zaterdag 21 februari 2004 21:32

Acties:

CrashOne

oOoOoOoOoOoOoOoOoOo

Verwijderd schreef op 21 februari 2004 @ 14:07:
Het menu is javascript omdat het een fly-out menu is. Daar valt dus niks aan te doen (behalve dan om alles met php te genereren en de subs onload te verbergen). De HTML zou dan wel (denk ik) door Google gelezen worden.

[...]

http://www.alistapart.com/articles/dropdowns/

Altijd beter om je content ook bereikbaar te houden voor mensen zonder JS support.

Huur mij in als freelance SEO consultant!

zondag 22 februari 2004 03:28

Acties:

Verwijderd

Topicstarter

Interessant artikel CrashOne. Helaas kan ik daar momenteel verder niks mee aangezien mijn menu dynamisch wordt opgebouwd vanuit de database. Het zou teveel werk kosten om dat allemaal te verhelpen. Ik ben wel van plan het menu voor se's indexeerbaar te maken, maar dat is dus een latere zorg.

Ik heb trouwens wel gedacht aan mensen met oudere browsers die de JS niet kunnen gebruiken. Alles, maar dan ook alles, is bereikbaar met statische links. Kijk maar eens onderaan op de web site

.

Eerlijk gezegd zie ik het nut van robots.txt niet als je spiders juist wilt toelaten. Volgens mij heeft het alleen nut als je spider NIET wilt toelaten.

Ty.

zondag 22 februari 2004 21:42

Acties:

pjonk

Ik had dus hetzelfde probleem bij mijn website die gebruik maakte van een JS pulldown menu. Wat ik toen heb gedaan is een aantal gewone HREF links tussen <noscript> tags geplaatst. Ze worden dan niet getoond in browsers met JS support, maar Google indexeert deze links wel altijd

It’s nice to be important but it’s more important to be nice