@We Are Borg
Ik flikker alle HTML uit de pagina, en vervang punten en regeleindes met een spatie (en vervang dubbele spaties met een enkele) Vervolgens loop ik door die woorden en sla deze op in een array. Ik negeer woorden van 3 of minder karakters, en woorden welke meer dan 8% (oid) van het totaal aantal woorden vertegenwoordigd.
Voor bovenstaande alinea krijg je dan iets als;
code:
1
2
3
4
5
6
7
8
9
10
| Array(
["ik flikker"] => 1,
["ik flikker alle"] =>1 ,
["ik flikker alle HTML"] => 1,
["flikker"] => 1,
["flikker alle"] => 1,
["flikker alle HTML"] => 1,
["flikker alle HTML uit"] => 1,
["alle"] => 1
) |
Dit kun je simpelweg sorteren op value, en de eerste 8-10 woorden zijn prima geschikt als keywords. Is prima te doen met bijv PHP.
De analyse moet je natuurlijk wel doen over de pagina zoals de gebruiker die ziet, en niet over je broncode. De header van mjin document ziet er dan ook uit als iets als;
HTML:
1
2
3
4
5
6
7
8
| <htrml>
<head>
<?
if(!isset($_GET['keywordAnalysis']))
keywordAnalysis($_SERVER['REQUEST_URI'] . "?keywordAnalysis");
?>
</head>
... |
Waarbij de functie een HTTP-request door naar de pagina, en de GET-var voorkomt dat je in een oneindige loop raakt.
Maar nogmaals, de laatste keer dat ik dit verifiëerde waren Ilse en Ask Jeeves de enige 2 spiders welke zich iets van de keywords aantrokken. Overweeg dus of het de moeite waard is.
De woorden die je overhoud zijn relevant voor die pagina. Of het ook echt daadwerkelijk relevante woorden zijn kan de gebruiker met een ander tooltje meten (welke per gekozen woord het aantal hits in google geeft, en het aantal keer dat er op gezocht is (via Overture).
@CaptBiele
Voor zover ik weet is het pagerank algoritme geheim. Die link zal het dus alleen bij benadering kunnen aangeven door het aantal resultaten te tellen dat google geeft als je zoekt naar "link:domeinnaam". Dan is de toolbar zelf - welke ik ook niet wil installeren - denk ik betrouwbaarder.
[
Voor 71% gewijzigd door
frickY op 10-01-2006 13:59
]