[ALG] Wikipedia, keyword-links, hoe effecient toe te passen?

Pagina: 1
Acties:

  • kmf
  • Registratie: November 2000
  • Niet online
Ik vraag me af hoe wikipedia de keyword-links nou genereert. Je weet wel, je leest een stuk verhaal en als een key-word het onderwerp is van een ander verhaal dan wordt dit een link daarnaartoe.

Maar hoe wordt dit nou EFFICIENT gedaan?

In eerste instantie zal ik denken, bij het verwerken van de post:

Split alle woorden,
Gooi deze in een array,
Gooi deze elementen door de searchfunctie
Pregreplace de boel bij gelijkenis.

Maar then again, een keywoord kan uit meerdere woorden bestaan, een naam bv. Hoe moet hier dan op gefilterd worden? Enig idee?

One thing's certain: the iPad seriously increases toilet time.. tibber uitnodigingscode: bqufpqmp


  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
De gebruikers maken zelf links, door blokhaken rondom een artikel te plaatsen. Kijk maar eens bij 'Artikel bewerken' bij een artikel.

We are shaping the future


  • .oisyn
  • Registratie: September 2000
  • Laatst online: 03:15

.oisyn

Moderator Devschuur®

Demotivational Speaker

Een WikiWord heeft toch een speciaal formaat? Het is toch niet zo dat elke titel, dus ook zinnetjes met spaties, omgezet worden in links? Ik gebuik TWiki op m'n werk en als je iets met spaties wilt dan moet je daar wat tags omheen zetten. Alleen van WikiWords maakt ie automatisch referenties.

.edit: euh ja spuit 11 dus :P

[ Voor 6% gewijzigd door .oisyn op 12-02-2005 01:29 ]

Give a man a game and he'll have fun for a day. Teach a man to make games and he'll never have fun again.


  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
Woei, ik was een admin te snel af :p

We are shaping the future


  • kmf
  • Registratie: November 2000
  • Niet online
en wat nou als je dat wilt automatiseren? kan me niet voorstellen dat een auteur de hele index van wikipedia in z'n hoofd heeft. Zal dan handig zijn als de posts automatisch worden gescand.

One thing's certain: the iPad seriously increases toilet time.. tibber uitnodigingscode: bqufpqmp


  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
De auteurs zetten blokhaken rondom de keywords die ze belangrijk vinden, en als er geen artikel over is, of het artikel heet anders, dan maakt iemand anders er iets voor
#REDIRECT [Artikel] bijvoorbeeld.

We are shaping the future


  • .oisyn
  • Registratie: September 2000
  • Laatst online: 03:15

.oisyn

Moderator Devschuur®

Demotivational Speaker

Gaan er niet ook nog andere mensen overheen om gaandeweg verwijzingen om te zetten in links?

Alex: Ik kan je post altijd nog deleten O-)

.edit: posts inmiddels, grrr

[ Voor 12% gewijzigd door .oisyn op 12-02-2005 01:35 ]

Give a man a game and he'll have fun for a day. Teach a man to make games and he'll never have fun again.


Verwijderd

athlonkmf schreef op zaterdag 12 februari 2005 @ 01:32:
en wat nou als je dat wilt automatiseren? kan me niet voorstellen dat een auteur de hele index van wikipedia in z'n hoofd heeft. Zal dan handig zijn als de posts automatisch worden gescand.
een auteur heeft ook niet de hele index in zijn hoofd, maar hij zet gewoon van die brackets om kernwoorden die hij interessant vindt. de parser van wikipedia kijkt dan of het woord in de index staat. zoja, dan komt er een verwijzing naar die pagina, zonee, dan komt er een linkje naar een edit-pagina, die overigens pas gecreëerd wordt op het moment dat deze voor het eerst wordt opgevraagd. de eerste linkjes zijn btw blauw en de tweede rood.

ik zal nog eens proberen iets helder uit te leggen 8)7

[ Voor 5% gewijzigd door Verwijderd op 12-02-2005 01:35 ]


  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
Wat ik zei dus... >:)

We are shaping the future


Verwijderd

yupz, een post die een andere user te snel af is, komt nooit zonder een broertje :P

  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
Wijsheid....

Sorry hoor .oisyn
* Alex aait .oisyn, is het nu weer goed? Voel je je beter?

[ Voor 77% gewijzigd door Alex) op 12-02-2005 01:41 ]

We are shaping the future


  • Zoijar
  • Registratie: September 2001
  • Niet online

Zoijar

Because he doesn't row...

Bovendien zou het geen enkel probleem zijn om bij een page update, elke woord in de database op te zoeken. Een update komt niet vaak voor, je kan daar rustig een minuut oid op zoeken.

  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
Het kan wel, maar vindt een gebruiker het leuk als het gruwelijk lang duurt voordat de boodschap "Pagina bijgewerkt" o.i.d. verschijnt? Meestal niet.
Dus...
Beter idee cronjob?

We are shaping the future


  • Zoijar
  • Registratie: September 2001
  • Niet online

Zoijar

Because he doesn't row...

Je gebruiker hoeft daar idd niet op te wachten. 'cronjob' of wat je ook wilt. ik neem aan dat ze gespecialiseerde servers hebben staan, en ook wel meer dan eentje. Dus laat er gewoon een computer de hele dag links zoeken...geen probleem.

  • elnino
  • Registratie: Augustus 2001
  • Laatst online: 25-04 02:41
Ik weet wel dat op Wikipedia speciale bots worden gebruikt om links naar veelvoorkomende woorden te genereren. Deze programma's werken echter niet vanaf de server, maar gewoon lokaal bij gebruikers.
athlonkmf schreef op zaterdag 12 februari 2005 @ 01:25:
Hoe moet hier dan op gefilterd worden? Enig idee?
Je zou ook andersom kunnen redeneren: ga alle keywords langs en kijk of ze in de tekst staan. Zo zorg je er ook voor dat langere keywords gevonden worden. Dat lijkt me eerlijk gezegd efficiënter dan ieder woord apart op te gaan zoeken, hoewel het nog steeds veel werk is.

  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
Alles splitten, en woorden die langer zijn dan 5 tekens linken, bijvoorbeeld?
Je kan ook iets met JS doen, dat wanneer er op een woord wordt gedubbelklikt, dat die pagina bezocht wordt.

We are shaping the future


  • drm
  • Registratie: Februari 2001
  • Laatst online: 09-06-2025

drm

f0pc0dert

't Meest efficient is natuurlijk gewoon te zoeken op het moment dat een bericht aangepast wordt of geplaatst wordt, niet (pas/elke keer) als het getoond wordt. 't Is ook niet zo bezwaarlijk om even te moeten wachten als je iets aangepast hebt, wel als je iets wilt lezen.

edit:
Euh, never mind, dit zei je al 8)7
In eerste instantie zal ik denken, bij het verwerken van de post:

[ Voor 20% gewijzigd door drm op 12-02-2005 16:22 ]

Music is the pleasure the human mind experiences from counting without being aware that it is counting
~ Gottfried Leibniz


  • Alex)
  • Registratie: Juni 2003
  • Laatst online: 12-12-2025
Het moet kunnen met JS bijvoorbeeld, om ieder woord te linken.
Op www.bibliotheekbreda.nl in de catalogus gebeurt iets dergelijks ook, alleen wordt het volgens mij meteen meegenomen bij het invoeren.

We are shaping the future

Pagina: 1