[perl/mysql] spelling van nieuwsberichten

Pagina: 1
Acties:

  • BKJ
  • Registratie: April 2000
  • Laatst online: 21-05 15:04
Zoals ik al eerder in mijn posts aangaf hebben wij hier een db met een flink aantal nieuwsberichten. Nu wilde ik even een aantal leuke statistieken loslaten op de database.

Zoals bv:

- Wie heeft de meeste publictaties op zijn naam? (per week/maand/jaar)
- Wat is een veelbesproken onderwerp?
- etc etc

(als er nog ideeen zijn hoor ik het graag... :) )

Nu bedacht ik me dat het ook leuk zou zijn om een soort award uit te reiken met meeste spelfouten gemaakt.

Vraag is nu alleen hoe doe ik dit?

Ik had al het volgende bedacht:

-open een nieuwsbericht
-split op spaties
-gooi alle woorden met hoofdletters weg
-check elk woord met een db waarin ALLE nld. woorden staan
-als ie er niet in voorkomt -> spelfout

Is dit het handigst? Hoe kom ik aan een db met alle nld woorden? Zijn er nog valkuilen mbt het algoritme?

Kamer huren


  • 4Real
  • Registratie: Juni 2001
  • Laatst online: 14-09-2024
-gooi alle woorden met hoofdletters weg

waarom dat?

  • BKJ
  • Registratie: April 2000
  • Laatst online: 21-05 15:04
4Real schreef op 26 juni 2004 @ 17:53:
-gooi alle woorden met hoofdletters weg

waarom dat?
Eigennamen zijn prolly niet te vinden in een woordenboek.. ;)

Kamer huren


  • dingstje
  • Registratie: Augustus 2002
  • Laatst online: 02-01-2024
Je kan het ook meteen door ASpell gooien, die kan volgens mij wel zelf zoeken of het een eigennaam is of niet. Een Nederlandse dictionary daarvoor vind je op http://tinf2.vub.ac.be/~d...re/dv/nl-aspell/download/. (http://tinf2.vub.ac.be/~d...e/dv/nl-aspell/index.html).

Edit: als je met PHP werkt moet je PSpell gebruiken (check de docs, het is geïntegreerd in PHP - mits je het meecompilet), dat is compatibel met ASpell.

[ Voor 22% gewijzigd door dingstje op 26-06-2004 17:56 ]

If you can't beat them, try harder


  • 4Real
  • Registratie: Juni 2001
  • Laatst online: 14-09-2024
hitchhacker schreef op 26 juni 2004 @ 17:54:
[...]


Eigennamen zijn prolly niet te vinden in een woordenboek.. ;)
En woorden die in het begin van een zin staan dan?

  • BKJ
  • Registratie: April 2000
  • Laatst online: 21-05 15:04
dingstje schreef op 26 juni 2004 @ 17:54:
Je kan het ook meteen door ASpell gooien, die kan volgens mij wel zelf zoeken of het een eigennaam is of niet. Een Nederlandse dictionary daarvoor vind je op http://tinf2.vub.ac.be/~d...re/dv/nl-aspell/download/. (http://tinf2.vub.ac.be/~d...e/dv/nl-aspell/index.html).
Als ik dat wil checken over een jaar bv dan moet ik voor elk woord een proces spawnen...niet echt fijn...

Ik kan die dutch.words zeker wel gebruiken! tnx

chill: dutch.word omvat 222911 woorden....

[ Voor 4% gewijzigd door BKJ op 26-06-2004 17:59 ]

Kamer huren


  • BKJ
  • Registratie: April 2000
  • Laatst online: 21-05 15:04
4Real schreef op 26 juni 2004 @ 17:54:
[...]

En woorden die in het begin van een zin staan dan?
Tja...das dan jammer..weet je een betere manier?

Kamer huren


  • dingstje
  • Registratie: Augustus 2002
  • Laatst online: 02-01-2024
Volgens mij gebruiken de PHP functions nog altijd de library van PSpell. Die maakt dus niet voor elk woordje dat je checkt een nieuw proces aan (anders zou het idd een beetje veel werk vragen van de server). Je laadt je dictionary dus 1 keer in je script en dan gooi je telkens woord voor woord naar pspell_check().

Eigennamen filteren zou je kunnen doen met een regexp waarbij je alle woorden die beginnen met een hoofdletter eruit filtert maar niet degene waar een '. ', '? ' of '! ' voor staat. Dan heb je toch al aardig wat woorden eruit gehaald.

If you can't beat them, try harder


  • djluc
  • Registratie: Oktober 2002
  • Laatst online: 24-05 13:32
Als je het echt goed wilt doen plaats je alle onbekende woorden met een hoofdletter in een wachtrij tabel. Vervolgens ga je deze goedkeuren of afkeuren. Dit vereist wel wat meer werk maar je bent een stuk zekerder.
Pagina: 1