Letterverdeling in woorden - Softwareontwikkeling

maandag 22 april 2013 11:42

Acties:

Topicstarter

Eigenlijk zaten mijn vingers te jeuken om deze korte vraag in de Devschuur te gooien, maar ook ik moet me aan de regeltjes houden hè.

Nu weet ik niet of dit nu precies de juiste plek is voor de vraag, misschien is GT een betere plek. Voor een idee welke ik heb voor een applicatie heb ik de letterverdeling van woorden nodig. (Yeah, another word game).

Bijvoorbeeld een e komt procentgewijs vaker voor in een woord dan een u. Is deze verhouding ergens te vinden voor de Nederlandse (en Engelse) taal?

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 11:45

Acties:

RayNbow

Kirika <3

Kijk eens aan: Wikipedia: Letter frequency

Ipsa Scientia Potestas Est
NNID: ShinNoNoir

maandag 22 april 2013 11:56

Acties:

ZpAz

Topicstarter

RayNbow schreef op maandag 22 april 2013 @ 11:45:
Kijk eens aan: Wikipedia: Letter frequency

Hmm, ik had al op diverse steekwoorden gezocht, maar niet letter frequentie. Bedankt.
edit: Blijkbaar is dat per woord geteld, dus in een woord als "geteld" krijgt de e maar 1 punt.

Ik heb nu van Opentaal een woordenlijst gedownload en een klein php scriptje gemaakt wat er doorheen kijkt voor de karakters.

PHP:

<?php
error_reporting(E_ALL);
ini_set('display_errors', 'on');

    $letters = array();
    $contents = file_get_contents('woorden.txt');
    $length = strlen($contents);
    for($i = 0; $i <= $length; $i++)
    {
        $char = strtolower(substr($contents, $i, 1));
        if(ctype_alpha($char))
        {
            if(!isset($letters[$char]))
            {
                $letters[$char] = 0;
            }
            $letters[$char]++;
        }
    }
    
    ksort($letters);
    foreach($letters as $char => $nr)
    {
        $letters[$char] = $nr / $length * 100;
    }
    
    file_put_contents('letters.txt', json_encode($letters));
    
?>

Dat leverde het volgende resultaat op, misschien heeft iemand er wat aan:

JavaScript:

{
   "a":6.6924591947292,
   "b":1.9243994293671,
   "c":2.1099477179802,
   "d":3.5728402534998,
   "e":13.515781839662,
   "f":1.1135334252546,
   "g":3.4010362825617,
   "h":1.9951193050639,
   "i":7.1185817813708,
   "j":1.0531948958868,
   "k":2.696615632358,
   "l":4.3136687239278,
   "m":2.3111411341596,
   "n":6.7110773839202,
   "o":5.6542270843964,
   "p":2.3403843632555,
   "q":0.025344131883064,
   "r":7.230632087523,
   "s":5.3570183993524,
   "t":6.0457939219898,
   "u":2.4829451050977,
   "v":1.777305987015,
   "w":1.1047117178106,
   "x":0.089094371312002,
   "y":0.16205622790613,
   "z":0.72937487236549
}

@hieronder, precies wat ik net heb gedaan.

[ Voor 74% gewijzigd door ZpAz op 22-04-2013 12:23 ]

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 12:20

Acties:

Gomez12

Wat ik wel als additioneel iets zou doen is om een zooitje voorbeeldwoorden / documenten te verzamelen en het daar zelf ook nog eens over uit te rekenen.

Je hebt altijd de kans dat globale cijfers niets zeggen over jouw doelgroep.

maandag 22 april 2013 12:27

Acties:

ZpAz

Topicstarter

Hmm, misschien heb ik wat fout in mijn code? Voor mijn gevoel komt een n veel vaker voor dan een r, maar volgens dat resultaat niet.

edit: Misschien toch wel, volgens de eerder gegeven wiki komt ook de r vaker voor dan de n. Had ik niet verwacht.

[ Voor 30% gewijzigd door ZpAz op 22-04-2013 12:29 ]

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 12:31

Acties:

Japius

Je zou er ook nog een inverse van de score voor de letters in Scrabble tegenaan kunnen houden: dat zou globaal hetzelfde moeten zijn denk ik.

maandag 22 april 2013 12:37

Acties:

coenbijlsma

Je zou ook nog eens hier kunnen kijken: Wikipedia: Huffmancodering

maandag 22 april 2013 12:56

Acties:

Caelorum

ZpAz schreef op maandag 22 april 2013 @ 12:27:
Hmm, misschien heb ik wat fout in mijn code? Voor mijn gevoel komt een n veel vaker voor dan een r, maar volgens dat resultaat niet.
[...]

Wellicht dat je ook beter kan kijken naar de letter frequentie in meest gebruikte/bekende woorden. Het Nederlands kent nogal wat obscure woorden die bijna niemand ooit nog gebruikt die de frequentieverhoudingen wat scheef kunnen trekken. Nog even los van alle samenstellingen enz. die dagelijks worden gebruikt, maar die wellicht nog niet in de woordenboeken staan (laat staan de opentaal lijst)

[ Voor 14% gewijzigd door Caelorum op 22-04-2013 12:59 ]

maandag 22 april 2013 13:27

Acties:

Gusev

Ik denk dat je het, zoals hierboven ook is vermeld, moet zoeken in je bronbestand. Tijdens het schrijven van mijn masterthesis (1000-en papers) lag het ook voornamelijk aan de bronbestanden. Het aantal letters in een woord is natuurlijk cruciaal, en daarmee dus de woordlengten in je bronbestanden.

Wetenschappelijke zoektermen zijn o.a. Single-Letter Frequency, Single-Letter Versatility, Single-Letter Positioning, etc. Wellicht helpt dat je.

edit: Ik lees nu pas dat het gaat over een woordspel right? Dan heb je denk ik veel aan deze link: http://oxforddictionaries...f-the-alphabet-in-english

Hierin wordt uitgelegd dat het veel belangrijker is om te weten hoe veel vaker een letter voorkomt vergeleken met een andere letter. Daarnaast speelt de positie, zoals ik eerder aangaf, ook een cruciale rol. Woorden beginnen nou eenmaal vaker met bepaalde letters itt andere letters. Succes!

[ Voor 36% gewijzigd door Gusev op 22-04-2013 13:31 ]

maandag 22 april 2013 13:39

Acties:

ZpAz

Topicstarter

Gusev schreef op maandag 22 april 2013 @ 13:27:
Ik denk dat je het, zoals hierboven ook is vermeld, moet zoeken in je bronbestand. Tijdens het schrijven van mijn masterthesis (1000-en papers) lag het ook voornamelijk aan de bronbestanden. Het aantal letters in een woord is natuurlijk cruciaal, en daarmee dus de woordlengten in je bronbestanden.

Wetenschappelijke zoektermen zijn o.a. Single-Letter Frequency, Single-Letter Versatility, Single-Letter Positioning, etc. Wellicht helpt dat je.

edit: Ik lees nu pas dat het gaat over een woordspel right? Dan heb je denk ik veel aan deze link: http://oxforddictionaries...f-the-alphabet-in-english

Hierin wordt uitgelegd dat het veel belangrijker is om te weten hoe veel vaker een letter voorkomt vergeleken met een andere letter. Daarnaast speelt de positie, zoals ik eerder aangaf, ook een cruciale rol. Woorden beginnen nou eenmaal vaker met bepaalde letters itt andere letters. Succes!

Het idee is om een grid van letters te genereren (bv 5x5 oid, wat maar lekker speelt) en je hierbij woorden uit moet vissen. Dus een soort van woordzoeker, maar dan hoef je niet persee in rechte lijnen te spelen maar mag je een 'bocht' maken.

Woord gevonden? Krijg je punten, de letters op die plek in je grid worden dan vervangen voor nieuwe letters. Ik zoek dus iets waarmee ik 'een grid' kan maken waarmee vrij goed woorden te maken zijn. Niet dat er overal 'x-jes en y-tjes' verschijnen.

Heb een voorbeeld gemaakt met een grid die ik nu genereer, maar voor mijn gevoel zitten er veel te veel e-tjes in. (refresh voor een nieuw grid) http://matthijn.com/word/ weet niet of dat nu aan mijn 'generate' code ligt of aan de verhoudingen die ik eerder gefilterd heb. ( code http://cl.ly/OSQr )

13516 = hoogste waarde (e * 100). Elk getal afgrond op 0,2 achter de komma, dat keer 100 gedaan, mt_rand geeft namelijk enkel hele getallen terug.

Dan een random getal tussen 0 en 13516, dan loopen door alle waardes gesorteerd van klein naar groot. Komt het getal overeen of is het kleiner dan het getal waar hij momenteel in de loop is, dan echo ik die letter.

[ Voor 17% gewijzigd door ZpAz op 22-04-2013 13:46 ]

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 13:46

Acties:

Orion84

Admin Wonen & Mobiliteit

Fotogenie(k)?

Ah, Wikipedia: Boggle dus

The problem with common sense is that it's not all that common. | LinkedIn | Flickr

maandag 22 april 2013 13:48

Acties:

ZpAz

Topicstarter

Orion84 schreef op maandag 22 april 2013 @ 13:46:
Ah, Wikipedia: Boggle dus

Ja, ik denk dat het grid idee redelijk overeenkomt. Met Boggle werk je volgens mij per ronde enkel met een fixed set letters.

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 13:58

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

ZpAz schreef op maandag 22 april 2013 @ 13:39:
maar voor mijn gevoel zitten er veel te veel e-tjes in.

Dat weet ik wel vrij zeker; ik heb een paar keer refreshed maar een "gemiddeld" gridje ziet er zo uit:

E E E S L 
E E E E K 
C E E V V 
E E E E E 
I S S O T

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

maandag 22 april 2013 14:00

Acties:

ZpAz

Topicstarter

RobIII schreef op maandag 22 april 2013 @ 13:58:
[...]

Dat weet ik wel vrij zeker; ik heb een paar keer refreshed maar een "gemiddeld" gridje ziet er zo uit:
E E E S L 
E E E E K 
C E E V V 
E E E E E 
I S S O T 

Ik bedoel maar

-- Hmm, dan eens zoeken wat de letters zijn in een boggle setje en dat gebruiken

Misschien kan ik hier wat mee. http://groupkos.com/boggle.php (iets naar onderen)

[ Voor 9% gewijzigd door ZpAz op 22-04-2013 14:05 ]

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 14:05

Acties:

Orion84

Admin Wonen & Mobiliteit

Fotogenie(k)?

ZpAz schreef op maandag 22 april 2013 @ 13:48:
[...]

Ja, ik denk dat het grid idee redelijk overeenkomt. Met Boggle werk je volgens mij per ronde enkel met een fixed set letters.

Ja, inderdaad, jouw idee om de letters die gebruikt zijn te vervangen is inderdaad anders

Ik vraag me trouwens wel af of dat lekker werkt. Je gaat dan namelijk letters die lastig te gebruiken zijn steeds laten staan, en letters waar je wel wat mee kan vervangen. Als je dat te vaak doet zonder het hele bord te verversen, dan kan ik me voorstellen dat je op een gegeven moment alleen nog maar lastige letters overhoudt.

The problem with common sense is that it's not all that common. | LinkedIn | Flickr

maandag 22 april 2013 14:06

Acties:

ZpAz

Topicstarter

Orion84 schreef op maandag 22 april 2013 @ 14:05:
[...]

Ja, inderdaad, jouw idee om de letters die gebruikt zijn te vervangen is inderdaad anders

Ik vraag me trouwens wel af of dat lekker werkt. Je gaat dan namelijk letters die lastig te gebruiken zijn steeds laten staan, en letters waar je wel wat mee kan vervangen. Als je dat te vaak doet zonder het hele bord te verversen, dan kan ik me voorstellen dat je op een gegeven moment alleen nog maar lastige letters overhoudt.

Je krijgt random letters terug, er zou een kans kunnen bestaan dat je juist hierdoor nieuwe woorden kan maken denk ik. Even kijken of dat 'speelt'

edit:

Hmm, met de boggle letters heb je fixed dobbelstenen, en heb je dus dat je de dobbelstenen op je plek opnieuw gooit, en die dobbelstenen hebben vrij vaak dezelfde letter. Vraag me af hoe dat dan gaat.

[ Voor 13% gewijzigd door ZpAz op 22-04-2013 14:09 ]

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 14:35

Acties:

Caelorum

ah, nevermind

[ Voor 95% gewijzigd door Caelorum op 22-04-2013 14:36 ]

maandag 22 april 2013 14:37

Acties:

ZpAz

Topicstarter

Heb een 'bord' generator gemaakt dmv de eerdere boggle dobbelstenen, je kan letters aanklikken en als je dan op 'randomize' drukt worden die letters vervangen voor andere woorden. Ben benieuwd of dat wat 'speelt' (het slaat geen woorden op nog).

http://matthijn.com/word/

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 15:16

Acties:

glrfndl

Lijkt op Ruzzle. Heb ik zelf een tijdje gespeeld, maar omdat je steeds met ongeveer dezelfde letterverdeling werkt merk je dat je heel vaak dezelfde woorden aan het maken bent.

Prepare for unforeseen consequences

maandag 22 april 2013 15:16

Acties:

Gomez12

Op zich zou ik er wel iets aan vast hangen wat bijv na generatie bord kijkt of er wel minimaal x woorden inzitten, zoniet dan randomize bord opnieuw. En met verdraaiingen ook even kijken of er nog wel woorden op het bord staan en zoniet dan of ook bord randomizen of nieuwe letters substituten.

Anders krijg je zo'n theoretisch gedoe terwijl er uiteindelijk geen woorden staan...

En niets is zo dodelijk voor een game als 5 minuten zoeken naar woorden die er niet zijn.

maandag 22 april 2013 15:25

Acties:

ZpAz

Topicstarter

Gomez12 schreef op maandag 22 april 2013 @ 15:16:
Op zich zou ik er wel iets aan vast hangen wat bijv na generatie bord kijkt of er wel minimaal x woorden inzitten, zoniet dan randomize bord opnieuw. En met verdraaiingen ook even kijken of er nog wel woorden op het bord staan en zoniet dan of ook bord randomizen of nieuwe letters substituten.

Anders krijg je zo'n theoretisch gedoe terwijl er uiteindelijk geen woorden staan...

En niets is zo dodelijk voor een game als 5 minuten zoeken naar woorden die er niet zijn.

Ja, nee precies. Daar ben ik ook wat bang voor. Maar volgens mij werkt het met de 'de boggle stenen' wel aardig.

@Hierboven, ruzzle lijkt wel op het idee inderdaad. Minus het idee van letters verwisselen.

[ Voor 6% gewijzigd door ZpAz op 22-04-2013 15:27 ]

Tweakers Time Machine Extension | Chrome : FF

maandag 22 april 2013 16:45

Acties:

Caelorum

glrfndl schreef op maandag 22 april 2013 @ 15:16:
Lijkt op Ruzzle. Heb ik zelf een tijdje gespeeld, maar omdat je steeds met ongeveer dezelfde letterverdeling werkt merk je dat je heel vaak dezelfde woorden aan het maken bent.

Zo zijn er wel meer Boggle-achtigen. Ruzzle lijkt bijv. op Wordament

Ik vind de aanpak van Wordament ook wel mooi. Ze genereren random een bord en checken het vervolgens op correctheid met een set van ong. 50 regels. En daarna nog met de hand, al is dat in jouw geval dan niet van toepassing.

[ Voor 8% gewijzigd door Caelorum op 22-04-2013 16:48 ]