Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
Ipsa Scientia Potestas Est
NNID: ShinNoNoir
Hmm, ik had al op diverse steekwoorden gezocht, maar niet letter frequentie. Bedankt.
edit: Blijkbaar is dat per woord geteld, dus in een woord als "geteld" krijgt de e maar 1 punt.
Ik heb nu van Opentaal een woordenlijst gedownload en een klein php scriptje gemaakt wat er doorheen kijkt voor de karakters.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
| <?php error_reporting(E_ALL); ini_set('display_errors', 'on'); $letters = array(); $contents = file_get_contents('woorden.txt'); $length = strlen($contents); for($i = 0; $i <= $length; $i++) { $char = strtolower(substr($contents, $i, 1)); if(ctype_alpha($char)) { if(!isset($letters[$char])) { $letters[$char] = 0; } $letters[$char]++; } } ksort($letters); foreach($letters as $char => $nr) { $letters[$char] = $nr / $length * 100; } file_put_contents('letters.txt', json_encode($letters)); ?> |
Dat leverde het volgende resultaat op, misschien heeft iemand er wat aan:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
| { "a":6.6924591947292, "b":1.9243994293671, "c":2.1099477179802, "d":3.5728402534998, "e":13.515781839662, "f":1.1135334252546, "g":3.4010362825617, "h":1.9951193050639, "i":7.1185817813708, "j":1.0531948958868, "k":2.696615632358, "l":4.3136687239278, "m":2.3111411341596, "n":6.7110773839202, "o":5.6542270843964, "p":2.3403843632555, "q":0.025344131883064, "r":7.230632087523, "s":5.3570183993524, "t":6.0457939219898, "u":2.4829451050977, "v":1.777305987015, "w":1.1047117178106, "x":0.089094371312002, "y":0.16205622790613, "z":0.72937487236549 } |
@hieronder, precies wat ik net heb gedaan.
[ Voor 74% gewijzigd door ZpAz op 22-04-2013 12:23 ]
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
Je hebt altijd de kans dat globale cijfers niets zeggen over jouw doelgroep.
edit: Misschien toch wel, volgens de eerder gegeven wiki komt ook de r vaker voor dan de n. Had ik niet verwacht.
[ Voor 30% gewijzigd door ZpAz op 22-04-2013 12:29 ]
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
Wellicht dat je ook beter kan kijken naar de letter frequentie in meest gebruikte/bekende woorden. Het Nederlands kent nogal wat obscure woorden die bijna niemand ooit nog gebruikt die de frequentieverhoudingen wat scheef kunnen trekken. Nog even los van alle samenstellingen enz. die dagelijks worden gebruikt, maar die wellicht nog niet in de woordenboeken staan (laat staan de opentaal lijst)ZpAz schreef op maandag 22 april 2013 @ 12:27:
Hmm, misschien heb ik wat fout in mijn code? Voor mijn gevoel komt een n veel vaker voor dan een r, maar volgens dat resultaat niet.
[...]
[ Voor 14% gewijzigd door Caelorum op 22-04-2013 12:59 ]
Wetenschappelijke zoektermen zijn o.a. Single-Letter Frequency, Single-Letter Versatility, Single-Letter Positioning, etc. Wellicht helpt dat je.
edit: Ik lees nu pas dat het gaat over een woordspel right? Dan heb je denk ik veel aan deze link: http://oxforddictionaries...f-the-alphabet-in-english
Hierin wordt uitgelegd dat het veel belangrijker is om te weten hoe veel vaker een letter voorkomt vergeleken met een andere letter. Daarnaast speelt de positie, zoals ik eerder aangaf, ook een cruciale rol. Woorden beginnen nou eenmaal vaker met bepaalde letters itt andere letters. Succes!
[ Voor 36% gewijzigd door Gusev op 22-04-2013 13:31 ]
Het idee is om een grid van letters te genereren (bv 5x5 oid, wat maar lekker speelt) en je hierbij woorden uit moet vissen. Dus een soort van woordzoeker, maar dan hoef je niet persee in rechte lijnen te spelen maar mag je een 'bocht' maken.Gusev schreef op maandag 22 april 2013 @ 13:27:
Ik denk dat je het, zoals hierboven ook is vermeld, moet zoeken in je bronbestand. Tijdens het schrijven van mijn masterthesis (1000-en papers) lag het ook voornamelijk aan de bronbestanden. Het aantal letters in een woord is natuurlijk cruciaal, en daarmee dus de woordlengten in je bronbestanden.
Wetenschappelijke zoektermen zijn o.a. Single-Letter Frequency, Single-Letter Versatility, Single-Letter Positioning, etc. Wellicht helpt dat je.
edit: Ik lees nu pas dat het gaat over een woordspel right? Dan heb je denk ik veel aan deze link: http://oxforddictionaries...f-the-alphabet-in-english
Hierin wordt uitgelegd dat het veel belangrijker is om te weten hoe veel vaker een letter voorkomt vergeleken met een andere letter. Daarnaast speelt de positie, zoals ik eerder aangaf, ook een cruciale rol. Woorden beginnen nou eenmaal vaker met bepaalde letters itt andere letters. Succes!
Woord gevonden? Krijg je punten, de letters op die plek in je grid worden dan vervangen voor nieuwe letters. Ik zoek dus iets waarmee ik 'een grid' kan maken waarmee vrij goed woorden te maken zijn. Niet dat er overal 'x-jes en y-tjes' verschijnen.
Heb een voorbeeld gemaakt met een grid die ik nu genereer, maar voor mijn gevoel zitten er veel te veel e-tjes in. (refresh voor een nieuw grid) http://matthijn.com/word/ weet niet of dat nu aan mijn 'generate' code ligt of aan de verhoudingen die ik eerder gefilterd heb. ( code http://cl.ly/OSQr )
13516 = hoogste waarde (e * 100). Elk getal afgrond op 0,2 achter de komma, dat keer 100 gedaan, mt_rand geeft namelijk enkel hele getallen terug.
Dan een random getal tussen 0 en 13516, dan loopen door alle waardes gesorteerd van klein naar groot. Komt het getal overeen of is het kleiner dan het getal waar hij momenteel in de loop is, dan echo ik die letter.
[ Voor 17% gewijzigd door ZpAz op 22-04-2013 13:46 ]
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
The problem with common sense is that it's not all that common. | LinkedIn | Flickr
Ja, ik denk dat het grid idee redelijk overeenkomt. Met Boggle werk je volgens mij per ronde enkel met een fixed set letters.
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
Dat weet ik wel vrij zeker; ik heb een paar keer refreshed maar een "gemiddeld" gridje ziet er zo uit:ZpAz schreef op maandag 22 april 2013 @ 13:39:
maar voor mijn gevoel zitten er veel te veel e-tjes in.
E E E S L E E E E K C E E V V E E E E E I S S O T
There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.
Je eigen tweaker.me redirect
Over mij
Ik bedoel maarRobIII schreef op maandag 22 april 2013 @ 13:58:
[...]
Dat weet ik wel vrij zeker; ik heb een paar keer refreshed maar een "gemiddeld" gridje ziet er zo uit:
E E E S L E E E E K C E E V V E E E E E I S S O T
Misschien kan ik hier wat mee. http://groupkos.com/boggle.php (iets naar onderen)
[ Voor 9% gewijzigd door ZpAz op 22-04-2013 14:05 ]
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
Ja, inderdaad, jouw idee om de letters die gebruikt zijn te vervangen is inderdaad andersZpAz schreef op maandag 22 april 2013 @ 13:48:
[...]
Ja, ik denk dat het grid idee redelijk overeenkomt. Met Boggle werk je volgens mij per ronde enkel met een fixed set letters.
Ik vraag me trouwens wel af of dat lekker werkt. Je gaat dan namelijk letters die lastig te gebruiken zijn steeds laten staan, en letters waar je wel wat mee kan vervangen. Als je dat te vaak doet zonder het hele bord te verversen, dan kan ik me voorstellen dat je op een gegeven moment alleen nog maar lastige letters overhoudt.
The problem with common sense is that it's not all that common. | LinkedIn | Flickr
Je krijgt random letters terug, er zou een kans kunnen bestaan dat je juist hierdoor nieuwe woorden kan maken denk ik. Even kijken of dat 'speelt'Orion84 schreef op maandag 22 april 2013 @ 14:05:
[...]
Ja, inderdaad, jouw idee om de letters die gebruikt zijn te vervangen is inderdaad anders
Ik vraag me trouwens wel af of dat lekker werkt. Je gaat dan namelijk letters die lastig te gebruiken zijn steeds laten staan, en letters waar je wel wat mee kan vervangen. Als je dat te vaak doet zonder het hele bord te verversen, dan kan ik me voorstellen dat je op een gegeven moment alleen nog maar lastige letters overhoudt.
edit:
Hmm, met de boggle letters heb je fixed dobbelstenen, en heb je dus dat je de dobbelstenen op je plek opnieuw gooit, en die dobbelstenen hebben vrij vaak dezelfde letter. Vraag me af hoe dat dan gaat.
[ Voor 13% gewijzigd door ZpAz op 22-04-2013 14:09 ]
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
[ Voor 95% gewijzigd door Caelorum op 22-04-2013 14:36 ]
http://matthijn.com/word/
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
Prepare for unforeseen consequences
Anders krijg je zo'n theoretisch gedoe terwijl er uiteindelijk geen woorden staan...
En niets is zo dodelijk voor een game als 5 minuten zoeken naar woorden die er niet zijn.
Ja, nee precies. Daar ben ik ook wat bang voor. Maar volgens mij werkt het met de 'de boggle stenen' wel aardig.Gomez12 schreef op maandag 22 april 2013 @ 15:16:
Op zich zou ik er wel iets aan vast hangen wat bijv na generatie bord kijkt of er wel minimaal x woorden inzitten, zoniet dan randomize bord opnieuw. En met verdraaiingen ook even kijken of er nog wel woorden op het bord staan en zoniet dan of ook bord randomizen of nieuwe letters substituten.
Anders krijg je zo'n theoretisch gedoe terwijl er uiteindelijk geen woorden staan...
En niets is zo dodelijk voor een game als 5 minuten zoeken naar woorden die er niet zijn.
@Hierboven, ruzzle lijkt wel op het idee inderdaad. Minus het idee van letters verwisselen.
[ Voor 6% gewijzigd door ZpAz op 22-04-2013 15:27 ]
Claude: "Domain patterns emerge from iteration, not generation." - Tweakers Time Machine Extension | Chrome : FF
Zo zijn er wel meer Boggle-achtigen. Ruzzle lijkt bijv. op Wordamentglrfndl schreef op maandag 22 april 2013 @ 15:16:
Lijkt op Ruzzle. Heb ik zelf een tijdje gespeeld, maar omdat je steeds met ongeveer dezelfde letterverdeling werkt merk je dat je heel vaak dezelfde woorden aan het maken bent.
Ik vind de aanpak van Wordament ook wel mooi. Ze genereren random een bord en checken het vervolgens op correctheid met een set van ong. 50 regels. En daarna nog met de hand, al is dat in jouw geval dan niet van toepassing.
[ Voor 8% gewijzigd door Caelorum op 22-04-2013 16:48 ]