[PHP] Stack-based Parsing

donderdag 19 december 2002 16:23

eerst tokens maken van je string, dus via regular expressions tokens matchen. Daarna die tokens parsen. Dit kun je doen met bv een LR(0) parser, of een LR(1) parser. Zie bv http://www.wikipedia.org/wiki/LR(0)_parser voor hoe je een LR(0) parser bouwt. Het punt is niet dat je tokens gaat herkennen, maar dat je je tokenstream toetst aan de grammatica die je hebt opgesteld. Het is geen simpele materie, dus maak je borst maar nat

[ Voor 3% gewijzigd door EfBe op 19-12-2002 15:50 ]

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

Acties:

brammetje

als je php gebruikt is het nuttig dit eens door te kijken. De bron is ook beschikbaar.

donderdag 19 december 2002 16:32

Acties:

tomato

Ik denk dat het opstellen van een grammatica iets te hoog gegrepen is voor een beginner en daarnaast helemaal niet nodig is voor wat hij wil.

Ga inderdaad te werk zoals Janoz voorstelt, ipv van een findfirst method kun je natuurlijk ook zelf teken voor teken de string aflopen en kijken of je een character tegenkomt waar je iets mee kunt. Regular expressions zou ik hierbij inderdaad niet gebruiken. Als je goed doorhebt hoe het werkt en je wilt ingewikkelder dingen doen kun je altijd kijken of je makkelijke truckjes ziet waarvoor je een regex kunt gebruiken.

Een simpele opzet in PHP:

PHP:

$text = 'wat je wilt parsen';

$open_character = '[';
$close_character = ']';

$index = 0;

do {

    if ($text[$index] == $open_character) {

        // We zijn binnen een nieuwe tag beland
        // push() de stack

    } else if ($text[$index] == $close_character) {

        // We zijn nu de laatste tag weer uit
        // pop() de stack

    }

} while (++$index < strlen($text));

Dit is natuurlijk een wat versimpelde uitvoering, het gaat uit van genestte '[...]' structures, waarschijnlijk heb je langere open/close tokens.

Je kunt dit gemakkelijk uitbreiden met support voor het escapen van '[' en ']' dmv bijvoorbeeld een '\' teken en heel veel andere leuke dingen.

[ Voor 12% gewijzigd door tomato op 19-12-2002 16:36 . Reden: Verduidelijking ]

donderdag 19 december 2002 16:50

Acties:

donderdag 19 december 2002 16:56

tomato: als er geen regels zijn dan kun je net zo goed bv '[' vervangen door '<' en ']' vervangen door '>', dat als XML inlezen in een XML DOM, daar een XSL tegenaanhouden en klaar. Echter de ellende begint bv wanneer je binnen bepaalde tags geen andere tags toestaat, bv geen quote tags binnen code tags, ik noem maar iets. Dan verzand je al snel in 'wat heb ik gezien' (oftewel in welke productionrule zit ik) en welke regels horen daarbij. Dat zal snel erg complex worden.

[ Voor 9% gewijzigd door EfBe op 19-12-2002 16:51 ]

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

Acties:

tomato

EfBe schreef op 19 December 2002 @ 16:50:
tomato: als er geen regels zijn dan kun je net zo goed bv '[' vervangen door '<' en ']' vervangen door '>', dat als XML inlezen in een XML DOM, daar een XSL tegenaanhouden en klaar. Echter de ellende begint bv wanneer je binnen bepaalde tags geen andere tags toestaat, bv geen quote tags binnen code tags, ik noem maar iets. Dan verzand je al snel in 'wat heb ik gezien' (oftewel in welke productionrule zit ik) en welke regels horen daarbij. Dat zal snel erg complex worden.

Dat is waar, maar ik weet niet of het nou zo'n goed idee is direct met grammatica's te gaan gooien naar iemand die nog niet weet hoe hij zelf met een stack genestte structuren kan parseren.

Wat jij noemt is inderdaad vrij triviaal op te lossen met productieregels, maar ook met een stackparser is dat best te doen als je het jezelf niet te moeilijk maakt.

donderdag 19 december 2002 17:33

Acties:

donderdag 19 december 2002 17:56

Ben je een (stackbased) template parser aan het schrijven? Heb ik ook es ooit gedaan (een maand of twee geleden denk ik

) Bekijk hier een test-scherm, en mogelijke template-files

Mijn aanpak:

• Array opbouwen dmv strtok, alle gewone tekst scheiden van tags
• Loopen door die array, met preg_match kijken of een stuk een tag is of een stuk tekst, en vervolgens een array elements en een array elementTypes bouwen.
• Vervolgens loopen door die array en met een stack checken of elke sluittag z'n begintag matched enz.

800 regels code ongeveer

[ Voor 43% gewijzigd door MisterData op 19-12-2002 17:34 ]

Acties:

Nielsz

MisterData schreef op 19 December 2002 @ 17:33:
Ben je een (stackbased) template parser aan het schrijven? Heb ik ook es ooit gedaan (een maand of twee geleden denk ik ) Bekijk hier een test-scherm, en mogelijke template-files Mijn aanpak:

• Array opbouwen dmv strtok, alle gewone tekst scheiden van tags
• Loopen door die array, met preg_match kijken of een stuk een tag is of een stuk tekst, en vervolgens een array elements en een array elementTypes bouwen.
• Vervolgens loopen door die array en met een stack checken of elke sluittag z'n begintag matched enz. 800 regels code ongeveer

Ik heb een stackbased UBBparser geschreven

Ongeveer dezelfde aanpak.
http://nielsz.servicez.org/parser/index.php
700 regels geloof ik

donderdag 19 december 2002 18:13

Acties:

Verwijderd

Topicstarter

k heb het geprobeerd met preg_match_all() :

PHP:

#open tml file 
$filename='templates/main.tml'; 
$fp = fopen($filename,'r'); 
$tml = fread($fp, filesize($filename)); 
fclose ($fp); 
#start arsing 
$grammer = "/\\[(BLOCK|END)( [A-Za-z0-9_.\/]+)( (LOOP|IF_FOUND|INCLUDE|RE_USE) ([A-Za-z0-9_.\/]+))?]/";
preg_match_all($grammer, $tml, $backRef);

geeft :

PHP:

het leek me dat ik daar wel wat mee kan

heeft volgens mij ongeveer hetzelfde ffect als strtok
want daarmee heb ik het volgende gedaan :

PHP:

$iBlock = sizeof($backRef[1]);
$blocks=array();
$error=array();
while($i<$iBlock) {
    switch($backRef[1][$i]) {
        case 'BLOCK' :
            array_push($blocks,$backRef[2][$i]);
            $error[sizeof($error)] = 'pushed '.$backRef[2][$i];
        break;
        case 'END' :
            if($backRef[2][$i]==$blocks[sizeof($blocks)-1]) {
                switch ($backRef[4][$i-1]) {
                    case 'LOOP' :
                        
                        for($h=0;$h<$backRef[5][$i-1];$h++) {
                        
                        }
                    break;
                }
                $error[sizeof($error)] = 'parsed '.$backRef[2][$i];
                array_pop($blocks);
            }
                else {
                    $error[sizeof($error)] = $blocks[sizeof($blocks)-1].' wasn\'t closed properly.';
                    array_pop($blocks);
                }
            #de cases gaan ver met de vars die in de grammer worden opgezocht
        break;
    }
    $i++;
}

$blocks is dan mijn stack. en van hieruit kan ik den ik wel wat maken lijkt me.
ik vraag me alleen af, als het af is en netjes in een class staat en er een debug mode inzet etc., of het niet een enorme parsetime veroorzaakt?

donderdag 19 december 2002 19:50

Acties:

.oisyn

Moderator Devschuur®

Demotivational Speaker

Php

EfBe schreef op 19 December 2002 @ 15:48:
eerst tokens maken van je string, dus via regular expressions tokens matchen. Daarna die tokens parsen. Dit kun je doen met bv een LR(0) parser, of een LR(1) parser. Zie bv http://www.wikipedia.org/wiki/LR(0)_parser voor hoe je een LR(0) parser bouwt. Het punt is niet dat je tokens gaat herkennen, maar dat je je tokenstream toetst aan de grammatica die je hebt opgesteld. Het is geen simpele materie, dus maak je borst maar nat

Voor een parser als dit is het een beetje onzin om een grammatica ervoor op te stellen. Je hebt namelijk een open-tag en een sluit-tag, die bovendien moeten matchen. Als je een grammatica opstelt bouw je slechts een superset van wat je wilt hebben; met de parser kun je niet controleren of de open en close tag bij elkaar horen, dat moet je dan weer in de semantic checker gaan doen. Dan kun je het beste gewoon die 2 dingen combineren en met de hand een parser bouwen, wat in dit geval echt totaal niet veel werk is

Give a man a game and he'll have fun for a day. Teach a man to make games and he'll never have fun again.

donderdag 19 december 2002 20:16

Acties:

Verwijderd

Topicstarter

oke, mijn aanpak werkte dus niet, kom in nergens omdat ik het stuk tussen de open en close tags niet heb opgevraagd, als ik dat dan ook nog eens appart moet gaan doen, wordt de laadt tijd te groot.
dus ga ik maar is kijken naar doe strtok
guess you where right MrData.

donderdag 19 december 2002 20:36

Acties:

donderdag 19 december 2002 21:05

.oisyn schreef op 19 December 2002 @ 19:50:
Voor een parser als dit is het een beetje onzin om een grammatica ervoor op te stellen. Je hebt namelijk een open-tag en een sluit-tag, die bovendien moeten matchen. Als je een grammatica opstelt bouw je slechts een superset van wat je wilt hebben; met de parser kun je niet controleren of de open en close tag bij elkaar horen, dat moet je dan weer in de semantic checker gaan doen.

Wellicht praten we over verschillende dingen

Maar je hebt een lexical analyzer die tokens bakt en een parser die tokens scant om productieregels te verifieren. Wat ik parser noem noem jij semantic checker

Dan kun je het beste gewoon die 2 dingen combineren en met de hand een parser bouwen, wat in dit geval echt totaal niet veel werk is

In het geval van simpele tags als bold etc niet nee. Maar 'even' een parser met de hand maken voor een resiment uitzonderingen is niet 1 2 3 gedaan. Bv de UBB die op GoT wordt gebruikt bevat al aardig wat uitzonderingen, daar schrijf je niet 1 2 3 een 'parser' voor met de hand. Ik bedoel: stel je wilt binnen een bold tag geen quotes en binnen code geen quotes, maar 1 nestlevel diep quotetexts, etc.

Dat wordt gauw complex

(Als je de UBB syntax uitschrijft in BNF zit je zonder smileys al rond de 70 productieregels, dat doe je niet 1 2 3 met de hand)

Creator of: LLBLGen Pro | Camera mods for games
Photography portfolio: https://fransbouma.com

Acties:

donderdag 19 december 2002 21:32

Nielsz schreef op 19 december 2002 @ 17:56:
[...]

Ik heb een stackbased UBBparser geschreven Ongeveer dezelfde aanpak.
http://nielsz.servicez.org/parser/index.php
700 regels geloof ik

Die van mij kan ook met UBB overweg (een klein beetje, is natuurlijk uitbreidbaar), en ik denk dat ik em nog ooit es vrijgeef op GoT ofzo

Acties:

donderdag 19 december 2002 21:44

MisterData schreef op 19 December 2002 @ 21:05:
[...]

Die van mij kan ook met UBB overweg (een klein beetje, is natuurlijk uitbreidbaar), en ik denk dat ik em nog ooit es vrijgeef op GoT ofzo

Waarom niet nu

The NS has launched a new space transportation service, using German trains which were upgraded into spaceships.

Acties:

donderdag 19 december 2002 21:53

Tux schreef op 19 December 2002 @ 21:32:
[...]

Waarom niet nu

Ach waarom niet he

Licentie: gratis voor niet-commercieel gebruik. Wil je hem toch commercieel gebruiken, mail me dan even (in m'n profiel staat m'n mailadres).

http://quatro.ath.cx/meuk/misterdata-stackbased-tpl-1.0.zip

Acties:

donderdag 19 december 2002 21:56

MisterData schreef op 19 december 2002 @ 21:44:
[...]

Ach waarom niet he Licentie: gratis voor niet-commercieel gebruik. Wil je hem toch commercieel gebruiken, mail me dan even (in m'n profiel staat m'n mailadres).

http://quatro.ath.cx/meuk/misterdata-stackbased-tpl-1.0.zip

Ontzettend bedankt

Ik wil namelijk wat meer leren over stackbased parsing, dus ik ga die code eens bekijken

The NS has launched a new space transportation service, using German trains which were upgraded into spaceships.

Acties:

donderdag 19 december 2002 22:10

Tux schreef op 19 December 2002 @ 21:53:
[...]

Ontzettend bedankt
Ik wil namelijk wat meer leren over stackbased parsing, dus ik ga die code eens bekijken

Bereid je dan maar voor op een 800-regels lange brij van code zonder commentaar

Acties:

Nielsz

MisterData schreef op 19 December 2002 @ 21:56:
[...]

Bereid je dan maar voor op een 800-regels lange brij van code zonder commentaar

offtopic:
Ik heb alleen regels code staan met commentaar als "Huh? Wat doet dit hier

"

[ Voor 5% gewijzigd door Nielsz op 19-12-2002 22:10 ]

donderdag 19 december 2002 22:13

Acties:

donderdag 19 december 2002 22:18

Nielsz schreef op 19 december 2002 @ 22:10:
[...]

offtopic:
Ik heb alleen regels code staan met commentaar als "Huh? Wat doet dit hier "

offtopic:
mwah, als er een vrijwilliger is die het even wil documenteren....

Acties:

whoami

offtopic:
800 LOC is peanuts....

[ Voor 33% gewijzigd door whoami op 19-12-2002 22:18 ]

https://fgheysels.github.io/

donderdag 19 december 2002 22:24

Acties:

donderdag 19 december 2002 22:32

MisterData schreef op 19 December 2002 @ 22:13:
[...]

offtopic:
mwah, als er een vrijwilliger is die het even wil documenteren....

Ik heb vakantie en ik ben van plan om de source uit te pluizen

Ik heb vanmiddag nog in mn hardcoded str_replace() parser voor mn forum (andere manier lastig omdat die bijna alles als template ophaalt en nogal wat specifieke functies nodig) helemaal zitten commenten

edit:
Zijn er maar 738

[ Voor 4% gewijzigd door Tux op 19-12-2002 22:26 ]

The NS has launched a new space transportation service, using German trains which were upgraded into spaceships.

Acties:

Nielsz

Tux schreef op 19 december 2002 @ 22:24:
[...]

edit:
Zijn er maar 738

offtopic:
550

Ik ga die van mij ook nog wel eens releasen, zodra hij echt goed af is. Maarja, tijdgebrek enzo. Het is wel heel leerzaam. Maar hij's wel bagger geprogrammeerd

donderdag 19 december 2002 22:34

Acties:

donderdag 19 december 2002 22:58

Nielsz schreef op 19 December 2002 @ 22:32:
[...]

[offtopic]550 [/oftopic]

Ik ga die van mij ook nog wel eens releasen, zodra hij echt goed af is. Maarja, tijdgebrek enzo. Het is wel heel leerzaam. Maar hij's wel bagger geprogrammeerd

Heel leerzaam is het wel ja

Als je voor het eerst iets met stacks ziet dan denk je wel ff 'WTF', maar stukje bij beetje begint het helder te worden

The NS has launched a new space transportation service, using German trains which were upgraded into spaceships.

Acties:

.oisyn

Moderator Devschuur®

Demotivational Speaker

Php

EfBe schreef op 19 december 2002 @ 20:36:
Wellicht praten we over verschillende dingen Maar je hebt een lexical analyzer die tokens bakt en een parser die tokens scant om productieregels te verifieren. Wat ik parser noem noem jij semantic checker

zeker niet, ik ben bezig met een eigen scripttaal voor games mbv flex en bison, dus ik weet wel min of meer waar het over gaat

De grammatica voor een parser die hier bedoelt wordt is niet meer dan dit:

code:

1 2	text -> OPEN_TAG text CLOSE_TAG text -> STRING

Daar heb je echt geen parser generator voor nodig om dat met de hand te coden hoor

Bovendien, als een stuk geparsed is en er een abstract syntax tree van is gemaakt, dan moet je nog kijken of de close tag de open tag matcht (dan controleer je dus op semantics, niet op syntax)

Een optie is om de scanner (lexical analyser, tokenizer, whatever you want to call it) alleen close tags te herkennen als ze bij de open tag horen. Desalniettemin heb je nog steeds geen parser generator nodig om die 2 production rules in te bouwen

In het geval van simpele tags als bold etc niet nee. Maar 'even' een parser met de hand maken voor een resiment uitzonderingen is niet 1 2 3 gedaan. Bv de UBB die op GoT wordt gebruikt bevat al aardig wat uitzonderingen, daar schrijf je niet 1 2 3 een 'parser' voor met de hand. Ik bedoel: stel je wilt binnen een bold tag geen quotes en binnen code geen quotes, maar 1 nestlevel diep quotetexts, etc. Dat wordt gauw complex (Als je de UBB syntax uitschrijft in BNF zit je zonder smileys al rond de 70 productieregels, dat doe je niet 1 2 3 met de hand)

dat UBB op GoT heet RML

Maar dat even terzijde, je hoeft heus niet al je productieregels uit te schrijven voor elke tag. Je kunt simpelweg voldoen met een lijstje ondersteunde tags (en attributen), en vervolgens kun je in een tabel opzoeken welke tag in welke mogen. Met React (de forumsoftware hier op GoT) kun je die rechten (ik noem het maar even rechten) gewoon on the fly aanpassen, daar gaan de Parse lui echt niet de hele tijd nieuwe grammatica's voor zitten maken hoor

Give a man a game and he'll have fun for a day. Teach a man to make games and he'll never have fun again.

donderdag 19 december 2002 23:36

Acties:

stekkel

ben zelf ook veel bezig met parsers.
Ik heb een o.a. een imap bodystructure parser geschreven wat gebruikt maakt van een recursive functie om een tree te vullen. Ik maak dus geen gebruik van een stack maar sla het gelijk op in een tree.

dingen zoals regex en pregmatch werken absoluut niet voor imap-parsers. Het probleem is namelijk dat je tokens ook in bijvoorbeeld quoted strings kunnen voorkomen en dan juist weer niet als erkende token behandeld mag worden. De oplossing was gewoon simpel left to right parsing en waar mogelijk findfirst achtige dingen gebruiken (strpos). Op deze manier parse je dus alles zonder dat je een stack nodig hebt om alles eerst in op te slaan.

vrijdag 20 december 2002 08:34

Acties: