Ik wil met python bepaalde tekstdelen uit een txt bestand halen. Uit een eerdere topic is mij geadviseerd daarvoor met regex te experimenteren. Dat blijkt niet zo eenvoudig.
Het is mij wel al gelukt een regex string te maken die een match geeft op alle tekstdelen. Het gaat er nu om de juiste bijbehorende python code te kiezen waarmee ik een specifiek deel uit dit tekstbestand kan ophalen om dit in een ander bestand te schrijven. Ik heb hiervoor een oefenbestand gemaakt. In dit tekstbestand staan tekstdelen die gekenmerkt worden door een begincode en een eindcode. De begincode luidt: "* 00" of "*01" of "* 02" enz. Al deze tekstdelen eindigen met een enkele "*".
Het bestand ziet er als volgt uit:
=============================================
* 00
Dit is the inleiding.
*
* 01
Dit is deel 1. Dit is deel 1.Dit is deel 1. Dit is deel 1.
Dit is deel 1. Dit is deel 1.
*
* 02
Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2.
Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2.
8
* 03
Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3.
Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3.
*
* 11
Dit is deel 11. Dit is deel 11. Dit is deel 11. Dit is deel 11.
Dit is deel 11.
*
* 33
Dit is deel 33
*
=============================================
De regex string die ik gevonden heb, ziet er als volgt uit: \*\s?\d+[\n](.+\n)(\n?\*)
Mijn vraag is nu: Hoe zet ik een python code op waarmee ik bijvoorbeeld
de hele tekst "Dit is deel 3 .............." wil opvragen?
Ik weet dat ik het commando re.findall() bij "lines" moet gebruiken, maar al mijn pogingen stranden hier tot nu. Ik ben het spoor bijster.
Wie kan mij op weg helpen?
Het is mij wel al gelukt een regex string te maken die een match geeft op alle tekstdelen. Het gaat er nu om de juiste bijbehorende python code te kiezen waarmee ik een specifiek deel uit dit tekstbestand kan ophalen om dit in een ander bestand te schrijven. Ik heb hiervoor een oefenbestand gemaakt. In dit tekstbestand staan tekstdelen die gekenmerkt worden door een begincode en een eindcode. De begincode luidt: "* 00" of "*01" of "* 02" enz. Al deze tekstdelen eindigen met een enkele "*".
Het bestand ziet er als volgt uit:
=============================================
* 00
Dit is the inleiding.
*
* 01
Dit is deel 1. Dit is deel 1.Dit is deel 1. Dit is deel 1.
Dit is deel 1. Dit is deel 1.
*
* 02
Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2.
Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2. Dit is deel 2.
8
* 03
Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3.
Dit is deel 3. Dit is deel 3. Dit is deel 3. Dit is deel 3.
*
* 11
Dit is deel 11. Dit is deel 11. Dit is deel 11. Dit is deel 11.
Dit is deel 11.
*
* 33
Dit is deel 33
*
=============================================
De regex string die ik gevonden heb, ziet er als volgt uit: \*\s?\d+[\n](.+\n)(\n?\*)
Mijn vraag is nu: Hoe zet ik een python code op waarmee ik bijvoorbeeld
de hele tekst "Dit is deel 3 .............." wil opvragen?
Ik weet dat ik het commando re.findall() bij "lines" moet gebruiken, maar al mijn pogingen stranden hier tot nu. Ik ben het spoor bijster.
Wie kan mij op weg helpen?