Ik wil van een website die ik heb binnengehaald via wget alleen de stukken hebben die tussen <h3> en <p class="normal"> tags staan. Met grep is dit mogelijk om iig 1 van beide te pakken maar de output is dan verkeerd. Als ik cat templaterip.html | egrep "<h3>" > gestriptefile.html doe dan heb ik wel alle H3 tags maar ik wil ook de bijbehorende tekst die tussen <p class="normal"> </p> tags staan.
Voorbeeld van de inputfile templaterip.html:
<h3>23:10 - <span>test bericht</span></h3>
En hier is het eerste bericht. Deze tekst wil ik ook heben.
Ik heb me rot gezocht maar kan niks vinden dat in de buurt komt. Is er misschien een beter alternatief? laat het me weten.
Voorbeeld van de inputfile templaterip.html:
Zoals jullie zien sluiten die H3 tags wel mooi aan bij de tekst maar is er na de <p class="normal"> een return waar de gewilde tekst staat. Ik hoop het als volgt voor elkaar te krijgen:<h3>23:10 - <span>test bericht</span></h3>
<p>
<p class="normal">
En hier is het eerste bericht. Deze tekst wil ik ook heben.
</p>
</p>
<h3>23:10 - <span>test bericht</span></h3>
En hier is het eerste bericht. Deze tekst wil ik ook heben.
Ik heb me rot gezocht maar kan niks vinden dat in de buurt komt. Is er misschien een beter alternatief? laat het me weten.