Ik wil graag van de source code van een webpagina alle html rotzooi weghalen, dit lukt als ik alles wat tussen <> staat kan verwijderen van de pagina. Ik ben er al achter dat ik dit het beste kan doen met regular expressions. Ik snap alleen niet helemaal hoe ze werken.
Als ik een string heb:
aaaaAAfds<td>dddddd</td>
en ik gebruik:
.replaceAll("<.*>", "_");
Dan geeft hij terug aaaAAfds_ en verder niks. Hij pakt steeds de eerste <, en de laatste >, en alles daartussen haalt hij weg.
Dit heeft iets te maken met de * denk ik, aangezien dit een onbepaald aantal characters is.
Iemand een idee hoe ik dit kan oplossen?
Als ik een string heb:
aaaaAAfds<td>dddddd</td>
en ik gebruik:
.replaceAll("<.*>", "_");
Dan geeft hij terug aaaAAfds_ en verder niks. Hij pakt steeds de eerste <, en de laatste >, en alles daartussen haalt hij weg.
Dit heeft iets te maken met de * denk ik, aangezien dit een onbepaald aantal characters is.
Iemand een idee hoe ik dit kan oplossen?