JAVA Regular expressions probleem - Softwareontwikkeling

woensdag 12 oktober 2005 14:03

Acties:

Verwijderd

Topicstarter

Ik wil graag van de source code van een webpagina alle html rotzooi weghalen, dit lukt als ik alles wat tussen <> staat kan verwijderen van de pagina. Ik ben er al achter dat ik dit het beste kan doen met regular expressions. Ik snap alleen niet helemaal hoe ze werken.
Als ik een string heb:
aaaaAAfds<td>dddddd</td>

en ik gebruik:
.replaceAll("<.*>", "_");

Dan geeft hij terug aaaAAfds_ en verder niks. Hij pakt steeds de eerste <, en de laatste >, en alles daartussen haalt hij weg.
Dit heeft iets te maken met de * denk ik, aangezien dit een onbepaald aantal characters is.
Iemand een idee hoe ik dit kan oplossen?

woensdag 12 oktober 2005 14:09

Acties:

Nick_S

++?????++ Out of Cheese Error

Even gezocht op Google met java replaceall tags en daar kwam dit uit:

code:

1	String string = string.replaceAll("(?s)\\<.*?\\>","");

Van de java developers forum. Ik heb het niet getest, maar probeer het eens zou ik zeggen.

'Nae King! Nae quin! Nae Laird! Nae master! We willna' be fooled agin!'

woensdag 12 oktober 2005 14:11

Acties:

Varienaja

Wie dit leest is gek.

Hij zal wel greedy aan het zoeken zijn, terwijl je in dit geval juist niet greedy wilt zoeken. Meestal kan je dat opgeven door met een karakter in de regexp. Ik zou zeggen: zoek daar even op. Ik weet het zelf helaas niet uit m'n hoofd.

Siditamentis astuentis pactum.

woensdag 12 oktober 2005 14:13

Acties:

CyBeR

💩

of je gebruikt gewoon geen .*:

code:

"<[^>]+>"

All my posts are provided as-is. They come with NO WARRANTY at all.

woensdag 12 oktober 2005 14:14

Acties:

JaWi

maak het maar stuk hoor...

Hmmz, aangezien de '>' volgens de HTML-standaard alleen in tags mag voorkomen, kun je beter de volgende regex gebruiken, ipv de 'dot-star' oplossing (in het kader van de "betere" performance):

Java:

1	String result = line.replaceAll("(?s)<[^>]+>", "");

edit:
te laaaat...

[ Voor 20% gewijzigd door JaWi op 12-10-2005 14:14 ]

Statistics are like bikinis. What they reveal is suggestive, but what they hide is vital.

woensdag 12 oktober 2005 14:14

Acties:

Glabbeek

Dat dus.

Java:

1	System.out.println(a.replaceAll("<[^>]*>", "_"));

Oftwel, selecteer alle characters na de < behalve de >, gevolgd door de >. Anders selecteer je alles tussen de eerste < en de laatste >.

edit:

Tsjee, wat is iedereen snel...

[ Voor 27% gewijzigd door Glabbeek op 12-10-2005 14:15 ]

En zo is het maar net.

woensdag 12 oktober 2005 14:33

Acties:

Verwijderd

Topicstarter

Het werkt perfect! Hartstikke bedankt voor de snelle reacties. (op een van de eerste reacties, ik had wel geprobeerd te googlen maar wist niet precies waarop)