Voor het strippen van tekst die vanuit Word of Excel word geplakt gebruik ik Regex. De expression die ik hiervoor gebruik bij een Replace ziet er als volgt uit:
Dit werkt allemaal prima, alle HTML word gestript. Nu is er alleen een nieuwe functionaliteit in het systeem gekomen waarbij de <font> tags niet gestript moeten worden als deze de class highlighted bevatten. Een voorbeeld om dit te verduidelijken:
String to strip
Gewenste resultaat
Ik heb nu al verschillende expressions geprobeert, bijvoorbeeld: <font[^highlighted]*>|</font>
Dit werkt prima, alleen de sluit tag (</font>) word wel verwijderd, terwijl dit niet gewenst is. Is er een manier om dit te voorkomen?
code:
1
| <span[^>]*>|</span>|<script[^>]*>|</script>|<%[^>]*%>|<asp:[^>]*>|<asp:[[[:alpha:]]+]*>|<embed[^>]*>|</embed>|<object[^>]*>|</object>|<applet[^>]*>|</applet>|<font[^>]*>|</font>|<div[^>]*>|</div>|<meta[^>]*> |
Dit werkt allemaal prima, alle HTML word gestript. Nu is er alleen een nieuwe functionaliteit in het systeem gekomen waarbij de <font> tags niet gestript moeten worden als deze de class highlighted bevatten. Een voorbeeld om dit te verduidelijken:
String to strip
HTML:
1
| Do <font class="highlighted">not</font> <font style="background-color:red;">move</font>! |
Gewenste resultaat
HTML:
1
| Do <font class="highlighted">not</font>move! |
Ik heb nu al verschillende expressions geprobeert, bijvoorbeeld: <font[^highlighted]*>|</font>
Dit werkt prima, alleen de sluit tag (</font>) word wel verwijderd, terwijl dit niet gewenst is. Is er een manier om dit te voorkomen?