[python] heeft python strip_tags?

Pagina: 1
Acties:

  • Salvatron
  • Registratie: April 2003
  • Niet online

Salvatron

Dispereert niet

Topicstarter
In PHP heb je de functie strip_tags(): http://de.php.net/striptags
Een zeer handige functie om websites te ontdoen van alle HTML-tags. Hierdoor hou je alleen de tekst over.

In Python kan ik een soortgelijke functie maar nergens vinden, niet met google en ook niet op de python-website. Bij HTMLParser (http://docs.python.org/lib/module-HTMLParser.html) zie ik in ieder geval geen soortgelijke functie staan en ik zie hem ook nergens anders.

Vraag: heeft python ook een strip-tags functie? Zo ja, welke is dat dan?

Lucht en leegte, zegt Prediker, alles is leegte.


  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Komaan, als ik je topic title (zo goed als) letterlijk in Google gooi kom ik al met antwoorden :?
Kijk ook eens op google groups

[ Voor 55% gewijzigd door RobIII op 17-12-2006 23:34 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


  • crisp
  • Registratie: Februari 2000
  • Nu online

crisp

Devver

Pixelated

Als je het echt goed wil doen pak dan de HTML-tokeniser die Anne van Kesteren laatst heeft geschreven en schrijf daar je eigen strip_tags functie omheen :)

Intentionally left blank


  • Salvatron
  • Registratie: April 2003
  • Niet online

Salvatron

Dispereert niet

Topicstarter
Mja, ik had dus blijkbaar beter strip_tags in google kunnen invullen i.p.v. striptags. Maar de conclusie is dat er inderdaad geen strip_tags functie is. Wel vreemd dat zo'n simpel functietje niet in Python aanwezig is.

Lucht en leegte, zegt Prediker, alles is leegte.


  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Danski schreef op zondag 17 december 2006 @ 23:45:
Mja, ik had dus blijkbaar beter strip_tags in google kunnen invullen i.p.v. striptags. Maar de conclusie is dat er inderdaad geen strip_tags functie is. Wel vreemd dat zo'n simpel functietje niet in Python aanwezig is.
Mijn persoonlijke mening is dat zoiets juist niet ("native") in een programmeertaal hoort te zitten en je dat als devver zélf hoort te schrijven; maar da's een andere discussie ;)

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


  • Salvatron
  • Registratie: April 2003
  • Niet online

Salvatron

Dispereert niet

Topicstarter
RobIII schreef op zondag 17 december 2006 @ 23:46:
Mijn persoonlijke mening is dat zoiets juist niet ("native") in een programmeertaal hoort te zitten en je dat als devver zélf hoort te schrijven; maar da's een andere discussie ;)
Nou, ik ben geen programmeur. Af en toe schrijf ik eens een scriptje en dat is het dan wel. Ik heb trouwens wel zelf zo'n functie geschreven, maar eentje die al standaard in de programmeertaal zit zal vast beter zijn en bovendien handiger toe te passen.

Lucht en leegte, zegt Prediker, alles is leegte.


  • crisp
  • Registratie: Februari 2000
  • Nu online

crisp

Devver

Pixelated

Sowieso is PHP's strip_tags ook niet perfect, zie de waarschuwing:
Because strip_tags() does not actually validate the HTML, partial, or broken tags can result in the removal of more text/data than expected.
Vandaar dat een echte HTML-tokeniser de voorkeur geniet, en HTML5 is de enige HTML-versie die parsing-rules definieerd (overigens gebaseerd op de manier waarop hedendaagse browsers ook daadwerkelijk HTML parsen) :)

Intentionally left blank


  • djc
  • Registratie: December 2001
  • Laatst online: 08-09 23:18

djc

RobIII schreef op zondag 17 december 2006 @ 23:46:
Mijn persoonlijke mening is dat zoiets juist niet ("native") in een programmeertaal hoort te zitten en je dat als devver zélf hoort te schrijven; maar da's een andere discussie ;)
Bleh, Python wordt niet voor niets aangeprezen als Batteries Included!

Mijn punt zou eerder zijn dat strip_tags() helemaal niet zo'n eenvoudige functie is, zeker niet als je het goed wil doen. Zelf zou ik echter eerder voor iets als BeautifulSoup gaan, of voor de HTML-parser die bij libxml2 wordt geleverd (via lxml).

Rustacean

Pagina: 1