Ik ben bezig een eigen (webbased) RSS reader te bouwen. Nu zijn er veel RSS feeds die allerlei zooi toevoegen aan de posts, bijvoorbeeld "Digg this!" en "Email this story!" links en advertenties, meestal toegevoegd door feedburner. MEer wel dan niet staan die in een vaste structuur, bijvoorbeeld bij Reuters:
Nu kan ik zoeken waar de feedflare div begint en daar vandaan alles strippen, maar mooier (en wat stabieler) zou zijn om precies de feedflare div te deleten. Zou er dan "Nog iets belangrijks..." achter die div staan, dan neem ik dat niet weg.
Nu is 1 optie om de hele post te tokenizen en dan die div eruit te halen. Maar ik heb dat nog nooit gedaan. Vandaar twee vragen:
[list]
• heeft iemand (een link naar) een voorbeeld van het tokenizen van een html string?
• is er een eenvoudiger manier hiervoor?
[/list]
Er staat nooit iets belangrijks achter de feedflare div. Wat is de meest eenvoudige manier om naar een bepaald deel te zoeken (bv "<div class="feedflare">) en alles vanaf daar te strippen? Dus "<div class="feedflare">Digg this Email this etc........" verwijderen? Ik kan niet zomaar op "<div" ofzo zoeken, want er kunnen andere divs in de post staan...
code:
1
2
3
4
5
| <a href="">Titel</a>: Bericht <div class="feedflare"> <!-- een heleboel "Digg this" plaatjes enzo...soms ook divjes </div> Nog iets belangrijks... |
Nu kan ik zoeken waar de feedflare div begint en daar vandaan alles strippen, maar mooier (en wat stabieler) zou zijn om precies de feedflare div te deleten. Zou er dan "Nog iets belangrijks..." achter die div staan, dan neem ik dat niet weg.
Nu is 1 optie om de hele post te tokenizen en dan die div eruit te halen. Maar ik heb dat nog nooit gedaan. Vandaar twee vragen:
[list]
• heeft iemand (een link naar) een voorbeeld van het tokenizen van een html string?
• is er een eenvoudiger manier hiervoor?
[/list]
Er staat nooit iets belangrijks achter de feedflare div. Wat is de meest eenvoudige manier om naar een bepaald deel te zoeken (bv "<div class="feedflare">) en alles vanaf daar te strippen? Dus "<div class="feedflare">Digg this Email this etc........" verwijderen? Ik kan niet zomaar op "<div" ofzo zoeken, want er kunnen andere divs in de post staan...
[ Voor 15% gewijzigd door Verwijderd op 27-10-2009 11:47 ]