Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien
Toon posts:

[Bug?] Wikipedia url parsing

Pagina: 1
Acties:
  • 757 views

Verwijderd

Topicstarter
Ik wil net een link naar de wikipedia pagina van Cristal linken. Die eindigt op een Haakje-sluiten --> )

code:
1
http://en.wikipedia.org/wiki/Cristal_(champagne)


Als ik die ergens neerzet dan maakt React daar een automagisch hernoemde link van.
Maar daarbij valt het laatste haakje er af, met als gevolg dat de url niet meer klopt.
Het haakje wordt namelijk buiten de url gezet door de parser, zoals je in de bron van deze post ziet.

Wikipedia: Cristal (champagne - Wikipedia, the free encyclopedia)

Dat lijkt me een bugje :)

Bijkomstig vind ik het trouwens wat dubbelop om zowel "Wikipedia:" voor het onderwerp te zetten, alsmede ook de volledige paginatitel over te nemen waar ook al staat "Wikipedia, the free encyclopedia". Mss is het mogelijk om dat laatste weg te laten, aangezien het voor zover ik weet voor elke pagina van Wikipedia in de titel staat, en het forum hier die aanduiding in het begin al toevoegt.

[ Voor 0% gewijzigd door Verwijderd op 09-02-2008 10:36 . Reden: typo's ]


  • crisp
  • Registratie: Februari 2000
  • Laatst online: 14:05

crisp

Devver

Pixelated

Verwijderd schreef op zaterdag 09 februari 2008 @ 10:35:
Ik wil net een link naar de wikipedia pagina van Cristal linken. Die eindigt op een Haakje-sluiten --> )

code:
1
http://en.wikipedia.org/wiki/Cristal_(champagne)


Als ik die ergens neerzet dan maakt React daar een automagisch hernoemde link van.
Maar daarbij valt het laatste haakje er af, met als gevolg dat de url niet meer klopt.
Het haakje wordt namelijk buiten de url gezet door de parser, zoals je in de bron van deze post ziet.

Wikipedia: Cristal (champagne - Wikipedia, the free encyclopedia)

Dat lijkt me een bugje :)
Nee, dat is by design. Je weet immers niet of het haakje als een leesteken bedoelt is of onderdeel is van de URL. Het eerste is meestal waarschijnlijker.
Bijkomstig vind ik het trouwens wat dubbelop om zowel "Wikipedia:" voor het onderwerp te zetten, alsmede ook de volledige paginatitel over te nemen waar ook al staat "Wikipedia, the free encyclopedia". Mss is het mogelijk om dat laatste weg te laten, aangezien het voor zover ik weet voor elke pagina van Wikipedia in de titel staat, en het forum hier die aanduiding in het begin al toevoegt.
Dat hebben ze dan recentelijk aangepast, voorheen eindigde de titel op ' - Wikipedia'

Intentionally left blank


Verwijderd

Topicstarter
Het is aan elkaar geschreven. Het lijkt me niet dat er in dat geval sprake kan zijn van een leesteken. Het is een url zonder spaties.


En wbt de titel: ook als er slechts "- Wikipedia" achter staat, dan is het alsnog vrij dubbelop om er ook nog expliciet "Wikipedia:" voor te zetten :)

[ Voor 38% gewijzigd door Verwijderd op 09-02-2008 12:05 ]


  • crisp
  • Registratie: Februari 2000
  • Laatst online: 14:05

crisp

Devver

Pixelated

Verwijderd schreef op zaterdag 09 februari 2008 @ 12:03:
Het is aan elkaar geschreven. Het lijkt me niet dat er in dat geval sprake kan zijn van een leesteken. Het is een url zonder spaties.
Een voorbeeld:

Blablablabla (kijk maar eens op http://tweakers.net)

see what I mean?

Intentionally left blank


  • WeeJeWel
  • Registratie: April 2007
  • Laatst online: 20-11 11:53
Verwijderd schreef op zaterdag 09 februari 2008 @ 12:03:
Het is aan elkaar geschreven. Het lijkt me niet dat er in dat geval sprake kan zijn van een leesteken. Het is een url zonder spaties.


En wbt de titel: als er Wikipedia achter staat, dan is het alsnog vrij dubbelop om er ook nog explicies "Wikipedia:" voor te zetten
Hoe vaak zie je nou een zin met tussen haakjes een link? Inderdaad, vaak ;)

Homey — Critics are those without skills to create.


  • moto-moi
  • Registratie: Juli 2001
  • Laatst online: 09-06-2011

moto-moi

Ja, ik haat jou ook :w

crisp schreef op zaterdag 09 februari 2008 @ 11:59:
Nee, dat is by design. Je weet immers niet of het haakje als een leesteken bedoelt is of onderdeel is van de URL. Het eerste is meestal waarschijnlijker.
Bij wikipedia gebruiken ze het wel erg vaak om een onderverdeling te geven in het url, misschien zou je het voor wikipedia aan kunnen passen?
Ander idee is om te kijken of in het url al een ( voorkomt en dan te gokken dat de ) erbij zal horen :P

God, root, what is difference? | Talga Vassternich | IBM zuigt


Verwijderd

Topicstarter
En hoe moet iemand dan een url neerzetten die wel op een haakje eindigd zodat de link correct geparsed wordt?

Behalve zo dan :P Hier nogmaals de hele titel neertypen van een wikipagina

Mensen zijn namelijk lui en als ze die links dumpen dan werkt het niet :P

[ Voor 52% gewijzigd door Verwijderd op 09-02-2008 12:10 ]


  • crisp
  • Registratie: Februari 2000
  • Laatst online: 14:05

crisp

Devver

Pixelated

moto-moi schreef op zaterdag 09 februari 2008 @ 12:05:
[...]

Bij wikipedia gebruiken ze het wel erg vaak om een onderverdeling te geven in het url, misschien zou je het voor wikipedia aan kunnen passen?
Ander idee is om te kijken of in het url al een ( voorkomt en dan te gokken dat de ) erbij zal horen :P
Ja, daar zat ik ook aan te denken. Ik wil sowieso de URL-parser aanpassen door eerst met een enkele regexp te kijken of iets een URL zou kunnen zijn en dan pas verder te analyseren. Dat scheelt ook enorm in de performance ten opzichte van de vele regexps die nu zoeken naar specifieke URL's.
Verwijderd schreef op zaterdag 09 februari 2008 @ 12:06:
En hoe moet iemand dan een url neerzetten die wel op een haakje eindigd zodat de link correct geparsed wordt?
De haakjes urlencoden :P
Verwijderd schreef op zaterdag 09 februari 2008 @ 12:03:
En wbt de titel: ook als er slechts "- Wikipedia" achter staat, dan is het alsnog vrij dubbelop om er ook nog expliciet "Wikipedia:" voor te zetten :)
Wat ik bedoel is dat we een '- Wikipedia$' postfix strippen, maar dat matched niet op de postfix die ze nu gebruiken ;)

Intentionally left blank


Verwijderd

Topicstarter
Volgens mij gaat er nog meer mis met Wiki-url's. Deze heeft geen haakjes, maar wordt toch verkeerd geparsed:

code:
1
http://en.wikipedia.org/wiki/Newton's_laws_of_motion


http://en.wikipedia.org/wiki/Newton's_laws_of_motion

[URL=http://en.wikipedia.org/wiki/Newton's_laws_of_motion]Wikipedia: Newton's laws of motion - Wikipedia, the free encyclopedia[/URL]

Deze moet ook hardcoded omgeven worden door url-tags om het te laten werken, en het lukt me niet om 'm neer te zetten met een andere titel [url=adresje]zoals normaal geen punt is[/url].

[url=http://en.wikipedia.org/wiki/Newton's_laws_of_motion]Newton![/url]

Die wordt dus überhaupt niet geparsed. Zonder haakjes :P

  • FlipFluitketel
  • Registratie: Juli 2002
  • Laatst online: 21-11 20:09

FlipFluitketel

Frontpage Admin
Komt door die ' in de url (lijkt me :P).
[url="http://en.wikipedia.org/wiki/Newton's_laws_of_motion"]Test[/url] zal wel werken.
Zie Test

[ Voor 25% gewijzigd door FlipFluitketel op 15-02-2008 08:51 ]

There are only 10 types of people in the world...those who understand binary and those who don't.
Jeremy Clarkson: It’s, um, a mobile phone holder, or as Richard Hammond calls it, a seat!


Verwijderd

Topicstarter
Ok dus niet een Wiki-specifieke probleem. "" helpt om de url als string correct te parsen. Is er iets op tegen om url's automatisch met "" te omgeven om ze zodanig altijd als string te behandelen?

[ Voor 9% gewijzigd door Verwijderd op 15-02-2008 09:04 ]


  • crisp
  • Registratie: Februari 2000
  • Laatst online: 14:05

crisp

Devver

Pixelated

Verwijderd schreef op vrijdag 15 februari 2008 @ 09:02:
Ok dus niet een Wiki-specifieke probleem. "" helpt om de url als string correct te parsen. Is er iets op tegen om url's automatisch met "" te omgeven om ze zodanig altijd als string te behandelen?
Nee, daar is niets op tegen :)

Maar in feite is dit een bugje in React's parser; hij zou de quote moeten negeren als er al een deel van een attribuut-waarde gevuld is. Echter doet de parser in de tokeniser zelf geen volledige parsing van attributen, dus weet deze nog niets over de feitelijk inhoud daarvan...

edit: aangepast, en ook de suffix-filtering verbeterd :)
haakjes blijft nog een probleem though...

[ Voor 8% gewijzigd door crisp op 15-02-2008 10:17 ]

Intentionally left blank


  • crisp
  • Registratie: Februari 2000
  • Laatst online: 14:05

crisp

Devver

Pixelated

haakjes ook gefixed in SVN door de parser wat slimmer te maken :)

Intentionally left blank

Pagina: 1

Dit topic is gesloten.