Toon posts:

[c#] Regexp probleempje

Pagina: 1

Acties:

657 views
Reageer

Onderwerpen

C# Regexp

donderdag 2 december 2010 14:35

Acties:

raptorix

Topicstarter

Hoi, ik had gister ook al topic geopend hierover, maar dat was terecht gesloten omdat ik door tijdnood wat dingen was te verhelderen, ik heb de volgende situatie, via het CMS kunnen redacteuren artikelen aanmaken, 1 van de specs is dat wanneer het artikel wat langer is, er boven het artikel automatisch anchors verschijnen naar anchors in de text.

Een voorbeeld tekst kan zijn:

code:

<div id="lipsum">
<p>Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus ... ultrice<a id="Plopperde plop"
name="Plopperde plop"></a>s felis quis pellentesque. ... montes, <a id="Dit is een tekst"
name="Dit is een tekst"></a>nascetur ridiculus mus.</p>

<blockquote>
<p>Nulla id erat... ipsum eleifend.</p>
</blockquote>

<p>Donec luctus libero sed ... lorem eget nibh <a
id="Hop paardjehop" name="Hop paardjehop"></a>sodales lacinia nec
eget ... ipsum a orci.</p>

<p>&nbsp;</p>

<p>&nbsp;</p>

<?UMBRACO_MACRO macroAlias="InlineGraph" onderschrift="Dit
is een onderschrift" graph="1107" /> 

<p>&nbsp;</p>

<p>Mauris ac nibh ... sem a ultrices.</p>

<ol>
<li>dit is de eerste</li>

<li>en nummer 2</li>

<li>en de laatste</li>
</ol>

<p>hasellus ut est purus..amet metus.</p>
</div>

In deze tekst staan dus 4 anchors, 1 daarvan is bijvoorbeeld:

code:

1	<a id="Hoi een Anchor" name="Hoi een Anchor"></a>

Mijn idee was om via een Regex de anchors eruit te halen, en op basis hiervan een linklist te generen, na wat gerommel dacht ik de juist Regex te hebben, tenminste mijn tool Expresso, geeft de juiste matches aan, met de volgende Regexp:

code:

        string artikeltekst = Node.GetCurrent().GetProperty("artikel").Value;
//Dit is de RegEx die Expresso aangeeft en de 4 matches geeft
        Regex regex = new Regex(
            @"<a id="".*?"" name="".*?""></a>",
            RegexOptions.IgnoreCase
            | RegexOptions.Multiline
            );

        MatchCollection matches = regex.Matches(artikeltekst);
        xxx.Text = matches.Count.ToString();

Echter als ik deze code in mijn pagina gebruik, krijg ik geen matches terug, ik heb getest of de artikeltekst juist is, maar dat gaat gewoon goed.

Ik zit behoorlijk vast, en snap er helemaal niets meer van

[ Voor 49% gewijzigd door MueR op 02-12-2010 16:22 . Reden: Even heel veel lorem ipsum gestript ]

donderdag 2 december 2010 14:39

Acties:

vbmot

Heb je in C# misschien een DOTALL mode net als in Java? DOTALL specificeert dat '.' ook newline characters matcht.

Ook maar dat ik dat weet!

donderdag 2 december 2010 14:49

Acties:

raptorix

Topicstarter

vbmot schreef op donderdag 02 december 2010 @ 14:39:
Heb je in C# misschien een DOTALL mode net als in Java? DOTALL specificeert dat '.' ook newline characters matcht.

Nee naar mijn weten niet...

donderdag 2 december 2010 14:59

Acties:

Haan

dotnetter

raptorix schreef op donderdag 02 december 2010 @ 14:49:
[...]

Nee naar mijn weten niet...

Maar ik zie bij de RegexOptions documentatie wel een 'SingleLine' optie die dat doet:

Specifies single-line mode. Changes the meaning of the dot (.) so it matches every character (instead of every character except \n).

Kater? Eerst water, de rest komt later

donderdag 2 december 2010 15:03

Acties:

raptorix

Topicstarter

Haan schreef op donderdag 02 december 2010 @ 14:59:
[...]

Maar ik zie bij de RegexOptions documentatie wel een 'SingleLine' optie die dat doet:

[...]

Mmmm dat wist ik niet, ik had een ander idee van Singleline, namelijk dat een match altijd op 1 regel plaats moest vinden, ik krijg nu wel 2 "hits", dat helpt me iets verder omdat ik er 4 zou verwachten.

donderdag 2 december 2010 15:21

Acties:

Janoz

Moderator Devschuur®

!litemod

Waarom doe je dit met regexps? Het lijkt me dat dit met een xml parser veel makkelijker is.

Ken Thompson's famous line from V6 UNIX is equaly applicable to this post:
'You are not expected to understand this'

donderdag 2 december 2010 15:26

Acties:

raptorix

Topicstarter

Janoz schreef op donderdag 02 december 2010 @ 15:21:
Waarom doe je dit met regexps? Het lijkt me dat dit met een xml parser veel makkelijker is.

Ja, was ook mijn eerst idee, maar dat kreeg ik niet helemaal voor elkaar, in mijn xpath geeft:

$currentPage/Article/a mijn geen hits

donderdag 2 december 2010 15:27

Acties:

raptorix

Topicstarter

Overigens lijkt ie nu aardig te werken, behalve dat ie te greedy is, ik krijg nu hits op:

code:

<a id="Plopperde plop"
name="Plopperde plop"></a>s felis quis pellentesque. Vestibulum
ante ipsum primis in faucibus orci luctus et ultrices posuere
cubilia Curae; Praesent metus augue, consectetur vitae adipiscing
vel, ultricies eu arcu. Morbi viverra tempus turpis in porta.
Aliquam in vehicula urna. Nunc sagittis dignissim arcu, sed
faucibus velit ullamcorper sed. Nullam commodo lacinia dictum. <a
id="Hoi een Anchor" name="Hoi een Anchor"></a>

code:

<a id="Dit is een tekst"
name="Dit is een tekst"></a>nascetur ridiculus mus.</p>

<blockquote>
<p>Nulla id erat id nisi pretium facilisis. Maecenas orci velit,
posuere nec porta vitae, tincidunt ac lorem. Etiam vitae ipsum
lacus, eget iaculis diam. Nulla pellentesque, nunc ac viverra
lacinia, augue elit tempor dui, id aliquam arcu elit at enim. Cras
ac dapibus dolor. In hac habitasse platea dictumst. Donec
condimentum interdum fringilla. Sed vehicula dapibus est, in auctor
urna bibendum in. Sed et est nibh. Quisque neque turpis, ornare ut
elementum sit amet, adipiscing at nisi. Nunc hendrerit porttitor
quam ornare tempus. Fusce mollis pellentesque nibh ac pharetra.
Aenean lacinia nunc massa. Aliquam vitae odio eget nibh semper
mattis quis ac eros. Sed non vestibulum odio. Donec aliquet tellus
et nulla pulvinar pretium. Nullam id neque vel diam convallis
adipiscing nec quis purus. Nulla facilisi. Phasellus tempor lectus
id lectus luctus vitae suscipit ipsum eleifend.</p>
</blockquote>

<p>Donec luctus libero sed nibh convallis ut commodo magna dictum.
Proin rutrum mi in orci aliquet posuere. Mauris sed risus velit, in
elementum enim. In hac habitasse platea dictumst. Integer feugiat
bibendum pulvinar. Pellentesque ipsum massa, lacinia sed vulputate
quis, dictum sit amet risus. Nam molestie diam et lectus laoreet
eget eleifend nibh pellentesque. Ut ut lorem eget nibh <a
id="Hop paardjehop" name="Hop paardjehop"></a>

donderdag 2 december 2010 15:31

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

raptorix schreef op donderdag 02 december 2010 @ 15:26:
$currentPage/Article/a mijn geen hits

Dan moet je je eens verdiepen in XPath

Je doet nu een query op directe childnodes van Article waarin je dus anchors zoekt. Maar je anchors zitten niet direct onder Article maar in paragraphs etc.

raptorix schreef op donderdag 02 december 2010 @ 15:27:
Overigens lijkt ie nu aardig te werken, behalve dat ie te greedy is, ik krijg nu hits op:

En moet je je, met ruim 10.000 posts, dan ook nog eens wijzen op "Gebruik de edit knop (

) als je iets toe te voegen hebt; je topic herhaaldelijk omhoogschoppen is niet nodig." ?

[ Voor 42% gewijzigd door RobIII op 02-12-2010 15:32 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

donderdag 2 december 2010 15:32

Acties:

raptorix

Topicstarter

RobIII schreef op donderdag 02 december 2010 @ 15:31:
[...]

Dan moet je je eens verdiepen in XPath Je doet nu een query op directe childnodes van Article waarin je dus anchors zoekt. Maar je anchors zitten niet direct onder Article maar in paragraphs etc.

Stom dat ik hier niet aangedacht heb zeg, doe zo een beetje dagelijks xpath al vele jaren lang, tunnelvisie

donderdag 2 december 2010 15:32

Acties:

Verwijderd

niet gemakkelijker om te splitten op <a id=" en daarna de overige info eruit slaan?
niet de meest nette manier...maar wel lekker makkelijk

donderdag 2 december 2010 15:57

Acties:

raptorix

Topicstarter

Mjah tuurlijk kan dat, maar dat vind ik wel erg lelijk

donderdag 2 december 2010 16:10

Acties:

Verwijderd

Er staat " in je expression.
@"<a id=\"".*?"\" name=\"".*?"\"></a>",
^ werkt dit?

donderdag 2 december 2010 16:21

Acties:

raptorix

Topicstarter

Verwijderd schreef op donderdag 02 december 2010 @ 16:10:
Er staat " in je expression.
@"<a id=\"".*?"\" name=\"".*?"\"></a>",
^ werkt dit?

Nee, het geeft zelfs syntax errors.

donderdag 2 december 2010 16:23

Acties:

Verwijderd

Zie je vorige topic.
\[c#] Regexp probleempje
Staat geen wildcard tussen je <a>'s.

donderdag 2 december 2010 16:41

Acties:

raptorix

Topicstarter

Verwijderd schreef op donderdag 02 december 2010 @ 16:23:
Zie je vorige topic.
\[c#] Regexp probleempje
Staat geen wildcard tussen je <a>'s.

Dat lijkt me stug, me Regexp lijkt gewoon goed te zijn:

Afbeeldingslocatie: http://i51.tinypic.com/2aa0z28.png

donderdag 2 december 2010 17:39

Acties:

Verwijderd

Als je in plaats van de greedy .* modifier gewoon alles behalve de " pakt dan selecteert hij nooit te veel:

code:

1	<a id="[^"]" name="[^"]"></a>

donderdag 2 december 2010 19:10

Acties:

raptorix

Topicstarter

Pfff dat lijkt idd een goede Regexp te zijn, maar in me code krijg ik wederom geen hits

donderdag 2 december 2010 21:58

Acties:

doskabouter

probeer deze

code:

1	<a\sid="[^"]"\sname="[^"]">\s*</a>

eens?
En ook de verschillende combinaties van de RegExOptions willen nog wel eens helpen

Het grote voordeel van windows is dat je meer dos-boxen kan openen

donderdag 2 december 2010 22:00

Acties:

Sebazzz

3dp

HTML, dat verwerk je niet met regexen. HTML parse je! Voor .NET kan je naar HTML Agility Pack kijken.

[Te koop: 3D printers] [Website] Agile tools: [Return: retrospectives] [Pokertime: planning poker]

donderdag 2 december 2010 22:23

Acties:

R4gnax

Sebazzz schreef op donderdag 02 december 2010 @ 22:00:
HTML, dat verwerk je niet met regexen. HTML parse je! Voor .NET kan je naar HTML Agility Pack kijken.

Inderdaad. Zelf gebruik ik het HTML Agility Pack ook wel eens wanneer ik met de hand CMS content moet crawlen. Steekt over het algemeen goed in elkaar en is wat vergevingsgezinder dan een XML parser, maar toch nog redelijk snel. (Heeft geloof ik alleen nog wat issues met HTML entity encoding, dus daar moet je wel mee opletten.)

vrijdag 3 december 2010 11:37

Acties:

raptorix

Topicstarter

Dank voor het meedenken, ik denk dat ik idd het Agility pack eens ga gebruiken, het vreemde blijft dat de RegEx gewoon goed is, maar dat ik het in .NET niet werkend krijg, helaas heb ik hier al veel veel te veel tijd ingestoken, en frustrerend dat ik het net niet werkend krijg

Als ik van de week tijd heb zal ik eens kijken of ik het als kleine command line tool kan posten, want dit zal 1 van de eerste keren in 10 jaar tijd op GOT zijn dat ik met een echt onbevredigend gevoel achter blijf

Pagina: 1

Reageer