Correleren, visueel presenteren XML berichten

donderdag 22 oktober 2009 09:15

Acties:

Topicstarter

Ben op zoek naar een programma waarmee ik snel een grote hoeveelheid (ca 1.000) XML (/edit: het zijn er veel meer..) berichten kan inventariseren, analyseren en correleren. Het moet een overzicht kunnen maken van berichten die dezeflde value voor een bepaalde tag bevatten, of dezelfde value maar in verschillende tags.. Dat allemaal zo overzichtelijk mogelijk en ook configureerbaar.

Op die manier probeer ik een stuk architectuur te re-engineeren... Ben al een beetje gestuit op XPather, XQuery en dat soort tools, maar de totaal-suite waar ik naar op zoek ben heb ik tot op heden niet gevonden. Alvast dank!

Work at Red Hat - views are my own. Let's connect on Twitter (@keeskoenen)

vrijdag 23 oktober 2009 09:52

Acties:

tonyisgaaf

Twee dingen:

Je definieert het probleem niet "hard" genoeg waardoor er moeilijk een oplossing voor te bedenken is. Wat zijn de specs van de invoer, wat moet er gerelateerd kunnen worden op welke wijze?
Waarom voldeden XPather en XQuery niet?

[ Voor 57% gewijzigd door tonyisgaaf op 23-10-2009 09:52 ]

NL Weerradar widget Euro Stocks widget Brandstofprijzen widget voor 's Dashboard

dinsdag 27 oktober 2009 22:09

Acties:

kkoenen

Topicstarter

Eigenlijk wil ik een programma een groot aantal XML berichten kunnen "voeren" en dan als output krijgen :

XML a en XML b DELEN DEZELFDE VALUE, NAMELIJK : xxxx (tag 1), (tag 2)

Met de wetenschap dat tag 1 en tag 2 dezelfde kunnen zijn...

Dus .. ik heb de volgende berichten :

((XML1))
<some tag> value1 </some tag>
<other tag> value2 </other tag>
<not same> value3 </not same>

EN

((XML2))
<some tag> value1 </some tag>
<totally different tag> value2 </totally different tag>
<not same> value4 </not same>

en dan dus ca. 50.000 verschillende berichten...

Ik wil als output zien :

XML1,XML2,some tag,some tag,value1
XML1,XML2,other tag,totally different tag,value2

...

iemand een idee?

Nogmaals; gaat om +50.000 berichten, dus elk bericht moet vergeleken worden met heul veul andere.. en dan eigenlijk ook nog ontdubbelen

Work at Red Hat - views are my own. Let's connect on Twitter (@keeskoenen)

dinsdag 27 oktober 2009 22:21

Acties:

Dido

heforshe

Hoeveel tags heb je per bericht? Zijn alle values van hetzelfde formaat?

Het lijkt alsof je tags en values "omgewisseld" zijn als je op values wilt matchen ipv op tags.

Is het een idee om de zooi in een (tijdelijke) database te pompen? 1 Tabel zou genoeg zijn, met een index op value. Als je daarna daarop joined heb je al je matches. Een select * from tabel order by 1 is genoeg.

[ Voor 7% gewijzigd door Dido op 27-10-2009 22:23 ]

Wat betekent mijn avatar?

dinsdag 27 oktober 2009 23:52

Acties:

pedorus

Het lijkt me eigenlijk redelijk simpel om al die XML-bestanden even uit te lezen met een willekeurige XMLReader, en de values in een Dictionary/Hashtable op te slaan waar je een lijstje van vindplaatsen in bijhoudt. Dan even alle entries met aantal>1 afgaan, en je bent klaar.

Het probleem doet enkel een beetje vreemd aan. Zo schijnt het bijvoorbeeld zo te zijn dat een XML-bestand een soort boomstructuur is, en dat tags dus andere tags kunnen bevatten. Daarnaast schijnt het zo te zijn dat tags vaak namen hebben om aan te duiden waar ze over gaan, en heeft het daarom weinig zin heeft om willekeurige tags met elkaar te gaan vergelijken.

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten

Onderwerpen