Work at Red Hat - views are my own. Let's connect on Twitter (@keeskoenen)
Twee dingen:
- Je definieert het probleem niet "hard" genoeg waardoor er moeilijk een oplossing voor te bedenken is. Wat zijn de specs van de invoer, wat moet er gerelateerd kunnen worden op welke wijze?
- Waarom voldeden XPather en XQuery niet?
[ Voor 57% gewijzigd door tonyisgaaf op 23-10-2009 09:52 ]
NL Weerradar widget Euro Stocks widget Brandstofprijzen widget voor 's Dashboard
Eigenlijk wil ik een programma een groot aantal XML berichten kunnen "voeren" en dan als output krijgen :
XML a en XML b DELEN DEZELFDE VALUE, NAMELIJK : xxxx (tag 1), (tag 2)
Met de wetenschap dat tag 1 en tag 2 dezelfde kunnen zijn...
Dus .. ik heb de volgende berichten :
((XML1))
<some tag> value1 </some tag>
<other tag> value2 </other tag>
<not same> value3 </not same>
EN
((XML2))
<some tag> value1 </some tag>
<totally different tag> value2 </totally different tag>
<not same> value4 </not same>
en dan dus ca. 50.000 verschillende berichten...
Ik wil als output zien :
XML1,XML2,some tag,some tag,value1
XML1,XML2,other tag,totally different tag,value2
...
iemand een idee?
Nogmaals; gaat om +50.000 berichten, dus elk bericht moet vergeleken worden met heul veul andere.. en dan eigenlijk ook nog ontdubbelen
XML a en XML b DELEN DEZELFDE VALUE, NAMELIJK : xxxx (tag 1), (tag 2)
Met de wetenschap dat tag 1 en tag 2 dezelfde kunnen zijn...
Dus .. ik heb de volgende berichten :
((XML1))
<some tag> value1 </some tag>
<other tag> value2 </other tag>
<not same> value3 </not same>
EN
((XML2))
<some tag> value1 </some tag>
<totally different tag> value2 </totally different tag>
<not same> value4 </not same>
en dan dus ca. 50.000 verschillende berichten...
Ik wil als output zien :
XML1,XML2,some tag,some tag,value1
XML1,XML2,other tag,totally different tag,value2
...
iemand een idee?
Nogmaals; gaat om +50.000 berichten, dus elk bericht moet vergeleken worden met heul veul andere.. en dan eigenlijk ook nog ontdubbelen
Work at Red Hat - views are my own. Let's connect on Twitter (@keeskoenen)
Hoeveel tags heb je per bericht? Zijn alle values van hetzelfde formaat?
Het lijkt alsof je tags en values "omgewisseld" zijn als je op values wilt matchen ipv op tags.
Is het een idee om de zooi in een (tijdelijke) database te pompen? 1 Tabel zou genoeg zijn, met een index op value. Als je daarna daarop joined heb je al je matches. Een select * from tabel order by 1 is genoeg.
Het lijkt alsof je tags en values "omgewisseld" zijn als je op values wilt matchen ipv op tags.
Is het een idee om de zooi in een (tijdelijke) database te pompen? 1 Tabel zou genoeg zijn, met een index op value. Als je daarna daarop joined heb je al je matches. Een select * from tabel order by 1 is genoeg.
[ Voor 7% gewijzigd door Dido op 27-10-2009 22:23 ]
Het lijkt me eigenlijk redelijk simpel om al die XML-bestanden even uit te lezen met een willekeurige XMLReader, en de values in een Dictionary/Hashtable op te slaan waar je een lijstje van vindplaatsen in bijhoudt. Dan even alle entries met aantal>1 afgaan, en je bent klaar.
Het probleem doet enkel een beetje vreemd aan. Zo schijnt het bijvoorbeeld zo te zijn dat een XML-bestand een soort boomstructuur is, en dat tags dus andere tags kunnen bevatten. Daarnaast schijnt het zo te zijn dat tags vaak namen hebben om aan te duiden waar ze over gaan, en heeft het daarom weinig zin heeft om willekeurige tags met elkaar te gaan vergelijken.
Het probleem doet enkel een beetje vreemd aan. Zo schijnt het bijvoorbeeld zo te zijn dat een XML-bestand een soort boomstructuur is, en dat tags dus andere tags kunnen bevatten. Daarnaast schijnt het zo te zijn dat tags vaak namen hebben om aan te duiden waar ze over gaan, en heeft het daarom weinig zin heeft om willekeurige tags met elkaar te gaan vergelijken.
Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten