Ik ben bezig in C# om een tool te schrijven dat headers van nieuwgroepen wegschrijft naar een database. Nu is dat niet zo'n probleem, maar het inrichten van de database om het zo snel door zoekbaar te maken wel. Ik heb al tal van manieren geprobeerd maar steeds kom ik op een punt dat er toch redundant data aanwezig is. Dus hierbij open ik deze thread in de zoektocht naar een oplossing.
Zo ziet een usenet header eruit (heb wat data veranderd zodat gebruiker anoniem blijft)
Elke kolom onderscheid ziet via een tab \t (niet zichtbaar in bovenstaande voorbeeld). Dit is uit te splitsen in: (zie afbeelding)

Opsommingen in het bovenstaande afbeelding betekend dat er vanuit die ene regel meer data te ontrekken is.
Deze header (zie codeblok hierboven) is onderdeel van één bestand, dit is af te leiden uit de haakjes. Er staat in de subject regel, tweede kolom, (51/79) . Dit betekend dat het PART 51 is van 79 om één bestand te maken.
Deze Part maakt ook onderdeel uit van een collectie van bestanden. Dit is af te leiden uit [12/22] in de subject regel. Bestand nummer 12 van de in totaal 22 bestanden.
Article_id = unieke id van part welk bij de gebruikte usenetserver hoort.
message_id = unieke id van de part, is op elke usenetserver hetzelfde.
xref = bestaat uit [gebruikte usenetserver en naar welke usenetgroep(en) is geupload met de de daar bijbehorende article_id )
Hoe kan ik nu het beste de database inrichten, of anders gezegt: hoe moet ik verder met normaliseren.
Zo ziet een usenet header eruit (heb wat data veranderd zodat gebruiker anoniem blijft)
code:
1
| 104491 cool - Maya - Introduction school - Walk Cycle.part10.rar-(Piet)[12/22] (51/79) Email@email.com (Piet) Sat, 09 Jun 2007 03:48:56 -0500 <part51of79.KGqrAWvo9VacGfIJb&XH@powerpost2000AA.local> 646475 5004 Xref: feeder.gebruiktenieuwserver.nl alt.binaries.bonless:104491 |
Elke kolom onderscheid ziet via een tab \t (niet zichtbaar in bovenstaande voorbeeld). Dit is uit te splitsen in: (zie afbeelding)

Opsommingen in het bovenstaande afbeelding betekend dat er vanuit die ene regel meer data te ontrekken is.
Deze header (zie codeblok hierboven) is onderdeel van één bestand, dit is af te leiden uit de haakjes. Er staat in de subject regel, tweede kolom, (51/79) . Dit betekend dat het PART 51 is van 79 om één bestand te maken.
Deze Part maakt ook onderdeel uit van een collectie van bestanden. Dit is af te leiden uit [12/22] in de subject regel. Bestand nummer 12 van de in totaal 22 bestanden.
Article_id = unieke id van part welk bij de gebruikte usenetserver hoort.
message_id = unieke id van de part, is op elke usenetserver hetzelfde.
xref = bestaat uit [gebruikte usenetserver en naar welke usenetgroep(en) is geupload met de de daar bijbehorende article_id )
Hoe kan ik nu het beste de database inrichten, of anders gezegt: hoe moet ik verder met normaliseren.
< dit stukje webruimte is te huur >