Duplicate mail adressen verwijderen met AWK - Linux en overige clients

vrijdag 10 december 2010 12:44

Acties:

Topicstarter

Op dit moment ben ik bezig een adressenbestand te importeren. Helaas is dit bestand een beetje raar opgemaakt (of iemand heeft de adressen gewoon verkeerd ingevoerd), waardoor ik duplicaten krijg.

Het ziet er als volgt uit:

code:

1	"recip 1","","mail@adres.com","mail@adres.com"

Nu zou de meest ideale oplossing zijn dat er per regel slechts het mailadres komt te staan. De quote tekens en het eerste gedeelte krijg ik gemakkelijk weg met een find & replace, maar het tweede gedeelte, waarbij dus nogmaals het mailadres voorbij komt lukt niet.

Via google wordt ik steeds gewezen naar AWK. Hier vind ik echter alleen voorbeelden waarbij er in verschillende regels naar duplicaten wordt gezocht, en niet binnen dezelfde regel (row).

Zou iemand hiermee kunnen helpen?

vrijdag 10 december 2010 12:49

Acties:

H!GHGuY

Try and take over the world...

in pseudocode:

code:

BEGIN { FS=',' }
// {
  map = []
  out = ""
  voor elke entry
    als entry niet in map
      map[entry] = entry
      out += entry
  print out
}

ASSUME makes an ASS out of U and ME

vrijdag 10 december 2010 13:17

Acties:

DeBolle

Volgens mij ligt dat anders

Het is een comma delimited file, dus zo in te lezen in een willekeurige spreadsheet of db prog, daarna naar willekeur weer te exporteren per table maar enfin, awk dus. De testfile heet infile:

code:

[henk@centos ~]$ cat infile
"recip   1","","mail1@adres.com","mail2@adres.com"
"recip   1","","mail3@adres.com","mail4@adres.com"
"recip   1","","mail5@adres.com","mail6@adres.com"
"recip   1","","mail7@adres.com","mail8@adres.com"
[henk@centos ~]$ cat infile | awk -F , '{ print $3 }'
"mail1@adres.com"
"mail3@adres.com"
"mail5@adres.com"
"mail7@adres.com"

Specs ...ik doe er niets meer aan.

vrijdag 10 december 2010 13:46

Acties:

Sprite_tm

Semi-Chinees

Zonder awk maar pakt alleen het 1e adres-veld:

code:

1	cut -d '"' -f 6 < bestandje.txt

Relaxen und watchen das blinkenlichten. | Laatste project: Ikea Frekvens oog

vrijdag 10 december 2010 13:51

Acties:

Jaap-Jan

Sprite_tm schreef op vrijdag 10 december 2010 @ 13:46:
Zonder awk maar pakt alleen het 1e adres-veld:
code:
1
cut -d '"' -f 6 < bestandje.txt

En als je dat hebt, kun je hem gelijk door 'uniq' pipen, dan heb je geen dubbele meer.

| Last.fm | "Mr Bent liked counting. You could trust numbers, except perhaps for pi, but he was working on that in his spare time and it was bound to give in sooner or later." -Terry Pratchett

vrijdag 10 december 2010 14:14

Acties:

Sprite_tm

Semi-Chinees

Jaap-Jan schreef op vrijdag 10 december 2010 @ 13:51:
[...]
En als je dat hebt, kun je hem gelijk door 'uniq' pipen, dan heb je geen dubbele meer.

Pipe 'm dan eerst door sort, uniq doet namelijk niet wat je lijkt te denken dat het doet

Relaxen und watchen das blinkenlichten. | Laatste project: Ikea Frekvens oog

vrijdag 10 december 2010 14:17

Acties:

DeBolle

Volgens mij ligt dat anders

Sprite_tm schreef op vrijdag 10 december 2010 @ 14:14:
[...]

Pipe 'm dan eerst door sort, uniq doet namelijk niet wat je lijkt te denken dat het doet

Dan wordt het sort -u
(...en plotseling ben ik weer terug in 1997, toen bedrijven als Baan hun "eigen" sort en find meeleverden bij hun pakketten zonder dat ergens te vermelden)

Specs ...ik doe er niets meer aan.

vrijdag 10 december 2010 14:30

Acties:

Wolfboy

ubi dubium ibi libertas

Veel te moeilijke oplossingen allemaal, sort kan dit direct al (als je de gnu versie gebruikt).

sort -u -k 3 -t '","'

(al ben ik er niet zeker van of de key parameter bij 0 of 1 begint dus het zou kunnen zijn dat 3 niet correct is)

Blog [Stackoverflow] [LinkedIn]

zondag 12 december 2010 11:27

Acties:

sparks

Off topic:

we leveren nog steeds sort mee, find nooit gedaan ;-)