[Python] Hoe top x waardes in list met data object bepalen?

dinsdag 2 oktober 2012 14:03

Acties:

« - _ - »

Topicstarter

Momenteel bezig met het verwerken van data objecten welke in een list[] zitten. Nu is het zo dat de data objecten een soortgelijke structuur hebben:

Python:

data[0] = {'pers_naam': 'Naam Persoon 1', 'pers_score': '+2', 'pers_functie': 'administratie'}
data[1] = {'pers_naam': 'Naam Persoon 2', 'pers_score': '+8', 'pers_functie': 'administratie'}
data[2] = {'pers_naam': 'Naam Persoon 3', 'pers_score': '0', 'pers_functie': 'voorbereiding'}
data[3] = {'pers_naam': 'Naam Persoon 4', 'pers_score': '-1', 'pers_functie': 'voorbereiding'}
....

Is het mogelijk om middels een max of andere functie de top 3, 4 of 5 waardes per functiegroep bij elkaar op te tellen?

Onderstaande geeft niet het gewenste resultaat. Hoe kan ik dit middels Python ondervangen?

Python:

1 2	for pers in data: max(pers.pers_score)

Is bovenstaande de juiste oplossing of dien ik hiervoor een aparte list samen te stellen met scores per functiegroep?

dinsdag 2 oktober 2012 14:07

Acties:

Nvidiot

notepad!

Ervoor zorgen dat je data objecten een __cmp__ hebben en dan sorted(data)[:5] gebruiken?

What a caterpillar calls the end, the rest of the world calls a butterfly. (Lao-Tze)

dinsdag 2 oktober 2012 15:47

Acties:

Woudloper

« - _ - »

Topicstarter

Nvidiot schreef op dinsdag 02 oktober 2012 @ 14:07:
Ervoor zorgen dat je data objecten een __cmp__ hebben en dan sorted(data)[:5] gebruiken?

Is dat ook mogelijk op de volgende methode? Vanuit een for in wordt nu mijn data gevuld met records, te weten:

Python:

for person in lst_persons:
    data = {
        'pers_naam' : person.get('personname'),
        'pers_score' : person.get('score'), 
        'pers_functie' : ('Administratie' if person.get('id') > 100 else 'Voorbereiding')
    }

Hoe zorg ik er in dit geval dan voor dat ik de __cmp__ aan het object kan toevoegen? En daarbij, wat betekend in dit geval sorted(data)[:5]. Lees ik hiermee de top 5 uit of het 5e child object in de data collector?

dinsdag 2 oktober 2012 15:51

Acties:

MrHaas

Gebruik het key argument in sorted:

Python:

1	sorted(data, key=lambda x: x['pers_score'])[:3]

[ Voor 30% gewijzigd door MrHaas op 02-10-2012 15:54 ]

dinsdag 2 oktober 2012 15:51

Acties:

Big4SMK

Je moet een lijstje hebben van de (integer) waardes van pers_score, en die vervolgens sorten.

Python:

1 2	lijstje = [int(item['pers_score']) for item in data] lijstje.sort()

vervolgens kan je de hoogste 3 selecteren met

Python:

1	lijstje[-3:]

[ Voor 4% gewijzigd door Big4SMK op 02-10-2012 15:54 ]

dinsdag 2 oktober 2012 15:53

Acties:

Nvidiot

notepad!

Je zou de key parameter kunnen gebruiken voor sorted:

Python:

1	sorted_data = sorted(data, key=lambda item: item['pers_score'])

[:5] is een list slice, vanaf het begin van de lijst en dan 5 entries, dus in het geval van een gesorteerde lijst, de top 5.

http://wiki.python.org/moin/HowTo/Sorting/#Key_Functions
http://stackoverflow.com/...for-python-slice-notation

What a caterpillar calls the end, the rest of the world calls a butterfly. (Lao-Tze)

dinsdag 2 oktober 2012 17:31

Acties:

Woudloper

« - _ - »

Topicstarter

Helder, maar is het ook mogelijk om de resultaten van de top 1,2,3,4,5 in een soortement van matrix te plaatsen zodat dit per loop te gebruiken is of wordt dit uiteindelijk teveel rekenkracht om binnen een def te gaan uitwerken?

code:

1
2
3

Functie 1 2 3 4 5
Administratie 4 7 9 10 9
Uitvoering 3 6 8 8 7

Of krijg je hier uiteindelijk weer een dataset waarin dit te vatten is?

woensdag 3 oktober 2012 11:37

Acties:

ValHallASW

Dat kan met itertools.groupby. Eerst sorteren op (functie, score), en vervolgens doe je een groupby op functie:

Python:

import itertools
data = [{'pers_naam': 'Naam Persoon 1', 'pers_score': 2, 'pers_functie': 'administratie'},
        {'pers_naam': 'Naam Persoon 2', 'pers_score': 8, 'pers_functie': 'administratie'},
        {'pers_naam': 'Naam Persoon 3', 'pers_score': 0, 'pers_functie': 'voorbereiding'},
        {'pers_naam': 'Naam Persoon 4', 'pers_score': -1, 'pers_functie': 'voorbereiding'}]
data.sort(key=lambda x: (x['pers_functie'], x['pers_score']))

for functie, items in itertools.groupby(data, lambda x: x['pers_functie']):
    print functie, [(i['pers_naam'], i['pers_score']) for i in items]

dat geeft dan:

administratie [('Naam Persoon 1', 2), ('Naam Persoon 2', 8)]
voorbereiding [('Naam Persoon 4', -1), ('Naam Persoon 3', 0)]

Onderwerpen