Geslacht bepalen in andere kolom via een kolom vol namen

Pagina: 1
Acties:
  • 962 views

Onderwerpen

Vraag


  • kobejennes
  • Registratie: November 2022
  • Laatst online: 28-11-2022
Ik moet voor mijn masterthesis 4000 observaties filteren obv geslacht. Een kolom uit mijn spreadsheet bestaat volledig uit observaties van telkens voor + achternaam. Deze moet ik dus lezen en dan bepalen of het een man of een vrouw is. Ipv dit manueel te doen, vraag ik me dus af of het mogelijk is om via een functie, dus door control f en dan "Gerard" bijvoorbeeld te zoeken, om dan voor alle resultaten met Gerard in, in een kolom daarnaast op dezelfde rij het woord "man" als input te krijgen. Hoe doe ik dit best? De namen bestaan ook uit meerdere namen aangezien het van 19de eeuw is, dus als iemand weet welke naam het geslacht toen bepaalde en hoe je dan die volgorde meeneemt in de functie, hoor ik het graag!

Alvast bedankt!
Kobe Jennes
Student Economie aan de KUL

Alle reacties


  • -unknown
  • Registratie: Februari 2007
  • Laatst online: 14:02
Er zal geen kant en klare oplossing zijn. Maar met een combinatie van functie find (om de plek vd spatie in de tekst te vinden) en functie left kan je het eerste deel van naam + achternaam er uit halen en in een aparte kolom zetten (noem deze kolom voornaam). Vervolgens moet je opzoek naar een lijst met “namen voor mannen” op het internet. Deze lijst kan je vervolgens matchen met de kolom voornaam via de functie vlookup/match.

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Verticaal zoeken i.c.m. een tabel met namen. Dan zou je wat moeten kunnen maken. Probeer het, en als je vastloopt kunnen we meedenken als je aangeeft hoe en wat.

Maarreuh, denk je echt dat je enige statistische zekerheid kunt krijgen bij puur obv voornaam ingeschatte duiding? Ook in de non woke 19e eeuw, waar bijv de tweede naam van een man prima die van de oma kon zijn (en andersom, of juist de eerste naam)

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)


  • Puch-Maxi
  • Registratie: December 2003
  • Laatst online: 15:44
Dit lijkt een beetje op gokken, puur op basis van de voornamen? De achternaam zal normaliter geen informatie bevatten over het geslacht. Tenzij het een patronymische achternaam betreft (zoals in Ijsland), bij versteende patroniemen zoals in Nederland gaat dat niet (meer) op. Hoe ga je dit oplossen met unisex namen als Sam, Kees/Cees of René etc. Gaat het om Vlaamse namen? En waar komt de data weg, zit er nog meer bruikbare informatie bij? Heb je officiële namen of roepnamen?

Bij Katholieke namen heb je ook het probleem dat iemand meerdere voornamen kan hebben die je op het verkeerde been kunnen zetten, Marcel Maria etc. Dit zijn dan volgnamen, je kunt niet zondermeer stellen dat de eerste naam een goede feature is voor het vaststellen van het geslacht (zie https://www.meertens.knaw...f/man/volgnaam/Maria#data) Zowel mannen als vrouwen hebben Maria als eerste voornaam. Verder, indien de naam op -us eindigt dan betreft het waarschijnlijk een man, zie https://neerlandistiek.nl/2022/03/katholieke-naampolitiek/ en bij vrouwen eindigt het vaak op -a?

Zie ook: https://ans-names.pitt.edu/ans/article/view/2066/2065
Waar gaat je thesis verder over, waarom wil je het geslacht vaststellen? Ga je kijken naar inkomensverschillen tussen man/vrouw in de 19e eeuw of iets dergelijks. Misschien kun je een Name Gender Classifier maken op basis van machine learning zoals hier: https://towardsdatascienc...sify-genders-3119d6e39377 je moet dan nog wel een goede dataset vinden :) succes!

My favorite programming language is solder.


Acties:
  • +4 Henk 'm!

  • TheGhostInc
  • Registratie: November 2000
  • Niet online
4000 entries? Handmatig!
Als je een werkdag met 8 uur neemt, dan is dat 480 minuten. Als je er 10 per minuut haalt, dan ben je er in 1 dag gewoon doorheen. Dat is 6 seconde per naam, dat is echt wel te halen. (Sommige namen zullen veel meer tijd kosten, andere zijn meteen duidelijk)

Dit ga je niet in 1 dag geregeld krijgen met een functie. Er zijn namelijk ook nog uitzonderingen die je handmatig moet gaan oppakken en je moet je logica gaan testen/valideren.

De enige automatisering die je zou kunnen doen is als je dubbele hebt ervoor zorgen dat je die meteen hetzelfde codeert. Alfabetisch sorteren op voornaam zorgt ook voor een hoog tempo, alle Jannen heb je dan onder elkaar staan, dat gaat dan als een speer.

  • Afrit13
  • Registratie: Augustus 2007
  • Laatst online: 16:47
En sorteer de lijst op voornaam, dan kun je hele groepen in één keer handmatig doen.

Acties:
  • 0 Henk 'm!

  • Puch-Maxi
  • Registratie: December 2003
  • Laatst online: 15:44
@kobejennes Heb je ook beroepen in je lijst erbij staan? Dat zou voor de 19e eeuw misschien ook nog wel een goede feature kunnen zijn :).

My favorite programming language is solder.


Acties:
  • 0 Henk 'm!

  • Arno H
  • Registratie: Juni 2020
  • Laatst online: 02-02-2023
Ik zou een lijst met vrouwennamen in een apart tabblad plaatsen, idem met mannennamen.

Vervolgens in je hoofd tabblad een formule maken die zoekt in het tabblad vrouwen.
In een andere kolom laat je zoeken in het tabblad mannen.

De uitkomst van de formule is bv 1 voor vrouw en 2 voor man.

Als de twee kolommen samen 3 zijn dan staan de namen in beide bladen en kan het zowel een man of een vrouw zijn, bijvoorbeeld Sam of Renee.

Acties:
  • 0 Henk 'm!

  • eLScha
  • Registratie: Juli 2005
  • Niet online
Ga er vanuit dat de TS al wat bedacht heeft (en dit antwoord wellicht nooit meer leest omdat de TS z’n eerste en laatste post op Tweakers was), maar Chat GPT lijkt dit best aardig te doen. Niet perfect, maar een mooie start:
Vertel me van de volgende namen of het een mannen of vrouwennaam is:
Jan
Jos
Josje
René
Renee
Jo
Tony
Rini
Robin
Sam
Guus
Guusje
Alex
Dominique
Gerard
Frans
Puck
Lou
Bram
Bobby
Femme
Eerste antwoord
Jan - mannennaam
Jos - mannennaam
Josje - vrouwennaam
René - mannennaam
Renee - vrouwennaam
Jo - mannen- of vrouwennaam
Tony - mannennaam
Rini - vrouwennaam
Robin - mannen- of vrouwennaam
Sam - mannen- of vrouwennaam
Guus - mannennaam
Guusje - vrouwennaam
Alex - mannen- of vrouwennaam
Dominique - vrouwennaam
Gerard - mannennaam
Frans - mannennaam
Puck - vrouwennaam
Lou - vrouwennaam
Bram - mannennaam
Bobby - mannennaam
Femme - vrouwennaam
Tweede antwoord (beter denk ik):
Jan is een mannen naam.
Jos is een mannen naam.
Josje is een vrouwennaam.
René is een mannen naam.
Renee is een vrouwennaam.
Jo is zowel een mannen als een vrouwennaam.
Tony is een mannen naam.
Rini is zowel een mannen als een vrouwennaam.
Robin is zowel een mannen als een vrouwennaam.
Sam is zowel een mannen als een vrouwennaam.
Guus is een mannen naam.
Guusje is een vrouwennaam.
Alex is zowel een mannen als een vrouwennaam.
Dominique is een vrouwennaam.
Gerard is een mannen naam.
Frans is een mannen naam.
Puck is een vrouwennaam.
Lou is zowel een mannen als een vrouwennaam.
Bram is een mannen naam.
Bobby is een mannen naam.
Femme is een vrouwennaam.

[ Voor 33% gewijzigd door eLScha op 02-02-2023 00:57 ]


Acties:
  • +2 Henk 'm!

  • Grote Schurk
  • Registratie: Januari 2007
  • Laatst online: 16-07 19:40
https://tweakers.net/crew/1/

Sorry kon het niet laten. Ik ben bang dat dit niet erg betrouwbare data gaat zijn. Misschien scheelt het wat tijd, maar alles moet opnieuw (handmatig) gecheckt worden.

[ Voor 14% gewijzigd door Grote Schurk op 02-02-2023 01:32 ]


Acties:
  • +1 Henk 'm!

  • sig69
  • Registratie: Mei 2002
  • Laatst online: 17:14
Dit ga je nooit 100% rond krijgen. Matchen op naam is een doodzonde in ICT, het werkt niet. Er zijn zoveel uitzonderingen, dubbele matches, whatever, dat het gewoon niet werkt. Op zo'n beperkte set zou ik het ook met de hand doen, ben je zo doorheen.

[ Voor 9% gewijzigd door sig69 op 02-02-2023 02:50 ]

Roomba E5 te koop


Acties:
  • +1 Henk 'm!

  • bartvl
  • Registratie: Oktober 2002
  • Laatst online: 17:43

bartvl

Vlieg! Kan ik niet. Te laat...

Ik neem ook aan dat de TS al iets gedaan heeft. Maar daarnaast denk ik dat het beste antwoord ( :) ) moet zijn:
Als het om een onderzoek gaat voor een masterthesis en het geslacht is van belang, dan is de dataset simpelweg niet compleet. Je kan dan geen conclusies trekken op basis van geslacht. Het geslacht erbij gaan gokken is statistisch niet verantwoord.

Life is not about specs, it is about joy!


Acties:
  • 0 Henk 'm!

  • KoudeAardbei
  • Registratie: Mei 2006
  • Laatst online: 16:44

KoudeAardbei

Moderator

https://gender-api.com/? Kun je vast wel in excel krijgen

Acties:
  • +1 Henk 'm!

  • evilution
  • Registratie: Maart 2012
  • Niet online

evilution

Vreselijk bijdehand

"Ik heet Kees, net als m'n broer."

|<----------------------------------------------arm length---------------------------------------------->|
|<-------------------------------------------where the cat is--------------------------------------------->|


Acties:
  • 0 Henk 'm!

  • Reptile209
  • Registratie: Juni 2001
  • Laatst online: 16:53

Reptile209

- gers -

bartvl schreef op donderdag 2 februari 2023 @ 03:40:
Ik neem ook aan dat de TS al iets gedaan heeft. Maar daarnaast denk ik dat het beste antwoord ( :) ) moet zijn:
Als het om een onderzoek gaat voor een masterthesis en het geslacht is van belang, dan is de dataset simpelweg niet compleet. Je kan dan geen conclusies trekken op basis van geslacht. Het geslacht erbij gaan gokken is statistisch niet verantwoord.
Dan zou ik het anders stellen: ik denk dat je 90-95% goed kunt gokken. Doe desnoods een testje op basis van 100 willekeurige namen uit de lijst. Bij elke naam waar je niet honderd procent zeker bent, zet je bij geslacht een X of een ? ofzo.
Als het geslacht cruciaal is in de analyse, moet je dus uiteindelijk die twijfelgevallen weglaten, maar ik denk dat je dan nog steeds een prima set overhoudt van de 4000. Of die groep als derde categorie (man of vrouw) meenemen bij je analyse, misschien ook best interessant :).

Zo scherp als een voetbal!


Acties:
  • 0 Henk 'm!

  • F_J_K
  • Registratie: Juni 2001
  • Niet online

F_J_K

Moderator CSA/PB

Front verplichte underscores

Ik ben bang dat dit voor @kobejennes een hit & run vraag is geweest. Dan is hier verder op in gaan niet zo zinvol.

Als iemand anders een zelfde soort vraagstelling heeft, kan natuurlijk een nieuw topic worden gemaakt.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)

Pagina: 1

Dit topic is gesloten.