Toon posts:

Twitter Sentiment

Pagina: 1
Acties:
  • 759 views

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Beste,

Ik heb een twitter dataset (5,3gb, json bestand) van tweets die tijdens de SuperBowl zijn verstuurd. Voor een onderzoek voor mijn studie heb ik een aantal onderzoeksvragen.

- Hoe filter ik op tweets die over reclames of merken gaan?
- Welke merken worden het meest/minst genoemd?
- Wat is het sentiment naar de verschillende merken/reclames?

Ik ben zelf niet erg bekend met Python en sentiment analyses. Hoe zouden jullie dit probleem aanpakken?
Super bedankt voor jullie tijd.

Groet

Acties:
  • 0 Henk 'm!

  • CyBeRSPiN
  • Registratie: Februari 2001
  • Laatst online: 20:36

CyBeRSPiN

sinds 2001

1. Hoe zou je het zelf met de hand doen?
2. Waarom Python? Was dat een vereiste?

Als je een beetje Googled kom je al allerlei analyses tegen van tweets rond de superbowl.

Acties:
  • 0 Henk 'm!

  • Caelorum
  • Registratie: April 2005
  • Laatst online: 00:10
Verwijderd schreef op zaterdag 29 april 2017 @ 21:04:
[...]Voor een onderzoek voor mijn studie heb ik een aantal onderzoeksvragen.[...]
Ik neem aan dat er in je studie al wat aanknopingspunten zijn gepresenteerd? Dat je wat classificatie-algoritmes e.d. hebt zien langs komen?

Acties:
  • 0 Henk 'm!

  • eric.1
  • Registratie: Juli 2014
  • Laatst online: 00:01
Hoe je het met Python zou doen is niet relevant in het begin. Schrijf de stappen uit die je moet maken; pseudocode - vertaal dit dan naar Python of welke taal dan ook. Schrijf een oplossing kijkende naar het probleem en niet naar de gebruikte taal.

Heb je zelf trouwens werkelijk geen idee hoe je dit aanpakt? Nog niet gezocht op internet? Er is over analyses (en gecombineerd met python) genoeg te vinden.

Enige inspanning vanuit de topicstarter is hier trouwens wel gebruikelijk. Velen willen meedenken, maar je moet het uiteindelijk zelf doen. 1 op 1 je onderzoeksvragen hier deponeren komt mij wat gemakkelijk over ;). Geef bijvoorveeld wat algoritmes die je gevonden hebt, som op wat de voor- en nadelen zijn (of als je een specifiek probleem hebt....perfect) dan heeft je topic wat meer body.

P.s. let je er wel op dat ook tweets auteursrechten kunnen bevatten en onder de voorwaarden van Twitter kunnen vallen.

Acties:
  • 0 Henk 'm!

  • Creepy
  • Registratie: Juni 2001
  • Laatst online: 22:22

Creepy

Tactical Espionage Splatterer

Hoe zou je het zelf willen aanpakken? Aangezien het voor je studie is, zul je dit toch echt in eerste instantie zelf moeten doen, i.p.v. hier de ideeen te komen halen. Als je echt nog geen idee hebt, dan is het denk ik verstandig om toch echt zelf je eerst wat in te lezen, ook voordat je hier een topic opent ;) We gaan er hier dan ook vanuit dat je dat zelf al hebt gedaan en dat je dus ook daadwerkelijk al een idee hebt hoe te starten etc. Dus kan je wat meer vertellen over wat je eigen ideeen e.d. zijn? Zo niet, dan zal ik dit topic toch echt moeten sluiten.

"I had a problem, I solved it with regular expressions. Now I have two problems". That's shows a lack of appreciation for regular expressions: "I know have _star_ problems" --Kevlin Henney


Acties:
  • 0 Henk 'm!

  • Morrar
  • Registratie: Juni 2002
  • Laatst online: 09-10 13:33
Verwijderd schreef op zaterdag 29 april 2017 @ 21:04:
- Hoe filter ik op tweets die over reclames of merken gaan?
Als je bepaalde merken zoekt, kun je een lijst met merken maken en zoeken in de tweet tekst of de tags. De tags zitten vaak in een aparte lijst in de JSON. Meestal is het goed om eerst de tekst van de Tweets te cleansen voor je gaat zoeken (lower case maken, links eruit halen, et cetera).

Als je niet weet welke merken je wilt hebben, scrape dan bijvoorbeeld zo'n lijst: http://brandirectory.com/league_tables/table/global-500-2012. Met wat data preparatie kun je die website omzetten in een zoeklijst voor de tweets. Met het BeautifulSoup kun je makkelijk de HTML parsen en doorzoeken.

Voor de meeste tekst bewerkingen kun je het beste de re module (regular expressions) gebruiken:
https://docs.python.org/2/library/re.html
https://docs.python.org/3/library/re.html

Voor fuzzy matching van woorden:
https://pypi.python.org/pypi/fuzzywuzzy
- Welke merken worden het meest/minst genoemd?
Als je de tweets doorzoekt op merken, kun je simpelweg een teller per merk bijhouden welke merken genoemd worden in de tweet. Aan het einde kun je gewoon de totalen uitrekenen.
- Wat is het sentiment naar de verschillende merken/reclames?
Zelf wel eens sentiment analyse gedaan op tweets, maar door de korte teksten vond ik het resultaat erg matig. Sowieso moet je dan eerst de tekst cleansen.

Voor Engelse tweets kun je sentiment analyse doen met bijvoorbeeld het NLTK package:
http://www.nltk.org/

Voor Nederlandse tweets kun je eens kijken naar de pattern.nl module: http://www.clips.ua.ac.be/pages/pattern-nl.

Deze packages bieden kant en klare sentiment analyse en stellen je ook staat om de zinsstructuur te ontleden.

Als je een (forse!) set met gelabelde tweets (positief vs negatief) hebt, kun je ook zelf een sentiment / taal model trainen. Maar dat vergt wat meer werk.

Wellicht ook nog interessant voor tekstanalyse: https://spacy.io/

[ Voor 24% gewijzigd door Morrar op 29-04-2017 22:33 ]


Acties:
  • 0 Henk 'm!

  • pedorus
  • Registratie: Januari 2008
  • Niet online
Verwijderd schreef op zaterdag 29 april 2017 @ 21:04:
- Hoe filter ik op tweets die over reclames of merken gaan?
Tootjes als grep en shuf lijken me vrijwel goed genoeg.. Desnoods zoek je opnieuw met Twitter ( https://twitter.com/search-advanced ) zelf op de brand-naam + datum.
- Welke merken worden het meest/minst genoemd?
Zie bestaand onderzoek als https://blog.twitter.com/...won-this-year-s-superbowl , zou niet weten waarom je dat zou moeten overdoen?

Het minst genoemd is een lastige vraag, vanwege de hoeveelheid brands met 0 mentions... ;)
- Wat is het sentiment naar de verschillende merken/reclames?
Het beste lijkt mij om per brand redelijk willekeurig x (re)tweets te pakken, en die handmatig van een sentiment-score te voorzien. Al bij x=10 verwacht ik dat je het veel beter doet dan een automatische aanpak, zie bijvoorbeeld http://www.cmswire.com/cm...ital-marketers-023682.php voor redenen waarom dat zo is.

Succes, en laat maar weten wat het geworden is, en of je eruit komt! 8)

Vitamine D tekorten in Nederland | Dodelijk coronaforum gesloten


Acties:
  • 0 Henk 'm!

  • Caelorum
  • Registratie: April 2005
  • Laatst online: 00:10
pedorus schreef op zondag 30 april 2017 @ 00:12:
[...]

Tootjes als grep en shuf lijken me vrijwel goed genoeg.. Desnoods zoek je opnieuw met Twitter ( https://twitter.com/search-advanced ) zelf op de brand-naam + datum.
[...]
Hij vraagt om het filteren van tweets die gaan over reclames of merken. Ik zie nergens in zijn vraag terug dat hij weet welke merken of reclames dat zouden moeten zijn. Dan kan je dus niet meer met zoeken op merknaam wegkomen en moet je unieke karakteristieken van reclametweets gaan achterhalen.
Dat betekent of alles met de hand doen of veel data annoteren en dan met machinelearning er overheen gaan.

Acties:
  • 0 Henk 'm!

Verwijderd

Topicstarter
Beste,

Super bedankt voor de reacties. Ik heb zelf al een aantal API's met een 70%+ accuraatheid/betrouwbaarheid. Die API's kan ik gebruiken met Python. Ik heb gekozen voor Python omdat hier simpelweg het meeste over te vinden was. Het doen van de sentiment analyse gaat mij lukken met de hulp van een tutorial. Ik heb moeite in het classificeren van de tweets per merk. Is dit ook "makkelijk" te doen via Python?

Acties:
  • 0 Henk 'm!

  • Creepy
  • Registratie: Juni 2001
  • Laatst online: 22:22

Creepy

Tactical Espionage Splatterer

Aangezien je niet ingaat op mijn post waar wat vragen in staan kan ik niet anders dan je topic sluiten. Het is jouw studie, ons je uitzoek werk laten doen is dan ook niet de bedoeling. Je zal vast zelf al onderzoek e.d. hebben gedaan maar je posts komen niet verder dan "ik wil dit, hoe moet dat?" en dat is niet de bedoeling hier.

[ Voor 28% gewijzigd door Creepy op 30-04-2017 11:09 ]

"I had a problem, I solved it with regular expressions. Now I have two problems". That's shows a lack of appreciation for regular expressions: "I know have _star_ problems" --Kevlin Henney

Pagina: 1

Dit topic is gesloten.