Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

Linguistische analyse van tekst

Pagina: 1
Acties:

  • Tjop
  • Registratie: Juni 2008
  • Laatst online: 24-11 15:04
Binnen ons bedrijf zijn we bezig met een nieuw project, waarbij we twitterberichten over een bepaald specifiek onderwerp automatisch willen inladen in ons systeem, waarna een 'webcare'-medewerker indien nodig er een vervolgactie op doet. Het zou mooi zijn als er van te voren een indicatie van de inhoud of emotie van het bericht gegeven kan worden, zodat er daarop geprioriteerd kan worden. We zijn nu aan het orienteren hoe dat het beste gedaan kan worden.

Ons beste idee tot nu toe was om woordenlibraries te maken die te maken hebben met een bepaalde emotie of categorie ('werkt niet'/langzaam/storing/#fail is een indicatie van een probleem, mooi/geweldig/super van een positief bericht). Dit systeem zou op ten duur zelflerend kunnen worden. Dit zal nooit perfect werken, maar het geeft wel een eerste indicatie. Sarcasme enzo zal wel altijd een probleem blijven hierbij.

We waren benieuwd of er hier nog mensen zaten die hier ideeën over hadden, hoe dit beter kan. Is er misschien iemand bekend met reeds bestaande software die indicaties van emotie kunnen geven?

  • bredend
  • Registratie: September 2001
  • Laatst online: 29-11 12:03
Er zijn systemen die emoties in text herkennen. Voornamelijk artificiële intelligentie voor 'chatbots'.

Misschien heb je wat aan deze link: http://wndomains.fbk.eu/wnaffect.html Komen veel termen in voor.

Verwijderd

Het probleem met dergelijke systemen zelfbouwen is dat je 100% zeker het wil zelf opnieuw aan het uitvinden bent. Daarintegen is het kopen van een component dat dit doet zeker aan de prijzige kant. Eigenlijk kun je dus geen kant hiermee.

Als je het al zelf gaat bouwen. De correctheid zal nooit de 100% halen zoals je zelf al zegt, maar zeer waarschijnlijk zelfs de 40% niet. Er is teveel interpretatie mogelijk in de korte twitter berichten op er een goede context uit te halen. Je zou misschien beter naar trending topics kunnen kijken.

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Verwijderd schreef op woensdag 15 december 2010 @ 14:06:
Het probleem met dergelijke systemen zelfbouwen is dat je 100% zeker het wil zelf opnieuw aan het uitvinden bent. Daarintegen is het kopen van een component dat dit doet zeker aan de prijzige kant. Eigenlijk kun je dus geen kant hiermee.
En er bestaat opeens geen open source meer? Of tientallen, zo niet meer, papers over het onderwerp? Pseudo-code of algoritme voorstellen die alleen nog maar geimplementeerd moeten worden...? Of...? Mijn punt: je bent wel héél kort door de bocht. Ook al is het misschien niet kant-en-klaar en op maat te vinden, als andere bronnen beschikbaar zijn die je kunt gebruiken om invulling te geven aan een implementatie of onderdelen die je "aan elkaar kunt lijmen" ben je hooguit een spaak en een ventiel opnieuw aan 't uitvinden ;)
Verwijderd schreef op woensdag 15 december 2010 @ 14:06:
Als je het al zelf gaat bouwen. De correctheid zal nooit de 100% halen zoals je zelf al zegt, maar zeer waarschijnlijk zelfs de 40% niet.
100% zul je niet halen, ongeacht de definitie die je voor 'correctheid' aanhoudt* (is dat vierkante koeien per speciekuip?); 40% is afhankelijk van je definitie voor correctheid ;)
Verwijderd schreef op woensdag 15 december 2010 @ 14:06:
Je zou misschien beter naar trending topics kunnen kijken.
Dan heb je een probleem als je product waarop je webcare team support wil gaan geven niet trending is (en blijft) ;)

*Tenzij je een definitie als "Het is correct als het een willekeurige string is" erop na houd :+

[ Voor 35% gewijzigd door RobIII op 15-12-2010 14:14 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Verwijderd

RobIII schreef op woensdag 15 december 2010 @ 14:09:
[...]

En er bestaat opeens geen open source meer? Of tientallen, zo niet meer, papers over het onderwerp? Pseudo-code of algoritme voorstellen die alleen nog maar geimplementeerd moeten worden...? Of...? Mijn punt: je bent wel héél kort door de bocht. Ook al is het misschien niet kant-en-klaar en op maat te vinden, als andere bronnen beschikbaar zijn die je kunt gebruiken om invulling te geven aan een implementatie of onderdelen die je "aan elkaar kunt lijmen" ben je hooguit een spaak en een ventiel opnieuw aan 't uitvinden ;)

[...]

100% zul je niet halen, ongeacht de definitie die je voor 'correctheid' aanhoudt* (is dat vierkante koeien per speciekuip?); 40% is afhankelijk van je definitie voor correctheid ;)

[...]

Dan heb je een probleem als je product waarop je webcare team support wil gaan geven niet trending is (en blijft) ;)

*Tenzij je een definitie als "Het is correct als het een willekeurige string is" erop na houd :+
True, iets te kort door de bocht gegaan qua OS :)

En ongeacht je definitie van correctheid zal hij de 100% verweg niet halen. Dat is in elk geval mijn ervaring bij dit soort applicaties. Trending hoeft niet direct de trending van twitter te zijn. Je kunt prima je eigen specifieke trending reports maken. Aangezien daar geen emotionele interpretatie aanvast zal zitten zal het makkelijker zijn om daar een correcte (ongeacht de definitie van correct :P) weergave van te krijgen.

[ Voor 10% gewijzigd door Verwijderd op 15-12-2010 14:22 ]


  • djluc
  • Registratie: Oktober 2002
  • Laatst online: 29-11 13:01
Is het überhaupt wel logisch om een prioriteit te geven? Het lijkt me dat een bericht wat positief is in basis net zoveel aandacht verdiend als een negatief bericht?
"The key is not to prioritize what's on your schedule, but to schedule your priorities."
- Stephen R. Covey
Wellicht interessant leesvoer, vaak voegt het niets toe.

Verwijderd

Met een bayesian filter kan je zoiets als dit bouwen (net als spam, alleen iets uitgebreider dan wel/geen spam), zoek je een kant en klaar produkt of een component om in jullie bestaande systeem te integreren?

In principe ga je gewoon documenten classificeren, ligt beetje aan jullie wensen of dit plat gaat
- ProdA - Positief
- ProdA - Negatief
- ProdB - Positief
- ProdB - Negatief

of via een "tree"

- ProdA
+-- Onderdeel X
...+------ Positief
...+------ Negatief
+-- Onderdeel Y
...+------ Positief
...+------ Negatief
- ProdB
+------ Positief
+------ Negatief

Wij gebruiken dit zelf ook, ingekocht "component", die we op onze manier voeden/trainen en vervolgens gebruiken om documenten te classificeren (ook b.v. taal herkennen etc).

[ Voor 75% gewijzigd door Verwijderd op 15-12-2010 14:33 ]


  • Laurenz
  • Registratie: Februari 2003
  • Laatst online: 07-11 11:17
Volgens mij doen ze bij Opfine ook zoiets, misschien interessant om eens te bekijken :)

Leave only footprints, take only memories


  • Tjop
  • Registratie: Juni 2008
  • Laatst online: 24-11 15:04
Tof, nu al goede reacties. We gaan naar de suggesties kijken. We realiseren ons dat het idee waarmee wij zijn gekomen niet waterdicht is, 100% zal inderdaad nooit gehaald worden. Echter, minstens 40% van de gevallen een goede emotie koppelen, na een periode van zelflerende verbeteringen, moet toch wel haalbaar zijn denken wij.
Het idee achter prioritering is dat wanneer er 500 berichten per dag binnenkomen en er een half FTE mee bezig is (stel), het toch wel handig is als belangrijke berichten eerder opgepakt worden. Overigens willen we dit niet als enige indicatie gebruiken van belangrijkheid, daarvoor kan je bijvoorbeeld ook kijken naar aantal volgers van eigenaar van het bericht, aantal retweets etc.
RobIII schreef op woensdag 15 december 2010 @ 14:09:
[...]

En er bestaat opeens geen open source meer? Pseudo-code of algoritme voorstellen die alleen nog maar geimplementeerd moeten worden...?
Als er inderdaad al een oplossing voor ons probleem bestaat en niet al te kostbaar is, zou dat geweldig zijn. Dan houden we ons aanbevolen :)

Ik weet trouwens niet wie er 'mail' in de titel heeft gezet, maar dat dekt de inhoud van dit topic niet helemaal ;) Hoewel ditzelfde principe net zo goed voor mail toegepast zou kunnen worden.

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Tjop schreef op woensdag 15 december 2010 @ 14:51:
Ik weet trouwens niet wie er 'mail' in de titel heeft gezet, maar dat dekt de inhoud van dit topic niet helemaal ;) Hoewel ditzelfde principe net zo goed voor mail toegepast zou kunnen worden.
Ik wel: jij ;) Fix0red though

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Verwijderd

Tjop schreef op woensdag 15 december 2010 @ 14:51:
Het idee achter prioritering is dat wanneer er 500 berichten per dag binnenkomen en er een half FTE mee bezig is (stel), het toch wel handig is als belangrijke berichten eerder opgepakt worden. Overigens willen we dit niet als enige indicatie gebruiken van belangrijkheid, daarvoor kan je bijvoorbeeld ook kijken naar aantal volgers van eigenaar van het bericht, aantal retweets etc.
Kan er niet teveel over zeggen, maar een groot bedrijf heeft zo al eens 10-20 FTE bespaard met ons systeem.
(niet voor twitter maar voor inkomende post).

  • bas-r
  • Registratie: April 2005
  • Laatst online: 19:57
Als je wilt kan ik je een paper sturen wat ik een half jaar geleden heb geschreven over sentiment analysis, en hoe dit uit te voeren op een bepaalde dataset. Met sentiment analysis kun je de polariteit van een zin/stuk tekst bepalen.


Ik heb dit geschreven in mijn hoedanigheid van master student Taal- en Spraaktechnologie.

[ Voor 57% gewijzigd door bas-r op 15-12-2010 16:04 ]


  • Tjop
  • Registratie: Juni 2008
  • Laatst online: 24-11 15:04
Verwijderd schreef op woensdag 15 december 2010 @ 15:07:
[...]

Kan er niet teveel over zeggen, maar een groot bedrijf heeft zo al eens 10-20 FTE bespaard met ons systeem.
(niet voor twitter maar voor inkomende post).
Ik snap dat je hier 'publiekelijk' niet veel over kan zeggen, kan dat eventueel wel via e-mail/PM/face-to-face?
Lolwut :+

  • RobIII
  • Registratie: December 2001
  • Niet online

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

(overleden)
Ho; voordat we allemaal "niet publiekelijk" verder gaan; hier gaat feitelijk ""mail me" is ongewenst" op.
Als je er publiekelijk niets over kunt zeggen, zeg dan niets. En als je iets wil opsturen, post het dan (als dat mogelijk is) online (liefst integraal in een post zodat 't niet verloren gaat) zodat anderen die op dit topic stuiten in de toekomst er ook nog iets aan hebben.

En dat is niet omdat ik (of we) het TS niet gunnen, maar jullie begrijpen hoe het forum er uit zou zien als iedereen dit deed :P Los van 't feit dat 't frustrerend is als je op zoek bent naar iets dergelijks en dan op zo'n topic stuit dat er (misschien) een oplossing is maar die niet is geplaatst omdat de betrokkenen al tijden niet meer komen op 't forum of niet (meer) bereikbaar zijn of... You get my point.

(Dat het toch gebeurt, en daar zullen we niemand op afrekenen, is een feit; ik probeer alleen zoveel mogelijk "aan de voorkant te houden. Dus humour me: als 't publiek kan: graag! ).

[ Voor 41% gewijzigd door RobIII op 15-12-2010 15:52 ]

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij


Verwijderd

Daar dit m'n werk aangaat ga ik daar niet dieper in op in details, noch via het forum, noch via PM's/DM's

globale vragen, kunnen altijd hier, direct in het topic, beantwoord worden.
Pagina: 1