ChatGPT / AI voor antwoorden en samenvattingen op het forum - Mooie features

woensdag 23 oktober 2024 11:31

Acties:

Luister Kophi Podcast!

Topicstarter

1. Welk probleem ervaar je?
ChatGPT heeft geen toegang tot Tweakers.net (GoT) en kan mij niet helpen aan antwoorden gebaseerd op GoT / FP.
2. Waarom is dat een probleem?
Omdat de rest van het internet zuigt en niet de antwoorden kan produceren die we hier collectief hebben zitten produceren met elkaar.
3. Hoe vaak loop je er tegenaan?
Elke dag natuurlijk, ik wil alles weten. Altijd.
4. Hoe ziet de ideale oplossing er voor jou uit?
We trainen Henk op de data van Tweakers en maken het beschikbaar voor gebruikers om vragen aan te stellen. Zoals 'mijn videokaart trekt 200 watt, is mijn voeding van 500 watt goed genoeg?' of 'ik hoorde dat je alles weet over het onbestaan van het middeninkomen, hoe zit dat nu precies en kan ik beter minder gaan werken?' zodat Henk antwoord kan geven.

Zo wordt de oude vertrouwde Henk gewoon weer afgestoft en net zo 'slim' als het collectief van al onze posts.

LLM trainen en gaan, toch?

Afbeeldingslocatie: https://tweakers.net/i/Vx1NX2vXmCYvD627Qv7LUC9Dz-w=/800x/filters:strip_exif()/f/image/38ygo2Sy5q59LdhokIwo6TzA.png?f=fotoalbum_large

Enfin: zonder gekkigheid - ik had het al eens geopperd maar nooit een formeel topic voor aangemaakt. Denk dat het een meerwaarde kan zijn.

Businesscase: pricewatch bedrijven. Zou namelijk Henk ook antwoord laten geven op 'wie heeft de beste prijs voor mij voor dit of dat'. Of advertorial klanten die Henk kunnen gebruiken om vraag en antwoord over hun product of dienst op te nemen - louter voor de inhoud van de specsheet of vergelijking met ander product. Henk is uiteraard niet omkoopbaar, maar wel selectief.

[ Voor 9% gewijzigd door NiGeLaToR op 23-10-2024 11:39 ]

KOPHI - Klagen Op Het Internet podcast. Luister hier! of kijk hier op YouTube.

maandag 28 oktober 2024 10:42

Acties:

AW_Bos

Nostalgicus 🕰

Ik ben geen devver, maar ze schreven er pas geleden wel over...
.plan: Experimenteren met generatieve AI - Development-iteratie #294

"Je kan met alle ziel en zaligheid ergens aan werken, maar soms is de uitkomst een zaal vol zieligheid." - Ariën

maandag 28 oktober 2024 10:50

Acties:

SgtElPotato

*knip* off-topic

[ Voor 86% gewijzigd door Orion84 op 28-10-2024 11:11 ]

Zucht...

maandag 28 oktober 2024 10:54

Acties:

CodeCaster

Stop AI Slop

Ik ben normaal faliekant tegen het posten van ChatGPT-antwoorden, maar deze TS vraagt erom:

Het trainen van een LLM op posts van een oud discussieforum kan problematisch zijn om enkele redenen:

Verouderde informatie: Veel kennis en opinies uit het verleden zijn mogelijk niet meer relevant of juist. Oude content kan dus verouderde normen en inzichten introduceren.
Inconsistente stijl en kwaliteit: Discussieforums hebben vaak een zeer uiteenlopende schrijfstijl, met veel spelling- en grammaticafouten, informele taal en soms zelfs spam of onzinnige berichten. Dit kan de kwaliteit van de output van het model beïnvloeden.
Bias en toxiciteit: Lange termijn forums kunnen negatieve patronen bevatten, zoals stereotypering, trolling, of discriminerende inhoud, wat moeilijk te filteren kan zijn zonder zorgvuldig cureren.
Privacy en auteursrechten: Zelfs als gebruikers anoniem posten, kan het forum mogelijk persoonlijke of auteursrechtelijk beschermde informatie bevatten. Hierdoor kan het problematisch zijn om de data zomaar te gebruiken.
Ongestructureerde data: Forums bevatten vaak veel irrelevante posts, herhalingen, of niet-lineaire discussies, wat een model kan verwarren en de algehele trainingskwaliteit verlaagt.

Om een nuttige en betrouwbare LLM te ontwikkelen, is het vaak beter om gestructureerde en goed onderhouden datasets te gebruiken.

Probeer maar eens op basis van forumposts te achterhalen of:

Je AMD of Intel moet nemen voor CPU
AMD of Nvidia als GPU
Wel of geen buffervat
Je bureaustoel thuis aftrekbaar is als zzp'er
Zonnepanelen nog nut hebben
Je een thuisaccu moet kopen

Enzovoorts.

[ Voor 11% gewijzigd door CodeCaster op 28-10-2024 10:57 ]

Je moet niet dronken dat ik denken ben.
What seems to be the officer, problem?
Waar is de brand, meester?

maandag 28 oktober 2024 11:05

Acties:

naitsoezn

Nait Soez'n!

Om de 1 of andere reden verwachten mensen van een AI altijd feilloze info. Maar stel diezelfde vragen op het forum, en je zult ook foutieve en/of verouderde info krijgen van 'menselijke' users.

't Het nog nooit, nog nooit zo donker west, of 't wer altied wel weer licht

maandag 28 oktober 2024 17:15

Acties:

NiGeLaToR

Luister Kophi Podcast!

Topicstarter

Thanks @AW_Bos die had ik gemist. Uit dat artikel:

Tot slot liepen we tegen beperkingen van de gebruikte llm's zelf aan. Zo zagen we bijvoorbeeld dat er telkens andere output verscheen bij het opnieuw uitvoeren van dezelfde opdracht, ondanks expliciete instructies om hierop te letten en het aanpassen van de instellingen hiervoor. Voor het genereren van tekst hoeft dat niet direct een probleem te zijn, maar in een taak waarbij productspecificaties vergeleken moeten worden, blijkt AI hiervoor niet geschikt.

Wellicht vraagt dit om een andere toepassing. Een beetje in lijn met wat @CodeCaster aan belemmeringen en uitdagen geeft:

De vraag is wat mij betreft niet of je een Henk moet maken die altijd de juiste antwoorden geeft, maar vooral getraind is op review data en (al dan niet recente) topics om je in de juiste richting te wijzen. Ik gebruik chatgpt vooral als vervanger voor google - wetende dat er onzin of slechte info in kan zitten, ik realiseer mij dat ik zelf de beoordeling moet doen. Maar een vraag als: ik wil een pc bouwen en gebruik hem vooral voor x of y en het mag z kosten zou al een redelijk overzicht moeten geven. Die info is er namelijk, alleen niet in 1 zucht doorzoekbaar.

Maargoed, tis een idee en niet elk idee is briljant, zelf niet de mijne

KOPHI - Klagen Op Het Internet podcast. Luister hier! of kijk hier op YouTube.

maandag 28 oktober 2024 17:35

Acties:

Yaksa

Garbage in = garbage out

En dat gaat zeker op voor fora waar gebruikers elkaar corrigeren op foutief geplaatste antwoorden.
Aangezien AI niet na kan denken (zoals de gebruikers wel doen) zullen er, haast onvermijdelijk, tips gegeven worden die gewoon niet kloppen. Dat lijkt mij in een, min of meer, technisch forum niet gewenst.

Only two things are infinite, the universe and human stupidity, and I'm not sure about the former

maandag 28 oktober 2024 18:02

Acties:

NiGeLaToR

Luister Kophi Podcast!

Topicstarter

Dan zou geen enkel AI succesvol zijn: internet staat vol onzin. Denk dat je argument dus niet helemaal strookt met hoe modellen getraind worden.

Ze zijn niet perfect, maar doorgaans veel beter dan een zoekmachine of random advies van Joke in de buurtsuper.

KOPHI - Klagen Op Het Internet podcast. Luister hier! of kijk hier op YouTube.

maandag 28 oktober 2024 18:04

Acties:

franssie

Save the albatross

Op basis van likes en consistentie zou er wel wat gefilterd kunnen worden. Niet elk experiment hoeft succesvol te zijn immers.

I´d rather be a hypocrite than the same person forever (Yauch)| 🎸 Niets is zo permanent als een tijdelijke oplossing | Een goed probleem komt nooit alleen | Gibson guitar Fender Guitar God Damn Guitar

maandag 28 oktober 2024 18:58

Acties:

DexterDee

Moderator General Chat

I doubt, therefore I might be

Het trainen van een LLM model met content van GoT is niet de juiste methodiek. Je content is namelijk al verouderd op het moment dat je het model getrained hebt. Bovendien is het een zeer kostbare zaak en is het technisch erg ingewikkeld om het model te finetunen op prestatie.

Dit moet je benaderen met een Retrieval Augmented Generation (RAG) aanpak. Tweakers draait op MySQL en voor deze database engine heb je Vectorstore plugins om vector indexing en search mogelijk te maken. Of als je dat niet wil installeer je een dedicated Vectorstore database als Chroma, Pinecone of Weaviate. Vervolgens ontwikkel je een proces die alle forum content omzet in embeddings en deze in de vectorstore zet. Dit kan een achtergrond proces zijn die nieuwe forum content continu verwerkt in de vectorstore. In de metadata van de vectorstore kun je nog handige dingen kwijt zoals hoe oud bepaalde content is en hoeveel karma de poster heeft van een bepaalde bijdrage.

Als de vectorstore eenmaal is gevuld dan kun je deze queryen met de prompt van de gebruiker. De systeemprompt zou er ongeveer zo uit kunnen zien:

code:

Je bent een behulpzame assistent genaamd Henk en je werkt voor Tweakers.net, 
een bedrijf dat zich richt op techliefhebbers. Jouw missie is om advies te geven 
over allerlei technologie gerelateerde onderwerpen.

Je hebt toegang tot een kennisbank bestaande uit alle forum discussies en posts. 
Beantwoord uitsluitend vragen uit deze kennisbank. Als de vraag niet relevant is
of je kunt het antwoord niet terugvinden in de kennisbank, zeg dan dat je het 
antwoord niet weet. Verzin zelf geen antwoorden.

Alles tussen de onderstaande 'context' XML blokken is opgehaald uit de kennisbank 
en is geen onderdeel van de conversatie met de gebruiker. De antwoorden zijn 
gesorteerd op relevantie.

<context>
- 
- 
</context>

Vermeld de kennisbank, context of zoekresultaten niet in je antwoord.

De vectorsearch resultaten zelf zou je op ouderdom en karma kunnen sorteren zodat recentere vragen of bijdragen van Tweakers met meer karma hoger in de zoekresultaten komen. Dat zou de kwaliteit van de antwoorden ten goede kunnen komen.

Plaats de top X zoekresultaten binnen de <context> blokken en voorzie elk resultaat van een streepje zodat de LLM de verschillende resultaten uit elkaar kan houden.

In principe kun je bovenstaande techniek met elke "generieke" LLM gebruiken. of het nu Claude, ChatGPT of Gemini is. De echte prompt zal nog een stukje ingewikkelder zijn en zul je moeten fine-tunen op het gebruikte model. Maar ik denk dat de resultaten behoorlijk okay zullen zijn.

Ik heb zelf productie chatbots gebouwd volgens dit principe en het is erg leuk en leerzaam om te doen!

Klik hier om mij een DM te sturen • 3245 WP op ZW

donderdag 21 november 2024 10:37

Acties:

oohh

Nog een aantal ideeën voor LLM gebruik op het forum:

Ik bedacht mij net, naar aanleiding van een aantal posts over magere topicstarts, dat het wel handig zou kunnen zijn om via een LLM een nieuwe topicstart te genereren gebaseerd op de reacties in een bestaand topic.

Of wanneer er veel nieuwe reacties in een topic zijn binnengekomen, een samenvatting van de laatste reacties die je nog niet hebt gelezen. Hetzelfde wanneer je een (vanuit de user) nieuw topic bekijkt.

maandag 6 januari 2025 23:47

Acties:

matroosoft

Lone Christian

Ik kom geregeld in één van de grote topics terecht, bijvoorbeeld over thuisbatterijen. Een schat aan informatie! Maar veel te veel om goed te kunnen doorzoeken. Zeker als je niet weet waar je op moet zoeken. Eenhet is niet te doen honderden paginas met oude posts door te nemen. Op de eerste paginas is vaak al weer veel verouderd, maar niet alles.

Een tool als chatGPT zou geweldig zijn, om een topic samen te vatten of om aandachtspunten uit een topic te vissen. In het antwoord kan dan diverse posts geciteert/gelinkt worden zodat je direct kunt doorklikken naar de relevante informatie.

[ Voor 14% gewijzigd door matroosoft op 06-01-2025 23:49 ]

maandag 6 januari 2025 23:50

Acties:

99ruud99

Dus, wat Let je om de link in chatgpt te gooien voor een samenvatting, als je dat zo graag wilt?

maandag 6 januari 2025 23:52

Acties:

matroosoft

Lone Christian

99ruud99 schreef op maandag 6 januari 2025 @ 23:50:
Dus, wat Let je om de link in chatgpt te gooien voor een samenvatting, als je dat zo graag wilt?

chatGPT kan maar 1 pagina doornemen, niet een heel topic

maandag 6 januari 2025 23:56

Acties:

duvekot

matroosoft schreef op maandag 6 januari 2025 @ 23:52:
[...]

chatGPT kan maar 1 pagina doornemen, niet een heel topic

Dat ligt aan de versie waar je toegang toe hebt, en anders geef je ChatGPT de opdracht om alle paginas door te nemen.

Dus het zou wel kunnen, maar kost tijd en geld.

Maar ipv ChatGPT zou een eigen tweakers LLM die getraind is op de posts in Gathering misschien wel een leuke LLM op kunnen leveren. Waar je lekker tegen kan kletsen over van alles ... Laten we hem Henk noemen

dinsdag 7 januari 2025 04:59

Acties:

XelaRetak

Probleem is dat ChatGPT en consorten lastig kunnen inschatten wat verouderd is dus krijg je die outdated dingen alsnog in je overzicht.

Verder een prima idee.

dinsdag 7 januari 2025 05:39

Acties:

NiGeLaToR

Luister Kophi Podcast!

Topicstarter

99ruud99 schreef op maandag 6 januari 2025 @ 23:50:
Dus, wat Let je om de link in chatgpt te gooien voor een samenvatting, als je dat zo graag wilt?

Tweakers.net / DPG media.

Ik heb helaas geen directe toegang tot de inhoud van die forumpagina en kan deze dus niet rechtstreeks samenvatten. Als je een samenvatting wilt, zou je (delen van) de tekst kunnen kopiëren of kort kunnen beschrijven waar de forumpost over gaat. Dan kan ik daaruit een samenvatting voor je maken.

Tekst er zelf in plakken kan, maar je verliest context, opmaak en verwijzingen.

Had zelf voorstel voor de Henk-bot gemaakt en er lopen wel AI experimenten. Maar vooralsnog zie ik nog even geen kans op een AI-hulpmiddel om te zoeken of samen te vatten gelanceerd worden op korte termijn.

KOPHI - Klagen Op Het Internet podcast. Luister hier! of kijk hier op YouTube.

woensdag 15 januari 2025 20:07

Acties:

MrJT

Deze wens heb ik ook, denk dat dit zou moeten lukken met Harpa, maar dat is wel even een uitzoek klusje om dat werkend te krijgen.

dinsdag 28 januari 2025 11:28

Acties:

sheane

Ik +1 deze wens even, het is nu wel mogelijk als je de pagina's 'uitprint' naar PDF. M.n. grote verzamel topics die zwaar zijn van tekst zijn ideaal hiervoor. Zeker als je een nieuw onderwerp je eigen wil maken.

dinsdag 28 januari 2025 11:29

Acties:

RobIII

Admin Devschuur®

^ Romeinse Ⅲ ja!

XelaRetak schreef op dinsdag 7 januari 2025 @ 04:59:
Probleem is dat ChatGPT en consorten lastig kunnen inschatten wat verouderd is dus krijg je die outdated dingen alsnog in je overzicht.

Er staat een datum boven elk bericht, ik geloof niet dat ChatGPT niet kan afleiden wat dan recente(re) data is.

There are only two hard problems in distributed systems: 2. Exactly-once delivery 1. Guaranteed order of messages 2. Exactly-once delivery.

Je eigen tweaker.me redirect

Over mij

dinsdag 28 januari 2025 12:07

Acties:

F_J_K

Moderator CSA/PB/AI

Front verplichte underscores

matroosoft schreef op maandag 6 januari 2025 @ 23:52:
[...]
chatGPT kan maar 1 pagina doornemen, niet een heel topic

Je komt al een heel end met de parameter ?limit=999 - Het Zonneplan Nexus Thuisbatterij topic - deel 2

Al kan je je afvragen waarom beperken tot 1 topic.

'Multiple exclamation marks,' he went on, shaking his head, 'are a sure sign of a diseased mind' (Terry Pratchett, Eric)