Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

Common voice open spraak data in het Nederlands

Pagina: 1
Acties:

  • jfdaniels
  • Registratie: Oktober 2015
  • Laatst online: 08-01 09:47
Sinds juni vorig jaar is Mozilla bezig met het project Common Voice. De bedoeling is om gesproken tekst, samen met de annotatie, beschikbaar te stellen in het publieke domein. Op die manier kunnen open source spraakassistenten gemakkelijk getraind worden.

Er is ook een tweede project van Mozilla, genaamd Deepspeech, dat momenteel bezig is om een neural net implementatie te bouwen die deze data gebruikt.

Op dit moment zijn ze bezig om Common Voice ook open te stellen voor andere talen. Hiervoor zijn ze op zoek naar zoveel mogelijk zinnen die ingesproken kunnen worden. Ikzelf heb al een 2000 zinnen in het Nederlands ingestuurd, maar hoe meer hoe beter.

Daarom een oproep om ook bij te dragen. Je kan data hier insturen:
https://voice-sprint.mozilla.community/contributing/

In een volgend stadium zullen er ook zinnen ingesproken kunnen worden. Dit kan via voice.mozilla.org. Momenteel is daar enkel het Engels beschikbaar, maar dit zal in de komende week veranderen.

  • Room42
  • Registratie: September 2001
  • Niet online
@jfdaniels Vertel eens wat meer over de projecten. Ik vind het wel interessant maar nu lijkt het meer een advertentie. Hoe gaat de data gebruikt worden en voor wie en zo? Waarom heb je zelf gekozen om mee te doen?

"Technological advancements don't feel fun anymore because of the motivations behind so many of them." Bron


  • j1nx
  • Registratie: Maart 2004
  • Laatst online: 21-10 06:33

j1nx

Geek - Enjoying life

@jfdaniels Helemaal top! Ik heb mij vorige week aangemeld om te helpen, maar kwam niet verder als mijn email achter laten. Heb tot op heden nog niets vernomen ?!? (Zal eens de spam folders doorworstelen)

Ik zal dit topic linken aan het MyCroft AI - Open Source Voice Assistant Wat jij schrijft wilde ik opnemen onder het stukje;

Hoe kan ik/jij helpen?


DeepSpeech


Scheelt mij meer ;)

MyCroft AI, heeft op dit moment de DeepSpeech servers draaien op hun infrastructuur. Met MyCroft kan je een "opt-in" aanzetten zodat je de spraak snippets die naar de server gestuurd worden voor Speech-To-Text te doneren zodat Mozilla daar mee kan verder trainen.

Zie ook;
https://mycroft.ai/blog/t...-speech-how-you-can-help/

Technical enthousiast on a budget - DiY Tutorials, How-To's and Information on how to do things yourself, better & cheaper - The Dutch way.


  • jfdaniels
  • Registratie: Oktober 2015
  • Laatst online: 08-01 09:47
@Room42 ik heb eigenlijk al sinds een jaar een Alexa, geconnecteerd aan een smartthings hub met wat zwave lichten en nog enkele andere geautomatiseerde toestellen.

Op een bepaald moment begon ik het wat vervelend te vinden dat al deze devices cloud based waren. Zeker mijn Alexa moest toch wel betrouwbaarder kunnen (lees, niet mijn data delen met Amazon).

Op die manier kwam ik bij Mycroft terecht. De bedoeling is dat dit op termijn een volledig open source voice assistant wordt. Initieel gebruikten ze nog Google voor de spraak transcriptie gezien er nog niets beschikbaar was. Sinds een maand gebruiken ze nu Mozilla Deepspeech.

Al vrij snel merkte ik dat de kwaliteit van deze open source voice assistants toch niet schitterend was. Hun herkenning is duidelijk minder goed dan die van Google of Amazon. Na hierover meer te lezen kwam al snel boven dat data de bottleneck is.

Zowel Echo/Alexa als Google Home verzamelen veel data maar delen deze niet. Op die manier is het moeilijk om concurrerende producten te maken. Op exact die manier is project common voice geboren. Hun bedoeling is om zoveel mogelijk spraak data inclusief transcriptie te verzamelen om deze nadien gratis ter beschikking te stellen.

Hoewel ik ergens wel bezorgd ben om het privacy aspect is de concurrentie redenering eigenlijk belangrijker voor mij. Eens common voice bestaat kan iedereen voice assistant producten beginnen te bouwen. Op dat moment is het eerder een kwestie van de juiste algoritmes/neural nets.

Sinds juni 2017 verzameld Common voice dus gesproken tekst. Initieel was dit enkel in het Engels. Vanaf binnenkort dus ook in andere talen. Omdat er op dit ogenblik nog niet veel spraakherkenning beschikbaar is in het Nederlands, vond ik dit toch wel een belangrijk project om te delen op Tweakers. Ik ben er zelf niet bij betrokken, buiten mijn bijdrage aan de Nederlandse zinnen. Daarbovenop is er geen enkele bedoeling om hier geld mee te verdienen. Louter het beschikbaar stellen van een volledig gratis spraak corpus.

Het enigste text to speech project waar ik momenteel weet van het is Deepspeech, ook van Mozilla. Op termijn zullen er nog wel andere volgen. Ook voor de academische sector kan deze corpus heel handig zijn. Door research kan dit dan vervolgens weer leiden tot betere neural nets.

  • jfdaniels
  • Registratie: Oktober 2015
  • Laatst online: 08-01 09:47
@j1nx super! Ja ze gaan niet zo actief achter de mailinglijst aan heb ik de indruk. De meest nuttige contributies kan je doen via hun github repository (bug reporting), hun discours channel (algemene discussies over de aanpak) of via de volgende contributie pagina.
https://voice-sprint.mozilla.community/contributing/

Het doel is om eerst een kritische massa aan zinnen te verzamelen. Daarna komt de taal op de website waarbij iedereen de zinnen kan inspreken. Hoe meer zinnen hoe beter. Zowel voor de woordenschat, maar ook om de context niet te overfitten.

  • j1nx
  • Registratie: Maart 2004
  • Laatst online: 21-10 06:33

j1nx

Geek - Enjoying life

jfdaniels schreef op donderdag 17 mei 2018 @ 23:19:
@j1nx super! Ja ze gaan niet zo actief achter de mailinglijst aan heb ik de indruk. De meest nuttige contributies kan je doen via hun github repository (bug reporting), hun discours channel (algemene discussies over de aanpak) of via de volgende contributie pagina.
https://voice-sprint.mozilla.community/contributing/

Het doel is om eerst een kritische massa aan zinnen te verzamelen. Daarna komt de taal op de website waarbij iedereen de zinnen kan inspreken. Hoe meer zinnen hoe beter. Zowel voor de woordenschat, maar ook om de context niet te overfitten.
Ik had gister via jouw link inderdaad al kunnen concluderen dat ze voor Nederlands voornamelijk nog hun database van tekst zinnen aan het vullen zijn. Daar ga ik dan ook net als jij maar mee helpen in alle vrije uurtjes hier en daar.

Is wel lekker makkelijk "hersendood" werk, wat gaatjes kan vullen in het programma. Mooi als je weer eens ergens mee vast zit en je even wat "anders" moet doen.

Het is eng, maar je post naar @Room42 hierboven is denk 80% de verwoording hoe ik de DeepSpeech sectie wilde opzetten voor het MyCroft topic. Buiten het eigenaar zijn van een Alexa, is het precies hoe ik er over denk en waar ik tegen aan liep. Zeker het punt dat ik uiteindelijk toch wel de spraak binnenshuis wil gaan houden; [DiY] Home (Personal AI) Assistant (HASS/GA/Alexa/MyCroft)

Technical enthousiast on a budget - DiY Tutorials, How-To's and Information on how to do things yourself, better & cheaper - The Dutch way.


  • jfdaniels
  • Registratie: Oktober 2015
  • Laatst online: 08-01 09:47
@j1nx ja ik ga volledig akkoord. Ik heb geen dringende reden om van Alexa af te moeten, maar zodra er een goed alternatief is ben ik weg. Daarmee dat ik nu bijdraagt aan Deepspeech.

Ik las ook je andere reacties. Ik heb momenteel Alexa met smartthings lopen. Dit werkt echt prima samen. Ik heb dit als een start setup en van hieruit kan ik nu stukjes vervangen. Ga binnenkort hassos op mijn rpi3 gooien (onlangs aangekomen) en dan heb ik smartthings al niet meer nodig. Daarna is mycroft de volgende stap om Alexa te vervangen.

Ik had eerst wat vrees over het aantal skills van beide, maar ik denk dat de hele home automation scene vrij DIY is. Daarom hebben deze open source platformen over het algemeen niet dezelfde nadelen als Bv linux heeft. Je vindt altijd wel een skill of addon voor jouw specifieke hardware.
Pagina: 1