t-town schreef op dinsdag 24 juni 2014 @ 18:53:
[...]
Dat noemt het Cocktail Party Effect en daar wordt aan de KU Leuven serieus onderzoek naar gedaan. Ik herinner mij een demo waarbii men 4-5 streams virtueel projecteert in een kamer waarop het algoritme ze allemaal uit elkaar ging halen. Dat bestaat dus al wel.
Ik ben er mee bekend

Geen idee wat de laatste stand van zaken is hoor, maar is het dan ook goed genoeg om te kunnen ondertitelen? En hoe complex is die algoritme? Moet er speciale hardware voor komen om de benodigde energie binnen de perken te houden?
Vraag me ook af wat je met virtueel projecteren bedoelt. Ze hebben het nog niet getest op een verjaardagsfeest oid? Want ik kan me ook wel wat demo filmpjes herinneren die het allemaal vrij eenvoudig laten lijken, maar daar werd geen rekening gehouden met dat mensen bewegen, dat er steeds harder en dan zachter wordt gepraat e.d.
De automatische ondertiteling die ik heb gezien moet ook een vrij duidelijke spraak als input krijgen. Een accent of iemand die binnensmonds praat zorgt er al voor dat de zinnen die eruit komen vrij hilarisch zijn. Gooi daar nog allerlei andere achtergrond geluiden bij en het wordt helemaal feest lijkt me.
Ik heb persoonlijk met dit soort dingen altijd zoiets van: als ik al moeite heb met het onderscheiden van stemmen en er werkende zinnen uit te halen in zo'n situatie, wat moet een computer er dan wel niet van maken. Nu weet ik ook wel dat ik niet echt een held ben in positiebepaling van geluiden, maar toch...
Hmmm... Welke bestanden doe je er dan in?
[
Voor 17% gewijzigd door
Caelorum op 24-06-2014 19:42
]