Ik ben aan het nadenken over een goed algoritme voor het volgende optimalisatieprobleem:
Ik heb enkele duizenden punten in een grofweg duizend-dimensionale ruimte. Alle mogelijke verbindingen tussen paren van deze punten hebben een numeriek uitgedrukte eigenschap die we maar even "score" zullen noemen. Het doel is het paar van 2 punten te vinden dat de hoogste score heeft.
Helaas is score op geen enkele manier af te leiden uit eigenschappen van de punten zelf. Score is wel experimenteel meetbaar, maar praktisch gezien niet voor meer dan maximaal enkele duizenden paren - terwijl er miljoenen mogelijke combinaties zijn. Wel geldt dat score voor op elkaar gelijkende paren (dus paren waarvan de punten dichtbij elkaar liggen in de duizend-dimensionale ruimte) ongeveer gelijk is.
Een concreet voorbeeld hiervan: stel dat we in een 2-dimensionale ruimte de punten (1,0) en (7,5) hebben, en dat de score van dit puntenpaar experimenteel is vastgesteld op 10. Je kan dan een redelijke voorspelling doen dat de score van het puntenpaar (1,1) en (7,6) ook zo rond de 10 zal liggen, maar over het puntenpaar (-5,3) en (7,-2) weet je niets.
Het gaat me om dat soort voorspellingen. Ik probeer een algoritme te schrijven dat, gegeven een aantal experimenteel gemeten puntenparen, voor alle niet-gemeten puntenparen een voorspelling doet op basis van de afstand tussen deze punten en de wel gemeten puntenparen. Nu is zoiets al een keer gedaan op basis van lineaire regressie, maar ik heb het idee dat er met moderne AI methoden meer uit te halen zou moeten zijn.
Echter, er is nog een andere dimensie van het probleem, en dat is waar lineaire regressie niet uit komt. Een optimalisatie op basis van regressie kan weliswaar een voorspelling geven voor ongemeten puntenparen gegeven de gemeten puntenparen, maar als er geen enkel gemeten puntenpaar in de buurt ligt van een ongemeten paar, dan zal de voorspelling ook niet best zijn (grote standard error). Ik ben daarom tevens op zoek naar een algoritme dat de onzekerheid in de toekomstige voorspelling van de scores voor alle paren probeert te minimaliseren door (gegeven een reeds gemeten set van gemeten paren) een zo goed mogelijk gekozen (maar qua omvang beperkte) set paren voor te dragen voor experimentele bepaling van de score. Maar ik ben er nog niet uit hoe je zoiets zou kunnen aanpakken. Heeft iemand op basis van bovenstaande beschrijving een suggestie van de oplossingsrichting waarin ik dit zou kunnen zoeken?
Ik heb enkele duizenden punten in een grofweg duizend-dimensionale ruimte. Alle mogelijke verbindingen tussen paren van deze punten hebben een numeriek uitgedrukte eigenschap die we maar even "score" zullen noemen. Het doel is het paar van 2 punten te vinden dat de hoogste score heeft.
Helaas is score op geen enkele manier af te leiden uit eigenschappen van de punten zelf. Score is wel experimenteel meetbaar, maar praktisch gezien niet voor meer dan maximaal enkele duizenden paren - terwijl er miljoenen mogelijke combinaties zijn. Wel geldt dat score voor op elkaar gelijkende paren (dus paren waarvan de punten dichtbij elkaar liggen in de duizend-dimensionale ruimte) ongeveer gelijk is.
Een concreet voorbeeld hiervan: stel dat we in een 2-dimensionale ruimte de punten (1,0) en (7,5) hebben, en dat de score van dit puntenpaar experimenteel is vastgesteld op 10. Je kan dan een redelijke voorspelling doen dat de score van het puntenpaar (1,1) en (7,6) ook zo rond de 10 zal liggen, maar over het puntenpaar (-5,3) en (7,-2) weet je niets.
Het gaat me om dat soort voorspellingen. Ik probeer een algoritme te schrijven dat, gegeven een aantal experimenteel gemeten puntenparen, voor alle niet-gemeten puntenparen een voorspelling doet op basis van de afstand tussen deze punten en de wel gemeten puntenparen. Nu is zoiets al een keer gedaan op basis van lineaire regressie, maar ik heb het idee dat er met moderne AI methoden meer uit te halen zou moeten zijn.
Echter, er is nog een andere dimensie van het probleem, en dat is waar lineaire regressie niet uit komt. Een optimalisatie op basis van regressie kan weliswaar een voorspelling geven voor ongemeten puntenparen gegeven de gemeten puntenparen, maar als er geen enkel gemeten puntenpaar in de buurt ligt van een ongemeten paar, dan zal de voorspelling ook niet best zijn (grote standard error). Ik ben daarom tevens op zoek naar een algoritme dat de onzekerheid in de toekomstige voorspelling van de scores voor alle paren probeert te minimaliseren door (gegeven een reeds gemeten set van gemeten paren) een zo goed mogelijk gekozen (maar qua omvang beperkte) set paren voor te dragen voor experimentele bepaling van de score. Maar ik ben er nog niet uit hoe je zoiets zou kunnen aanpakken. Heeft iemand op basis van bovenstaande beschrijving een suggestie van de oplossingsrichting waarin ik dit zou kunnen zoeken?