Dank je
Maar ik ben wel bang dat deze discussie enigszins verder gaat dan "simpel" berekeningen. Duidelijk is in ieder geval dat wij een ander uitgangspunt hebben. Aan de andere kant, een discussie waar eens wat dieper op de zaken wordt ingegaan is natuurlijk nooit weg. Al ben ik bang dat we uiteindelijk niet verder komen dan dat we "agree that we disagree". Maar ook dat kan nuttig zijn.
[...]
Oi, bedrijven staan niet bekend om hun interesse in goede modellen, maar eerder om een zo efficient mogelijke afweging van kosten vs. modelcomplexiteit.
Dat is absoluut onjuist. Er zijn zat bedrijven die veel geld over hebben voor een goed model. Denk daarbij aan banken maar ook bv aan het KNMI. Als banken via een goed model, aandelenkoersen beter kunnen voorspellen hebben zij daar veel voor over. En dat geld voor meer bedrijven. Toegepaste statistiek is ondertussen een echte bedrijfstak waar veel bedrijven veel geld in investeren. Zo heeft bv KLM veel geld over voor informatie over haar tariefstructuur, de NS voor informatie over haar dienstregeling en Airbus over het gebruik van haar toestellen. En zo kan ik nog wel een tijdje doorgaan. Het is niet voor niets dat vorig jaar een econometrisch bedrijf (waar ik niet aan verbonden ben) de ondernemingsprijs van Rotterdam gewonnen heeft. Goede modellen leveren bedrijven veel geld op. En zij hebben daar dus ook veel geld voor over.
[...]
Uiteraard, alleen je zei dat je niets kon vinden over simpele econometrische modellen in R, en ik gaf je de eerste link in Google.
Mijn punt is meer dat je zodra je iets meer wilt, je aangewezen bent op (een batterij van) extra modules. Ook in andere talen bestaan die modules. Een eerlijke vergelijking vergelijkt dus ofwel R zonder extra modules tegen een andere taal ofwel R met extra modules tegen een andere taal met de beschikbare modules voor die taal. En dan vraag ik me af welke R modules ik zou missen. Erg weinig ben ik bang. Ook ik kan in Google eenvoudig bibliotheken vinden in C++ die hetzelfde doen.
Dat die eerste link toevallig veel Econometrische informatie oplevert (waar ik inderdaad in geinteresseerd ben) neemt niet weg dat een hoop informatie niet zomaar te vinden is. Het blijven tenslotte niet door de R ontwikkelaars ondersteunde modules.
[...]
Uiteraard, standaard statistische technieken zijn in veel talen geimplementeerd. Echter, bedenk wel dat 1) je er veel voor moet betalen 2) de source niet wordt vrijgegeven, zodat je niet op fouten kunt checken 3) je voor elke wissewasje en upgrade nogmaals fijn mag betalen. 4) bovendien in commerciele pakketten ontbreken vaak commercieel oninteressante klassen van modellen die wel belangrijk zijn (denk bv aan IRT modellen).
Dat je ervoor moet betalen is niet echt relevant. De kwaliteit en de support kán dat compeseren.
De sourcecode is vaak bij statistische biblioteken "gewoon" beschikbaar. Wel is dit inderdaad een belangrijk punt. Zeker als je op de cutting edge van de statistiek werkt.
Betalen voor elk wissewasje en upgrade? Dit is hetzelfde als punt 1

En natuurlijk sterk afhankelijk van de bibliotheek.
In het vierde punt heb je gelijk. Maar persoonlijk vind ik een klasse modellen die (nog) geen commercieel nut hebben enkel geschikt voor onderzoekers. Voor mensen die modellen voor
commercieel gebruik ontwikkelen is dat niet direct een belangrijk punt. iets om in de gaten te houden maar niet iets om gelijk door op een andere taal over te stappen
[...]
Achter elke model in R zit een wetenschappelijke publicatie. Die zoek je op, en je kunt de software implementatie controleren. Commerciele pakketten bieden deze faciliteit vaak niet. De documentatie is beroerd, en als je ze vraagt naar de gebruikte algoritmen, krijg je een non-sense antwoord dat het bedriijfsgeheim is.
Daarin is misschien EViews een uitzondering (al ken ik genoeg "vergelijkbare" producten die ook hun implementaties in de help files uitleggen) Vergeet niet dat EViews één van de weinige statistische pakketten is waaraan een nobelprijswinnaar daadwerkelijk heeft geprogrammeerd en ondersteuning levert (Engle) Ook gaat de documentatie vele malen verder dan strict noodzakelijk inclusief verwijzingen naar de wetenschappelijke artikelen waarop de toets gebaseerd is. Persoonlijk vind ik de documentatie van een pakket als EViews béter en vooral consistenter als die van R. De meeste C++ bibliothen daarentegen hebben inderdaad niet die kwaliteit van documentatie.
[...]
Wederom, kijk eens op
http://cran.au.r-project.org/src/contrib/PACKAGES.html Al die pakketten kun je binnen R zo binnenhalen. Verder, je bent niet'zomaar' geinteresseerd in binomial trees. Een bedrijf heeft een vraag, jij formuleert een antwoord met behulp van wetenschappelijke literatuur. Die verwijzen vaak naar een R pakket. Jij download dat pakket en gaat het gebruiken.
Een binomial tree is een basismethode binnen de econometie

Er zijn een hoop voorspelmodellen die daarop gebaseerd zijn. En eerlijk gezegd ben ik nog nóóit een verwijzing naar een R pakket tegengekomen. Meestal staan de artikelen die ik zie bol van de wiskundige formules en niet van een implementatie. Sterker nog ik ken verschillende gepubliseerde artikelen waarbij de implementatie van het algoritme door de auteurs gewoon incorrect is. Als je dat dan nogmaals op hún data gaat testen krijg je hele rare resultaten. Misschien kan R die fouten wat verminderen. Maar eerlijk gezegt betwijvel ik dat. Onderzoekers zijn gewoon geen programmeurs en hebben andere kwaliteiten, doelen en behoeften.
Daarnaast geeft dit aan dat als je méér wilt dan enkel de statistische modellen aanroepen, dat je dan al snel tegen de grenzen van R aanloopt. Een universiele taal heeft minder last van dat soort beperkingen
[...]
Een gui is niet nodig voor dergelijk onderzoek. R is oa gebouwd om grafieken te genereren in Latex, iets wat zeer bruikbaar is, en redelijk uniek.
Missende functionaliteit? Het is makkelijker schieten op iets, dan te construeren. Maar waar zitten in bv Eviews implementaties van 'serieuze' Bayesiaanse modellen? Waar zit in Eviews de mogelijkheid om ongelijkheidsgerestricteerde modellen te schatten? Waar zijn de SEM modellen, waar zijn de IRT modellen, waar zijn de complexe steekproef technieken? Waar zijn de multiple impuatie technieken?
Allereerst Latex. Ja, een mooie feature maar tegelijkertijd is het toch wel iets wat "verouderd" is. Het kan een hoop maar om je programmeertaal daar afhankelijk van te maken. Ik weet het niet. Persoonlijk vind ik dat ofwel de taal zelf voor grafieken moet kunnen zorgen ofwel de grafieken via meerdere alternatieve pakketten verzorgt moeten kunnen worden.
Daarnaast is EViews inderdaad zeker niet perfect. Eviews richt zich duidelijk op een deelgebied. Namelijk de econometrie. Sommige zaken zijn dan ook niet geimplementeerd of worden als een stiefkind behandeld. Echter EViews heeft ook niet de pretentie om een oplossing voor iedereen te zijn. R heeft dat wel. En waar andere pakketten misschien een beter alternatief zijn voor Eviews voor andere soorten statistiek, is ook R zeker geen universele oplossing. En ik ben realist genoeg om te weten dat R ook nooit een echt universeel pakket kan worden. Ook R heeft zijn sterke en zwakke punten. Probleem is dat de mensen achter R dat (in mijn ogen) te weinig zien. De kracht van R zit hem in de beschikbare modules. Maar als iemand die modules in VB zou implementeren blijft er weinig over van de voordelen van R. De basistaal is dus redelijk beperkt en een combinatie van C++ (of java of vb of....) en een goede bibliotheek heeft dus voor ontwikkelaars weinig tot geen nadelen. Wel kan de documentatie en support ontbreken. Maar R biedt geen garantie dat de documentatie en support wél op een hoog niveau zit.
[...]
R is niet bijzonder snel, en dat komt omdat het een geinterpreteerde taal is. R is wel de taal waarin de cutting edge applicaties worden ontwikkeld. Kijk eens naar artikelen in JASA, RSS, Comp Stat, JSR. Ik ken maar weinig auteurs die een C++ implementatie van hun modellen maken, maar ik ken er zat die in R werken. Deze auteurs zijn de ontwikkelaars van de nieuwe statistische technieken. Dat deze technieken later door programmeurs worden omgezet in C++, en worden verkocht voor veel geld, snap ik best, maar het laat we de volgorde van zaken zien.
Grappig, ik ken dus niemand die echt met R werkt. Wel met talen als C++. VB, Pascal en ken zelfs modellen in Excel. Maar R? Nog niet gezien. Maar ook al liggen de implementaties in andere talen achter op R. Voor hoeveel mensen is dat relevant? De meesten kennen die nieuwe ideeen niet eens en de mensen die het wel kennen hebben waarschijnlijk ook de kennis om het zelf te implementeren.
R is een zeer simpele taal die uitstekend in staat is vernieuwingen te ondersteunen op het gebied van de statistische wetenschap. In de praktijk blijkt dat voor normale hoeveelheden data R prima geschikt is om velerlei modellen mee te schatten. Uiteraard, als het we het hebben over de implementatie van statistische technieken in een ERP pakket, zal je de toevlucht moeten nemen naar C.
Dat R een simpele taal is en veel vernieuwingen snel ondersteund staat denk ik buiten kijf. Maar voor "simpele berekeningen" vind ik het té specialistisch terwijl voor echt commercieel gebruik het vaak niet geschikt is. Blijft over de onderzoeksmarkt. Maar de meeste mensen die ik ken combineren onderzoek aan een universiteit met een commerciele baan. Als je voor een commerciele opdracht al met commerciele producten (moet) werken is het niet logisch om bij je werk op de universiteit een andere taal te gebruiken.
Ik hoop dan ook al tijden op de implementatie van de beste R modules in C++. Met dezelfde documentatie en kwaliteit als die in R. Dat zou in mijn ogen uiteindelijk het beste zijn.
Snelheid, flexabiliteit én goede modellen in één oplossing vereenigd.