Benford's Law en Random nummers

Pagina: 1
Acties:
  • 307 views sinds 30-01-2008
  • Reageer

Acties:
  • 0 Henk 'm!

  • JackBol
  • Registratie: Maart 2000
  • Niet online

JackBol

Security is not an option!

Topicstarter
Ik heb een discussie met mijn broertje over Benford's Law en random nummers.

Het gaat om het volgende, Benford's law zegt dat:
In het artikel wordt dan ook uiteindelijk een wetmatigheid gesteld die zegt dat de kans dat een getal met d begint gelijk is aan log (1+1/d). In de figuur is dit uitgezet voor de getallen 1 t/m 9 (zie de balkjes). De kans dat in een reeks getallen een getal met een 1 begint, is dus volgens Benford ongeveer 30%! De kans dat een getal met een 9 begint daarentegen is slechts 5%. Deze wetmatigheid is later de Wet van Benford gaan heten. Velen hebben later de moeite genomen om datasets te onderzoeken op de geldigheid voor de Wet van Benford. Op internet zijn vele voorbeelden te vinden. In vrijwel alle gevallen claimt men dat voldaan is aan de Wet van Benford.
http://www.inzichten.nl/benford.html
Daar zijn we het over eens.

Ook staat er
Anders gezegd de kansen zijn onafhankelijk van de gekozen schaal.
Mijn veronderstelling is dus dat deze verdeling ook zou moeten gelden voor random nummers.

Als ik vervolgens op random.org een set nummers ophaal en hier een verdeling van maak, blijkt dit een uniforme verdeling te zijn.

Waar gaat het fout in deze redenatie?

De actuele opbrengst van mijn Tibber Homevolt


Acties:
  • 0 Henk 'm!

  • eamelink
  • Registratie: Juni 2001
  • Niet online

eamelink

Droptikkels

Op random.org gebruik je waarschijnlijk een vaste bovenlimiet. Het verschijnsel van Benford treedt waarschijnlijk op wanneer de bovenlimiet van een getallenreeks óók random is. Als dat het geval is; is de kans op een 1 als eerste getal veel groter dan de kans op een 9.

Vergelijk bijvoorbeeld eens de kans op een 1 als eerste cijfer bij een random gekozen getal uit een reeks met als laagste getal 1 en als hoogste getal

Hoogste Getal/Kans op 1 als eerste/Kans op 9 as eerste
911
1021
19111
1001211
20011111
30011111
40011111
50011111
60011111
70011111
80011111
900111111


Je ziet; de hoeveelheid sets waaruit de kans dat je een cijfer met een 1 als eerste cijfer trekt groter is dan de kans op 9 is bijzonder veel groter dan de hoeveelheid sets waar de kans ongeveer gelijk is :). Bij een willekeurige gekozen getal uit een willekeurig gekozen set is dus de kans op een 1 als eerste cijfer veel groter :). En dat gaat er mis bij je lijst van random.org; je set is niet willekeurig gekozen ;)

[ Voor 65% gewijzigd door eamelink op 25-12-2006 21:01 ]


Acties:
  • 0 Henk 'm!

  • Henk007
  • Registratie: December 2003
  • Laatst online: 06-04 00:29
Lees dit artikel eens
Notice that if a data entry (base 10) begins with a 1, the entry has to be at most doubled to have a first significant digit of 2. However, if a data entry begins with a 9, it only has to be increased by, at most, 11% to change the first significant digit into a 1. This once again illustrates that a first significant digit of 1 is more likely to occur than a 9.
Hierin zit de clou van Benford's law. Dit betekent meteen dat het alleen geldt als de data werkelijk een real-world betekenis hebben op een of andere afgemeten schaal. Dat geldt dus niet voor random getallen.

Acties:
  • 0 Henk 'm!

Anoniem: 124325

De zogenaamde Wet van Benford is eenvoudigweg een consequentie van het feit dat praktische getallen reeksen (real world waardesystemen) altijd een bovenlimiet hebben die vaak niet overeenkomt met de bovenlimiet van een volledige set in het decimale systeem(10; 100; 1000. . .

Voorbeeld:
De huisnummers in een straat
1,2,3,4,5,6,7,8,9,10,11,12, 13, 14,15,16,17,18,19,20,21,22,23,24.

Het is willekeurige straat met 24 huizen.

Er zijn 11 huizen die met # 1 beginnen ---->45,8%
Er is 1 huis die met # 9 begint: 4,2%
Er zijn 6 huizen die met # 2 beginnen: 25%

Neem nu een straat met 80 huizen:

Er zijn 11 x 1: 13,8%
10x2: 12,5% (en dat volgt nog 5x zo)
10x3
10x4
10x5
10x6
10x7
1x8: 1,25 %
1x9: 1,25%

Als je nu elke keer een willekeurige straat neemt in een willekeurige stad in een willekeurig land en de huisnummers zijn allemaal sequentieel op een rij 1---------N gezet, zonder dat er eigenaardige "missende" huizen zijn(zoals # 13) dan beginnen alle straten met meer dan 10 huizen met 11x een 1 maar er zullen ook korte straten zijn met minder dan 90 huizen. In die korte reeksen komen zeer weinig 9's voor. Aan de andere kan zijn er veel straten met zeg minder dan 900 huizen. . .dus alle 100 huizen in de 900-reeks zijn er niet! Dito zijn er maar zeer weinig straten met met meer dan 8999 huizen en die 1000 negens die er zijn tot 10000 zijn er niet, etc.

Stel nu dat er 1 zeldzame straat is met 19999 huizen. . .veel langer zuller straten in deze Benford Wereld niet zijn, en al helemaal niet met 90000 en meer huizen. Lange straten met veel apartementjes zijn er uiteraard wel maar het argument is altijd het zelfde: In willekeurige waarden tabellen van natuurlijk gekozen fenomenen is er altijd een tekort aan de hogere getallen. . .ook als je de atoom massa-nummers gaat bekijken. De reeks met massa-nummers in het gebied van 900 hebben we niet en in die atoomtafel reeks is er dus een overvloed van massanummers die met een 1 beginnen. . .ook als er van nature "missende" getallen zijn (maar dan kan de distributie in grote mate een afwijking kunnen hebben).

Er is een groteovervloed van huisnummers die met 1 beginnen louter omdat in alle straten met de 1-reeksen beginnen maar veel straten het laaste nummer niet in de 90 of in de 900 of in de 9000 reeks valt. Het Benford fenomeen is louter een gevolg van keuzen t.a.z.v. hoe je dingen een getal of een waarde toekent in het decimale systeem.

Het zou werkbaar zijn om in Vortexland de huisnummers te beginnen met 9999 en dan af te tellen.
Dan krijg je straten met hoofdzakelijk een 9 als begingetal en valt de Benford Wet in duigen.
Je krijgt dan een Vortex Distributie 8)

Voorts is het zo dat als je de huizen met een binair getal gaat identifiseren krijg je een distributie met alleen 1-tjes en nullen. De Wet van Vortex en de Wet van Benford kan je dan beide overboord zetten en krijg je een Wet van Bino :+

Maar je kan ook proberen te voorspellen wat de distributie zou zijn als je de huisnummers(of wat dan ook) gaat weergeven in een 105-delig systeem zodat dat elk getal/nummer maar 1 keer voorkomt in elke reeks die kleiner is dat 105 elementen. Je hoeft niet veel na te denken over hoe deze distributie er op een grafiek uitziet.

[ Voor 14% gewijzigd door Anoniem: 124325 op 25-12-2006 22:34 . Reden: spelfouten en fouten corrigeren ]


Acties:
  • 0 Henk 'm!

  • ATS
  • Registratie: September 2001
  • Laatst online: 03-06 06:47

ATS

Weet er niet iemand zo'n wet, maar dan voor de laatste getallen? Lijkt me handig voor de loterij :)

My opinions may have changed, but not the fact that I am right. -- Ashleigh Brilliant


Acties:
  • 0 Henk 'm!

  • JackBol
  • Registratie: Maart 2000
  • Niet online

JackBol

Security is not an option!

Topicstarter
ATS schreef op woensdag 27 december 2006 @ 18:00:
Weet er niet iemand zo'n wet, maar dan voor de laatste getallen? Lijkt me handig voor de loterij :)
Het geldt dus niet voor random nummers. Of het nu de eerste of de laatste is...

De actuele opbrengst van mijn Tibber Homevolt


Acties:
  • 0 Henk 'm!

Anoniem: 124325

ATS schreef op woensdag 27 december 2006 @ 18:00:
Weet er niet iemand zo'n wet, maar dan voor de laatste getallen? Lijkt me handig voor de loterij :)
Ik weet niet wat je precies bedoeld met "laatste" getallen. Als je bedoeld een data systeem te gaan beginnen met een willekeurig groot begingetal en gaat aftellen dan is het voor huisnummers gemakkelijk een dergelijke wet zelf te gaan ontdekken(de 9-gens zullen dat een hoge frequentie hebben en de 1 een zeer lage). Het lijkt me echter niet practische om zoiets te doen omdat het niet logisch en niet praktisch is om bijvoorbeeld het gewicht van aardappels die in kleine en grote aardapplevelden groeien met 1000 te gaan beginnen voor de kleinste aardappel en dan met grammen te gaan aftellen naar een grote aardappel. Het probleem is dat je eerst de kleinste moet vinden en dan kan je pas gaan aftellen. Op een gegeven moment(later) vind je een nog kleinere aardappel en dan moet je de schaal gaan veranderen naar bijvoorbeeld 1100 voor de kleinste. Zoiets is niet praktisch uitvoerbaar mede omdat alle vorige datasets niet meer te vergelijken zijn.

Met de normale manier van waarde toekenning voor natuurlijk voorkomende systemen kan je altijd met een 0 op de schaal beginnen en de eenheden kiezen zodat de kleinste maat 1 is (1 micron of 1 kilometer of 1 zonnediameter of 1 lichtjaar, of wat dan ook). Zolang je het decimale stelsel gebruikt zal de gemiddelde distributie van verzamelingen ongeveer de Wet van Benford laten zien zo lang je niet een verzameling neemt waarin van nature grote gaten in de maatgeving zitten of een verzameling die oneindig is.

In relatie tot andere onderwerpen waar oneindigheid in voorkomt kan ik stellen dat voor opeenvolgende huisnummers in een oneindige straat de Wet van Benford zich niet manifesteerd omdat er voor elke macht van 10 alle 1-en maar ook alle 9-gens als begingetal aanwezig zijn:

Van 1-10: (je kan het ook van 1-9 bekijken en de volgende set van 1-99 etc.)
2x1: 20 %
1x9: 10 %

Van 1-100:
12x 1: 12%
11x 9: 11%

Van 1-1000:
112x1: 11,2 %
111x9: 11,1 %

Van 1-1000:. . .(nu bij deductie)
1112x1: 11,12 %
1111x9: 11,11 %

Nu verder bij deductie worden de percentages:

1: 11,112 %
9: 11,111%

etc etc. Met elke volgende 10-macht serie er aan toegevoegd gaat de 2 aan het einde steeds verder naar het oneindige.

De conclusie is (als ik geen foutjen gemaakt heb) dat voor een oneindige set opvolgende huisnummers de freqeuntie van de 1 en de 9 beide naar de limiet van 11% gaat. Het volgt dat voor de 2, 3, 4, 5, 6, 7 en 8 het ook 11 % is.

Als je met de sets definieert als 1-9 -----> 1-99-----> 1----> 999 dan is de frequentie 11% precies voor elke 10-macht en het totaal is 11% constant. . .(achteraf gezien is dat natuurlijk een zelfsprekendheid).

De Wet van Benford geld dus niet als je datasets neemt die zeer, zeer groot zijn maar juist wel als je een groot aantal willekeurig gelimiteerde sets neemt en daarvan het gemiddelde neemt: de missende getallen aan het einde van de set veroorzaakt de dalende frequentie van de 1-en op gemiddeld 30 % naar de 9-gens op gemiddels 5%(zoals TS het liet zien).

Dus het geldt voor alle huismummers in een grote stad omdat de distributies van de korte en de lange straten gemiddeld worden.

Ik stel dat de Wet van Benford geen wetmatigheid genoemd mag worden omdat niet in alle natuurlijke distributies alle mogelijke opvolgende getallen "aanwezig" zijn. Ik noem maar even de chemische elementen massa-nummers. Er zijn massa-nummers die niet in de dataset voorkomen en dat geeft een afwijkende distributie en omdat er maar 1 periodic systeem voor atomen bestaat kan je niet de resultaten gaan middelen over 10-tallen datasets.

Laten we het houden op de naam Benford Distributies. . .BD . . .op deze manier wordt een distributie gekenmerkd dat het al dan niet een BD is en wat je daaruit kan opmaken.

Acties:
  • 0 Henk 'm!

  • JackBol
  • Registratie: Maart 2000
  • Niet online

JackBol

Security is not an option!

Topicstarter
Als je "laatste getallen" had geinterpreteerd als "minst significante cijfer" had je niet zo'n lang verhaal hoeven schrijven ;)

De actuele opbrengst van mijn Tibber Homevolt


Anoniem: 124325

_DH schreef op woensdag 27 december 2006 @ 22:53:
Als je "laatste getallen" had geinterpreteerd als "minst significante cijfer" had je niet zo'n lang verhaal hoeven schrijven ;)
Het is een leuk onderwerp dus elk excuus om er dieper op in te gaan is de moeite waard :*)
Het onderwerp is tenminste lang zo saai niet als de vraag of god bestaat. >:)

Voorts is het uitleggen van zaken een prachtige manier om zelf er meer over te leren. Dus des te langer mijn verhaal des te meer ik er zelf van begrijp.

[ Voor 16% gewijzigd door Anoniem: 124325 op 28-12-2006 00:03 ]

Pagina: 1