Schattingen

zie ook de welkomstpagina over het verschil tussen schatten en controleren!

Bij schattingen probeer je een gemiddelde uit een steekproef te presenteren als indicatie voor het gemiddelde van een populatie. Zo’n schatting is het midden van een interval dat de juiste waarde omvat met een gekozen betrouwbaarheid en niet overdreven breed is. De onnauwkeurigheid (de halve afstand tussen boven- en ondergrens van zo’n symmetrisch interval rond het steekproefgemiddelde) kan je zo scherp kiezen als je wilt maar bij een gegeven aantal waarnemingen zal dat ten koste gaan van de betrouwbaarheid omdat de kans dat die grenzen het juiste getal blijven omvatten dan steeds kleiner wordt.

De formule voor de onnauwkeurigheid d is:

d = FPC x tabelwaarde x standaarddeviatie/wortel uit steekproefomvang

Zo kan de steekproefomvang worden bepaald als de andere factoren bekend zijn. En daar zit m nu het probleem…….

de FPC is een factor die laat zien hoe klein de steekproef is ten opzichte van de populatie en dus tegen 1 aankruipt als de populatie groter is (ten opzichte van de steekproef). Die ken je niet bij de opzet van de steekproef, dus zetten we maar op 1 (of we passen een enorme hoop wiskunde toe die nauwelijks iets oplevert) en dan overschatten we de benodigde steekproef

De tabelwaarde hangt af van de gekozen betrouwbaarheid en… de steekproefomvang! Los je dat op door de normale verdeling te gebruiken, dan onderschat je de benodigde steekproef (maar dat weegt meestal wel op tegen de overschatting hier boven. Als je 2 invult zit je altijd goed….

De standaarddeviatie ken je niet, want dat is en maat voor spreiding rondom het gemiddelde dat je nu juist probeert te schatten. Ha ha ha…Als je op zoek bent naar een percentage kan je voor de standaarddeviatie 0,5 invullen (voor de scherpslijpers: de wortel uit 0.5 maal (1-0,5)) maar voor een metrische variabele zal je toch echt een standaarddeviatie moeten ophoesten! Vaak gebruikt men daar een pilot voor maar pas op: als die pilot te klein is loop je een gigantisch risico de standaarddeviatie te onderschatten.  Sterker nog: een populatie met 5% waarden ongelijk nul zal bij een pilot van 30 in meer dan 20% van de gevallen een standaarddeviatie van 0 geven en dus een benodigde steekproef van 0!

Bij het schatten van percentages is de simpele vuistregel die leidt tot een steekproef die zeker groot genoeg is d= 1 x 2 x 0.5 /wortel(n) dus n=1/(d)^2

Het Hyper spreadsheet voor website levert zeker een lager aantal op dan die vuistregel. Nogmaals: deze sheet geeft een steekproef om een percentage te schatten dat voldoende nauwkeurig en betrouwbaar bepaald moet worden. Je kunt er niet mee toetsen of een fout nagenoeg niet in een populatie voorkomt. Voor die sheet heb je nodig:

– de omvang van de populatie: als je niet weet, naar boven afronden
– het vermoedelijke foutpercentage: alleen als je zeker weet dat het geen 50% is, afwijken van 50% (maar kijk wat dat uitmaakt!)
– de gewenste onnauwkeurigheid (eenzijdig: halve afstand van boven- naar ondergrens, meestal 1-5%)
– de vereiste betrouwbaarheid (tweezijdig!), meestal 90-95%

Voor het schatten van een gemiddelde van een metrische variabele is er ook een sheet te maken. Dat volgt asap.