Statistiek - Wiskunde - Theorie - Toelatingsexamens arts en tandarts


Statistiek

Statistiek

Voorwoord

Deze theoriehoofdstukken werden in eerste instantie samengesteld om in de theorie te voorzien die vereist is voor het afleggen van de toelatingsexamens arts en tandarts, maar heeft mettertijd een bredere bestemming gekregen, waardoor meer theorie voorzien is dan gekend moet zijn voor het toelatingsexamen. Toch is de theorie relatief beknopt gehouden: ze is vooral bedoeld voor wie het allemaal al eens gezien heeft en wil herhalen en daardoor zijn basis verstevigen. Ik denk dat ze daardoor nuttig kan zijn bij de voorbereiding van die toelatingsexamens, voor olympiades of voor een herhaling van leerstof voor het aanvangen van hogere studies. Maar als je besluit dit document te gebruiken voor welke test dan ook, check dan zelf welke leerstof gekend moet zijn op de officiële sites.
De auteur van dit document kan in geen enkel geval aansprakelijk gesteld worden voor eventuele gevolgen van of schade die kan ontstaan uit het gebruik van dit document.

Centrummaten

Gemiddelde:
Mediaan:
n oneven: middelste getal na ordening.
n even: gemiddelde van 2 middelste getallen na ordening.
Modus: meest voorkomende getal(len).

Spreidingsmaten

Variatiebreedte R = grootste getal - kleinste getal.
Variantie (s2):
Standaardafwijking:
Als de standaardafwijking groot is, liggen de waarden relatief ver uiteen, is de standaardafwijking klein, liggen ze relatief dicht bijeen.
(xi – x)2
(xi – x)2

Voorspellen van m en s

Stel dat we een populatie hebben met gemiddelde m en standaardafwijking s.
En stel dat we een steekproef nemen in de populatie om deze m en s te schatten.
Dan geldt:
Het gemiddelde van de steekproef is een goede schatter van het populatiegemiddelde.
Maar! Om een goede schatter te krijgen van de populatiestandaardafwijking berekent men de standaardafwijking aldus:
Dus delen door n-1 in plaats van n!
(xi – x)2

Binomiale verdeling

Bij een binomiaal experiment heeft elk deelexperiment de kans op succes of mislukking en zijn de deelexperimenten onafhankelijk van elkaar.
Bijvoorbeeld: we gooien met een dobbelsteen. De kans p op het gooien van een 6 is 1/6. De kans q = 1-p op mislukking is dan 5/6.
Of bijvoorbeeld, bij opgooien munt nemen we als succes kop (p = ½) en munt (q = ½).
Bij een binomiaal experiment is de kans om k keer succes te hebben:
P(X = k) = C(n,k) . pk . (1-p)n-k
aantal successen
kans op succes
kans op mislukking
Combinaties n over k

Voorbeeld

We gooien 4 keer met een (eerlijke) dobbelsteen. Hoe groot is de kans dat we van de 4 worpen precies 1 keer een 6 gooien? Hier is n = 4, p = 1/6 en k = 1, dus:
P(X = 1) = C(4,1) . (1/6)1 (1 - 1/6)3 = 4 . 1/6 . 125/216 = 0,386

Vorm van de binomiale verdeling

Als we voor elk aantal successen de kans erop berekenen, krijgen we een bepaalde curve. Hoe meer keren we het experiment doen, hoe meer de curve lijkt op een klok:
Binomiaal kansexperiment met p = ½ (bvb. kruis bij opgooien munt) en n = 6.

Verwachtingswaarde en standaardafwijking

De verwachtingswaarde voor deze binomiale verdeling , dus in feite het midden van de curve zoals die op de vorige slide getoond werd:
Dus hier s = √(6 * 0,5 * 0,5) = √ 1,5.
Hier is dat 6 * 0,5 = 3,0. We zien dat ook op de curve.
De standaardafwijking bedraagt:
m = np

Normaalverdeling

De binomiale verdeling is een discrete verdeling: er is 0, 1, 2, 3, …k keer kans op succes, elk met zijn waarschijnlijkheid.
Maar veel zaken, bijvoorbeeld lichaamslengte, zijn niet discreet verdeeld maar continu: er zijn een oneindig aantal lengtes mogelijk.
Deze verdelingen zijn typisch normaal verdeeld en vormen de curve van een klok.
De formule van de normaalverdeling is als volgt:
P(x) =
(x – m)2

Vorm

De curve wordt de Gauss-curve genoemd, naar de ontdekker van de normaalverdeling.

Kans als oppervlakte

Bijvoorbeeld: de kans dat een bepaalde waarde, bvb. de lengte van iemand, tussen a en b ligt, wordt gegeven door de oppervlakte onder de curve.
En dus is de totale oppervlakte onder de curve = 1.
P(a < X < b)

Normaalverdeling als benadering

Bij de binomiaalverdeling is het bij erg grote waarden van n zowat ondoenlijk om de exacte kansen uit te rekenen.
Dit is ook niet nodig, want dan vormt de normaalverdeling een goede benadering en kan men deze gebruiken om de kansen uit te rekenen.

Kans als oppervlakte

Stel het volgende vraagstuk:
De lichaamslengte van mannen in België normaal verdeeld met m = 170 cm en s = 10 cm.
Wat is de kans dat een man een lichaamslengte tussen 160 en 190 cm heeft?
In principe kunnen we de oppervlakte uitrekenen door de integraal van de waarschijnlijkheidsfunctie (zie hiervoor) tussen a en b te nemen. Een rekenmachine kan dit doen.
Maar we kunnen ook tabellen gebruiken, maar deze zijn gemaakt op wat men de standaardnormale verdeling noemt.

Standaardnormale verdeling

We stellen:
We herleiden dan onze normaalverdeling tot de zogenaamde “standaardnormale verdeling” van de variable Z, die als m = 0 heeft en als s = 1.
De oppervlakte onder de curve is gegeven in de zogenaamde “z-tabel”.

z-tabel

De waarden in de z-tabel geven de weergegeven oppervlakte onder de curve aan, dus tussen 0 en z.
Bron Wikipedia / Source

z-tabel

Bron Wikipedia / Source

Voorbeeld

Bijvoorbeeld: de lichaamslengte van mannen in België normaal verdeeld met m = 170 cm en s = 10 cm. Wat is de kans dat een man een lichaamslengte tussen 160 en 190 cm heeft?
Eerst de z waarden uitrekenen:
z1 = (160 – 170) /10 = -1
z2 = (190 – 170) /10 = 2
We zoeken op in de tabel:
waarde voor 1 = 0,341, dus oppervlakte tussen -1 en 0 is: 0,341.
Waarde voor 2 = 0,477, dus oppervlakte tussen 0 en 2 is: 0,477.
En dan: totale oppervlakte is 0,477 + 0,341 = 0,818, dus 82%.

Eigenschap

Als X normaal verdeeld is met gemiddelde m en standaardafwijking s, dan is het gemiddelde X normaal verdeeld met gemiddelde m en standaardafwijking s/√n.
Dus stel dat we uit een populatie een steekproef nemen en een gemiddelde verkrijgen.
We doen daarna nog andere steekproeven en krijgen ook hiervoor gemiddelden.
Als we genoeg steekproeven doen, zullen deze gemiddelden normaal verdeeld zijn met het gemiddelde van de populatie, maar met standaardafwijking √n kleiner dan de standaardafwijking van de populatie.
Z wordt dan als volgt berekend:
s/√n

Betrouwbaarheidsintervallen

Stel dat ik een steekproef van een populatie maak en een gemiddelde bereken.
Hoe zeker ben ik dat dit een goede schatter is van het populatiegemiddelde?
Hier gaat men betrouwbaarheidsintervallen gebruiken, vaak gebruikt men het 95% betrouwbaarheidsinterval.
Men geeft bij een bepaald onderzoek dan bijvoorbeeld het gemiddelde aan (bvb. 0,41) en geeft er het 95% betrouwbaarheidsinterval (confidence interval (CI)) bij: bvb. CI is 0,32 tot 0,50.

Betrouwbaarheidsintervallen

Eigenlijk betekent een betrouwbaarheidsinterval dat als we later weer een steekproef doen, met 95% zekerheid kunnen zeggen dat het gemiddelde dan in dat betrouwbaarheidsinterval zal liggen.
Betrouwbaarheidsinterval

Berekening

Het betrouwbaarheidsinterval wordt als volgt berekend:
x – z* . s/√n
x + z* . s/√n
x is het gemiddelde van de steekproef.
s is de gekende populatiestandaardafwijking. Indien deze niet gekend is mag, indien het aantal elementen in de steekproef minstens 30 was, hiervoor de standaardafwijking van de steekproef genomen worden.
Wat is de z*-waarde? Wel, de z-tabel waarde die hoort bij, bvb, het 95% interval rond het gemiddelde, dus in de tabel zoeken we dan de waarde op waarvoor z gelijk is aan 0,475: dat is 1,96.
Voor 90 % BI is dit 1,64, voor 99% is dit 2,58.

Voorbeeld

We doen een statistisch onderzoek met n = 50 en krijgen voor een bepaald gemiddelde 35 mm. We gaan ervan uit dat het meetgegeven normaal verdeeld is.
We berekenen de standaardafwijking, deze bedraagt 11 mm
Wat is het 95% betrouwbaarheidsinterval?
Wel 95% CI = 35 mm ± 1.96 × 11/√50 = 35 mm ± 3,05 mm
Dus 95% CI = 31,95 mm tot 38,05 mm.

Binomiaal voorbeeld

Een bepaalde behandeling bij 50 patiënten geeft in 23 gevallen positieve respons.
Dit is een binomiaal experiment: het lukt met een bepaalde kans p of mislukt met een bepaalde kans q (= 1-p).
Wat is hier het 95% betrouwbaarheidsinterval?
De positieve respons (de zgn. “proportie”) is hier 23/50 = 0,46.
Dus schatter voor p is hier: 0,46 en dus q = 0,54.
We passen dan de formule toe:
p – z* . √[p.(1-p)/n]
p + z* . √[p.(1-p)/n]
Dus 95% CI = 0,46 ± 1.96 × √ (0,46 . 0,54 /50) = 0,46 ± 0,13.
Dus we hebben een positieve respons van 46% met een 95% CI van 33% tot 59%.

Toetsen van hypothesen

Stel dat we weten dat het algemeen gemiddelde geboortegewicht normaal verdeeld is met een gemiddelde van 3,3 kg en een standaardafwijking van 0,60 kg.
In een bepaald ziekenhuis doen we een steekproef op 50 pasgeboren baby’s. We komen uit op een gemiddeld geboortegewicht van 3,4 kg.
Kunnen we zeggen dat het geboortegewicht in het ziekenhuis verschilt van dat in de gehele populatie?
We formuleren twee hypothesen:
H0, de nulhypothese: m = 3,3 kg
H1, de alternatieve hypothese: m ≠ 3,3 kg
We vragen ons hier dus af of we met een willekeurige steekproef uit de populatie een gemiddelde kunnen krijgen van 3,4 kg en dat als niet-afwijkend beschouwen.

Significantieniveau

Met andere woorden: als we bvb. een 95% betrouwbaarheidsinterval opstellen rond het populatiegemiddelde, valt het steekproefgemiddelde dan nog binnen dit betrouwbaarheidsinterval (H0 aanvaard) of niet (H0 verworpen)?
a/2 = 2,5%
a/2 = 2,5%
We spreken echter niet van betrouwbaarheidsinterval hier maar van significantieniveau a. a = 1-CI (dus hier 1 – 95% = 0,05).
a is de kans dat ons steekproefgemiddelde significant afwijkt van het populatiegemiddelde .

Uitwerking

We gaan hier eerst g2 berekenen (g1 kunnen we hieruit makkelijk afleiden).
3,3 + 1,96 * 0,60/ √50 = 3,466 kg
g1 is dan 3,3 – 0,166 = 3,134 kg
Onze steekproef had een gemiddelde van 3,4 kg, dus kunnen we besluiten dat het populatiegemiddelde voor dit ziekenhuis niet verschilt van 3,3 op een significantieniveau van 5% (of 0,05).
De nulhypothese is aangenomen. Het populatiegemiddelde voor dit ziekenhuis wijkt niet significant af van het algemene populatiegemiddelde.

p-waarde

Men kan ook de zogenaamde p-waarde (probability value) berekenen.
We berekenen hier de oppervlakte rechts van ons steekproefgemiddelde.
P(z >= (3,4 - 3,3)/ (0,60/√50) ) = P (z >= 1,18) = 0,5 – 0,381 = 0,119. Dit is de p-waarde. Men kan ook 11,9% schrijven.
Dit is groter dan 2,5%: we verwerpen H0 niet, zoals tevoren en besluiten dat het steekproefgemiddelde niet significant afwijkt van het populatiegemiddelde. We kunnen er met de p-waarde wel meer gedetailleerde info bij geven. Hoe kleiner de p-waarde, hoe hoger de kans dat H0 niet waar is.
a/2 = 2,5%
a/2 = 2,5%

Eenzijdige toets

De voorgaande toets was een tweezijdige toets: we kijken na of ons gemiddelde van de steekproef niet te groot of te klein is.
Als we enkel willen nagaan of bijvoorbeeld het gemiddelde van de steekproef te groot is of niet, spreken we van een eenzijdige toets.
De werkwijze blijft analoog aan deze bij de tweezijdige toets, maar opgelet: in onderstaand voorbeeld nemen we de z-waarde die hoort bij 45% ipv deze van 47,5%!
a = 5%
In ons voorbeeld hadden we ons kunnen afvragen: is ons steekproefgemiddelde niet te hoog? H0: gem<=3,3, H1: gem > 3,3).

T-verdeling

Als s niet gekend is, kan men de standaardafwijking van de steekproef nemen (de vorm berekend met n-1).
Men krijgt dan niet de normale verdeling maar de zogenaamde t-verdeling, of Student’s t-verdeling, die iets breder is.
De T-waarde berekent men analoog aan de Z-waarde voor gemiddelden:
s/√n
Deze T-waarde zoekt men op in de t-tabel met het aantal vrijheidsgraden = n – 1. (Dit is de rij-aanduiding)
Bvb. stel dat n = 5, dan liggen 90% van de gemiddelden tussen t = −2,132 en t = +2,132 (zie tabel hierna vrijheidsgraden=4, 2-zijdig 90%).

T-tabel

Bron Wikipedia / Source

T-tabel

Bron Wikipedia / Source

Sirtaqi
©2017-2024 SIRTAQI