sin π/6 = 1/2 cos π/6 = √3/2 = 0,87 tan π/6 = √3/3 = 0,58
sin π/4 = √2/2 = 0,71 cos π/4 = √2/2 = 0,71 tan π/4 = 1
sin π/3 = √3/2 = 0,87 cos π/3 = 1/2 tan π/3 = √3 = 1,73
Statistiek - Wiskunde - Theorie - Toelatingsexamens arts en tandarts
Statistiek
Statistiek
Voorwoord
Deze theoriehoofdstukken werden in eerste instantie samengesteld om in de theorie te voorzien die vereist is voor het afleggen van de toelatingsexamens arts en tandarts, maar heeft mettertijd een bredere bestemming gekregen, waardoor meer theorie voorzien is dan gekend moet zijn voor het toelatingsexamen. Toch is de theorie relatief beknopt gehouden: ze is vooral bedoeld voor wie het allemaal al eens gezien heeft en wil herhalen en daardoor zijn basis verstevigen. Ik denk dat ze daardoor nuttig kan zijn bij de voorbereiding van die toelatingsexamens, voor olympiades of voor een herhaling van leerstof voor het aanvangen van hogere studies. Maar als je besluit dit document te gebruiken voor welke test dan ook, check dan zelf welke leerstof gekend moet zijn op de officiële sites. De auteur van dit document kan in geen enkel geval aansprakelijk gesteld worden voor eventuele gevolgen van of schade die kan ontstaan uit het gebruik van dit document.
Centrummaten
Gemiddelde: Mediaan: n oneven: middelste getal na ordening. n even: gemiddelde van 2 middelste getallen na ordening. Modus: meest voorkomende getal(len).
Spreidingsmaten
Variatiebreedte R = grootste getal - kleinste getal. Variantie (s2): Standaardafwijking: Als de standaardafwijking groot is, liggen de waarden relatief ver uiteen, is de standaardafwijking klein, liggen ze relatief dicht bijeen. (xi – x)2 (xi – x)2
Voorspellen van m en s
Stel dat we een populatie hebben met gemiddelde m en standaardafwijking s. En stel dat we een steekproef nemen in de populatie om deze m en s te schatten. Dan geldt: Het gemiddelde van de steekproef is een goede schatter van het populatiegemiddelde. Maar! Om een goede schatter te krijgen van de populatiestandaardafwijking berekent men de standaardafwijking aldus: Dus delen door n-1 in plaats van n! (xi – x)2
Binomiale verdeling
Bij een binomiaal experiment heeft elk deelexperiment de kans op succes of mislukking en zijn de deelexperimenten onafhankelijk van elkaar. Bijvoorbeeld: we gooien met een dobbelsteen. De kans p op het gooien van een 6 is 1/6. De kans q = 1-p op mislukking is dan 5/6. Of bijvoorbeeld, bij opgooien munt nemen we als succes kop (p = ½) en munt (q = ½). Bij een binomiaal experiment is de kans om k keer succes te hebben: P(X = k) = C(n,k) . pk . (1-p)n-k aantal successen kans op succes kans op mislukking Combinaties n over k
Voorbeeld
We gooien 4 keer met een (eerlijke) dobbelsteen. Hoe groot is de kans dat we van de 4 worpen precies 1 keer een 6 gooien? Hier is n = 4, p = 1/6 en k = 1, dus: P(X = 1) = C(4,1) . (1/6)1 (1 - 1/6)3 = 4 . 1/6 . 125/216 = 0,386
Vorm van de binomiale verdeling
Als we voor elk aantal successen de kans erop berekenen, krijgen we een bepaalde curve. Hoe meer keren we het experiment doen, hoe meer de curve lijkt op een klok: Binomiaal kansexperiment met p = ½ (bvb. kruis bij opgooien munt) en n = 6.
Verwachtingswaarde en standaardafwijking
De verwachtingswaarde voor deze binomiale verdeling , dus in feite het midden van de curve zoals die op de vorige slide getoond werd: Dus hier s = √(6 * 0,5 * 0,5) = √ 1,5. Hier is dat 6 * 0,5 = 3,0. We zien dat ook op de curve. De standaardafwijking bedraagt: m = np
Normaalverdeling
De binomiale verdeling is een discrete verdeling: er is 0, 1, 2, 3, …k keer kans op succes, elk met zijn waarschijnlijkheid. Maar veel zaken, bijvoorbeeld lichaamslengte, zijn niet discreet verdeeld maar continu: er zijn een oneindig aantal lengtes mogelijk. Deze verdelingen zijn typisch normaal verdeeld en vormen de curve van een klok. De formule van de normaalverdeling is als volgt: P(x) = (x – m)2
Vorm
De curve wordt de Gauss-curve genoemd, naar de ontdekker van de normaalverdeling.
Kans als oppervlakte
Bijvoorbeeld: de kans dat een bepaalde waarde, bvb. de lengte van iemand, tussen a en b ligt, wordt gegeven door de oppervlakte onder de curve. En dus is de totale oppervlakte onder de curve = 1. P(a < X < b)
Normaalverdeling als benadering
Bij de binomiaalverdeling is het bij erg grote waarden van n zowat ondoenlijk om de exacte kansen uit te rekenen. Dit is ook niet nodig, want dan vormt de normaalverdeling een goede benadering en kan men deze gebruiken om de kansen uit te rekenen.
Kans als oppervlakte
Stel het volgende vraagstuk: De lichaamslengte van mannen in België normaal verdeeld met m = 170 cm en s = 10 cm. Wat is de kans dat een man een lichaamslengte tussen 160 en 190 cm heeft? In principe kunnen we de oppervlakte uitrekenen door de integraal van de waarschijnlijkheidsfunctie (zie hiervoor) tussen a en b te nemen. Een rekenmachine kan dit doen. Maar we kunnen ook tabellen gebruiken, maar deze zijn gemaakt op wat men de standaardnormale verdeling noemt.
Standaardnormale verdeling
We stellen: We herleiden dan onze normaalverdeling tot de zogenaamde “standaardnormale verdeling” van de variable Z, die als m = 0 heeft en als s = 1. De oppervlakte onder de curve is gegeven in de zogenaamde “z-tabel”.
z-tabel
De waarden in de z-tabel geven de weergegeven oppervlakte onder de curve aan, dus tussen 0 en z. Bron Wikipedia / Source
z-tabel
Bron Wikipedia / Source
Voorbeeld
Bijvoorbeeld: de lichaamslengte van mannen in België normaal verdeeld met m = 170 cm en s = 10 cm. Wat is de kans dat een man een lichaamslengte tussen 160 en 190 cm heeft? Eerst de z waarden uitrekenen: z1 = (160 – 170) /10 = -1 z2 = (190 – 170) /10 = 2 We zoeken op in de tabel: waarde voor 1 = 0,341, dus oppervlakte tussen -1 en 0 is: 0,341. Waarde voor 2 = 0,477, dus oppervlakte tussen 0 en 2 is: 0,477. En dan: totale oppervlakte is 0,477 + 0,341 = 0,818, dus 82%.
Eigenschap
Als X normaal verdeeld is met gemiddelde m en standaardafwijking s, dan is het gemiddelde X normaal verdeeld met gemiddelde m en standaardafwijking s/√n. Dus stel dat we uit een populatie een steekproef nemen en een gemiddelde verkrijgen. We doen daarna nog andere steekproeven en krijgen ook hiervoor gemiddelden. Als we genoeg steekproeven doen, zullen deze gemiddelden normaal verdeeld zijn met het gemiddelde van de populatie, maar met standaardafwijking √n kleiner dan de standaardafwijking van de populatie. Z wordt dan als volgt berekend: s/√n
Betrouwbaarheidsintervallen
Stel dat ik een steekproef van een populatie maak en een gemiddelde bereken. Hoe zeker ben ik dat dit een goede schatter is van het populatiegemiddelde? Hier gaat men betrouwbaarheidsintervallen gebruiken, vaak gebruikt men het 95% betrouwbaarheidsinterval. Men geeft bij een bepaald onderzoek dan bijvoorbeeld het gemiddelde aan (bvb. 0,41) en geeft er het 95% betrouwbaarheidsinterval (confidence interval (CI)) bij: bvb. CI is 0,32 tot 0,50.
Betrouwbaarheidsintervallen
Eigenlijk betekent een betrouwbaarheidsinterval dat als we later weer een steekproef doen, met 95% zekerheid kunnen zeggen dat het gemiddelde dan in dat betrouwbaarheidsinterval zal liggen. Betrouwbaarheidsinterval
Berekening
Het betrouwbaarheidsinterval wordt als volgt berekend: x – z* . s/√n x + z* . s/√n x is het gemiddelde van de steekproef. s is de gekende populatiestandaardafwijking. Indien deze niet gekend is mag, indien het aantal elementen in de steekproef minstens 30 was, hiervoor de standaardafwijking van de steekproef genomen worden. Wat is de z*-waarde? Wel, de z-tabel waarde die hoort bij, bvb, het 95% interval rond het gemiddelde, dus in de tabel zoeken we dan de waarde op waarvoor z gelijk is aan 0,475: dat is 1,96. Voor 90 % BI is dit 1,64, voor 99% is dit 2,58.
Voorbeeld
We doen een statistisch onderzoek met n = 50 en krijgen voor een bepaald gemiddelde 35 mm. We gaan ervan uit dat het meetgegeven normaal verdeeld is. We berekenen de standaardafwijking, deze bedraagt 11 mm Wat is het 95% betrouwbaarheidsinterval? Wel 95% CI = 35 mm ± 1.96 × 11/√50 = 35 mm ± 3,05 mm Dus 95% CI = 31,95 mm tot 38,05 mm.
Binomiaal voorbeeld
Een bepaalde behandeling bij 50 patiënten geeft in 23 gevallen positieve respons. Dit is een binomiaal experiment: het lukt met een bepaalde kans p of mislukt met een bepaalde kans q (= 1-p). Wat is hier het 95% betrouwbaarheidsinterval? De positieve respons (de zgn. “proportie”) is hier 23/50 = 0,46. Dus schatter voor p is hier: 0,46 en dus q = 0,54. We passen dan de formule toe: p – z* . √[p.(1-p)/n] p + z* . √[p.(1-p)/n] Dus 95% CI = 0,46 ± 1.96 × √ (0,46 . 0,54 /50) = 0,46 ± 0,13. Dus we hebben een positieve respons van 46% met een 95% CI van 33% tot 59%.
Toetsen van hypothesen
Stel dat we weten dat het algemeen gemiddelde geboortegewicht normaal verdeeld is met een gemiddelde van 3,3 kg en een standaardafwijking van 0,60 kg. In een bepaald ziekenhuis doen we een steekproef op 50 pasgeboren baby’s. We komen uit op een gemiddeld geboortegewicht van 3,4 kg. Kunnen we zeggen dat het geboortegewicht in het ziekenhuis verschilt van dat in de gehele populatie? We formuleren twee hypothesen: H0, de nulhypothese: m = 3,3 kg H1, de alternatieve hypothese: m ≠ 3,3 kg We vragen ons hier dus af of we met een willekeurige steekproef uit de populatie een gemiddelde kunnen krijgen van 3,4 kg en dat als niet-afwijkend beschouwen.
Significantieniveau
Met andere woorden: als we bvb. een 95% betrouwbaarheidsinterval opstellen rond het populatiegemiddelde, valt het steekproefgemiddelde dan nog binnen dit betrouwbaarheidsinterval (H0 aanvaard) of niet (H0 verworpen)? a/2 = 2,5% a/2 = 2,5% We spreken echter niet van betrouwbaarheidsinterval hier maar van significantieniveau a. a = 1-CI (dus hier 1 – 95% = 0,05). a is de kans dat ons steekproefgemiddelde significant afwijkt van het populatiegemiddelde .
Uitwerking
We gaan hier eerst g2 berekenen (g1 kunnen we hieruit makkelijk afleiden). 3,3 + 1,96 * 0,60/ √50 = 3,466 kg g1 is dan 3,3 – 0,166 = 3,134 kg Onze steekproef had een gemiddelde van 3,4 kg, dus kunnen we besluiten dat het populatiegemiddelde voor dit ziekenhuis niet verschilt van 3,3 op een significantieniveau van 5% (of 0,05). De nulhypothese is aangenomen. Het populatiegemiddelde voor dit ziekenhuis wijkt niet significant af van het algemene populatiegemiddelde.
p-waarde
Men kan ook de zogenaamde p-waarde (probability value) berekenen. We berekenen hier de oppervlakte rechts van ons steekproefgemiddelde. P(z >= (3,4 - 3,3)/ (0,60/√50) ) = P (z >= 1,18) = 0,5 – 0,381 = 0,119. Dit is de p-waarde. Men kan ook 11,9% schrijven. Dit is groter dan 2,5%: we verwerpen H0 niet, zoals tevoren en besluiten dat het steekproefgemiddelde niet significant afwijkt van het populatiegemiddelde. We kunnen er met de p-waarde wel meer gedetailleerde info bij geven. Hoe kleiner de p-waarde, hoe hoger de kans dat H0 niet waar is. a/2 = 2,5% a/2 = 2,5%
Eenzijdige toets
De voorgaande toets was een tweezijdige toets: we kijken na of ons gemiddelde van de steekproef niet te groot of te klein is. Als we enkel willen nagaan of bijvoorbeeld het gemiddelde van de steekproef te groot is of niet, spreken we van een eenzijdige toets. De werkwijze blijft analoog aan deze bij de tweezijdige toets, maar opgelet: in onderstaand voorbeeld nemen we de z-waarde die hoort bij 45% ipv deze van 47,5%! a = 5% In ons voorbeeld hadden we ons kunnen afvragen: is ons steekproefgemiddelde niet te hoog? H0: gem<=3,3, H1: gem > 3,3).
T-verdeling
Als s niet gekend is, kan men de standaardafwijking van de steekproef nemen (de vorm berekend met n-1). Men krijgt dan niet de normale verdeling maar de zogenaamde t-verdeling, of Student’s t-verdeling, die iets breder is. De T-waarde berekent men analoog aan de Z-waarde voor gemiddelden: s/√n Deze T-waarde zoekt men op in de t-tabel met het aantal vrijheidsgraden = n – 1. (Dit is de rij-aanduiding) Bvb. stel dat n = 5, dan liggen 90% van de gemiddelden tussen t = −2,132 en t = +2,132 (zie tabel hierna vrijheidsgraden=4, 2-zijdig 90%).