elementere kwantitatiewe metodes gqm105
DESCRIPTION
BCom (Ondernemingsbestuur) Hersiene UitgaweTRANSCRIPT
Elementêre Kwantitatiewe
Metodes
Johann Smith
ELEMENTÊRE KWANTITATIEWE METODES
© Kopiereg 2016
Onder redaksie van: Dr Paul JN Steyn, BA (PU vir CHO), THOD (POK), DEd (Unisa)
Skrywer: Johann Smith
Akademiese taalversorging, bladontwerp en uitleg: Dr Daleen van Niekerk
‘n Publikasie van Akademia.
Alle regte voorbehou.
Adres: Von Willichlaan 284, Centurion
Posadres: Posbus 11760. Centurion, 0046
Tel: 0861 222 888
E-pos: [email protected]
Webtuiste: www.akademia.ac.za
Geen gedeelte van hierdie boek mag sonder die skriftelike toestemming van
die uitgewers gereproduseer of in enige vorm of deur enige middel
weergegee word nie, hetsy elektronies of deur fotokopiëring, plaat- of
bandopnames, vermikrofilming of enige ander stelsel van inligtingsbewaring
nie. Enige ongemagtigde weergawe van hierdie werk sal as ‘n skending van
kopiereg beskou word en die dader sal aanspreeklik gehou word onder
siviele asook strafreg.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Inhoudsopgawe 3
IINNHHOOUUDDSSOOPPGGAAWWEE
Hoofstuk 1: Inleiding tot Statistiek................................................................................................ 7
1.1. Waarom leer sakestudente van statistiek? ............................................................................ 9
1.2. Waar pas statistiek in die groter prentjie? ........................................................................... 11
1.3. Wat is statistiek? ................................................................................................................... 13
1.4. Vlakke van data ..................................................................................................................... 15
Hoofstuk 2: Grafiese beskrywende statistiek .............................................................................. 19
2.1 Wat is beskrywende statistiek? ............................................................................................ 22
� Item 1: Die frekwensietabel .................................................................................................. 23
� Item 2: Die kolomgrafiek ....................................................................................................... 27
� Item 3: Die sirkelgrafiek ........................................................................................................ 29
� Item 4: Die histogram ........................................................................................................... 31
� Item 5: Kumulatiewe frekwensieverspreidings .................................................................... 33
� Item 6: Die kumulatiewe frekwensieveelhoek ..................................................................... 35
Hoofstuk 3: Numeriese beskrywende statistiek .......................................................................... 39
3.1 Wat is numeriese beskrywende statistiek? .......................................................................... 41
3.2 Wat is ’n gemiddeld? ............................................................................................................ 42
3.3 Wat is ’n mediaan? ............................................................................................................... 48
� Wat van groepe? ................................................................................................................... 49
� Moet ek altyd hierdie lang proses volg? ............................................................................... 52
� Waarom is ’n mediaan nuttig? .............................................................................................. 54
3.4 Wat is ’n modus?................................................................................................................... 57
3.5 Wat is ’n geweegde gemiddeld? ........................................................................................... 61
3.6 Wat is kwantiele? .................................................................................................................. 64
� Hoe word Q1 bereken? .......................................................................................................... 65
� Hoe word Q2 bereken? ......................................................................................................... 66
� Hoe word Q3 bereken? ......................................................................................................... 67
� Wat as die posisie nie ’n heelgetal is nie? ............................................................................ 67
� Hoe interpreteer ons kwantiele? .......................................................................................... 68
� Kwantiele vir kategorieë ....................................................................................................... 68
Elementêre Kwantitatiewe Metodes
4 Inhoudsopgawe | ©akademia (MSW)
3.7 Wat is maatstawwe van spreiding? ...................................................................................... 72
3.8 Wat is ’n standaardafwyking? ............................................................................................... 72
� Waarom is ’n standaardafwyking belangrik? ........................................................................ 73
� Hoe word ’n standaardafwyking bereken? ........................................................................... 73
3.9 Wat is die variansiekoëffisiënt? ............................................................................................ 75
3.10 Wat is ’n skeefheidskoëffisiënt? ........................................................................................... 76
� Hoe interpreteer ons ’n koëffisiënt van skeefheid? ............................................................. 78
Hoofstuk 4: Waarskynlikhede ..................................................................................................... 81
4.1 Wat is ’n waarskynlikheid?.................................................................................................... 83
� Berekening van ’n waarskynlikheid....................................................................................... 85
4.2 Belangrike begrippe .............................................................................................................. 87
� Begrip 1: Snyding .................................................................................................................. 88
� Begrip 2: Samevoeging .......................................................................................................... 97
� Begrip 3: Onderling-uitsluitlike gebeurtenisse ................................................................... 106
� Begrip 4: Gesamentlik uitputbaar ....................................................................................... 108
� Begrip 5: Voorwaardelike waarskynlikhede........................................................................ 111
� Begrip 6: Statistiese afhanklikheid ...................................................................................... 116
4.3 Telreëls ................................................................................................................................ 119
� Wat is kombinasies? ........................................................................................................... 121
� Permutasies......................................................................................................................... 125
Hoofstuk 5: Waarskynlikheidverspreidings ............................................................................... 131
5.1 Inleiding ............................................................................................................................... 132
5.2 Die binominale verspreiding ............................................................................................... 132
5.3 Die Poisson-verspreiding..................................................................................................... 141
� Wat is ’n Poisson-verspreiding? .......................................................................................... 142
5.4 Die normaalverdeling .......................................................................................................... 149
� Wat is ’n normaalverdeling? ............................................................................................... 149
� Wat is kontinue data? ......................................................................................................... 152
� Twee tipes normaalverdelings ............................................................................................ 154
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Inhoudsopgawe 5
Hoofstuk 6: Steekproewe ......................................................................................................... 167
6.1 Steekproefneming ............................................................................................................... 169
6.2 Ewekansige steekproefmetodes ......................................................................................... 171
� Opsomming van ewekansige steekproefneming ................................................................ 177
6.3 Nie-ewekansige steekproefneming .................................................................................... 178
� Geriefsteekproefneming ..................................................................................................... 178
� Oordeelsteekproefneming .................................................................................................. 179
� Kwota-steekproefneming ................................................................................................... 179
� Sneeubalsteekproefneming ................................................................................................ 179
6.4 Waarom is steekproefneming belangrik? ........................................................................... 179
Hoofstuk 7: Vertrouensintervalle.............................................................................................. 181
7.1 Om ’n gevolgtrekking oor die populasie te maak ............................................................... 186
7.2 Wat is ’n vertrouensinterval? ............................................................................................. 188
� Bereken ’n vertrouensinterval ............................................................................................ 189
� Bereken ’n vertrouensinterval as σ onbekend is ................................................................ 196
7.3 Ten slotte ............................................................................................................................ 202
Hoofstuk 8: Hipotesetoetsing van een veranderlike .................................................................. 203
8.1 Wat is ’n hipotesetoets? ..................................................................................................... 206
8.2 ’n Hipotesetoets vir een veranderlike ................................................................................. 207
� Linkskantige, regskantige en tweekantige hipoteses ......................................................... 209
8.3 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking bekend ..... 216
8.4 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking onbekend . 224
8.5 Terug by Sonja se hipotese ................................................................................................. 231
8.6 Ten slotte ............................................................................................................................ 234
Hoofstuk 9: Hipotesetoets vir twee steekproewe ...................................................................... 235
9.1 Hipotesetoets vir een veranderlike, twee populasies; populasie-standaardafwyking is
bekend ............................................................................................................................................ 239
9.2 Hipotesetoets vir twee steekproewe indien σ nie bekend is nie........................................ 246
9.3 Die gepaarde t-toets (matched pair t-test) ......................................................................... 258
9.4 Ten slotte ............................................................................................................................ 268
Elementêre Kwantitatiewe Metodes
6 Inhoudsopgawe | ©akademia (MSW)
Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid ........................................................... 269
10.1 Statistiese afhanklikheid ..................................................................................................... 272
10.2 Die χ2-stat ........................................................................................................................... 273
10.3 Ten slotte ............................................................................................................................ 287
Hoofstuk 11: ANOVA ................................................................................................................ 289
11.1 Wat is ANOVA? ................................................................................................................... 292
� Die hipotese ........................................................................................................................ 293
� Die F-tabel ........................................................................................................................... 293
� Die F-stat ............................................................................................................................. 294
� SST ....................................................................................................................................... 294
� SSE ....................................................................................................................................... 295
� MST ..................................................................................................................................... 297
� MSE ..................................................................................................................................... 297
� F-stat ................................................................................................................................... 297
11.2 Ten slotte ............................................................................................................................ 300
Aanhangsels ............................................................................................................................. 303
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek 7
HHOOOOFFSSTTUUKK 11:: IINNLLEEIIDDIINNGG TTOOTT SSTTAATTIISSTTIIEEKK
Onderwerp
1.1 Waarom leer sakestudente statistiek?
1.2 Waar pas statistiek in die groter prentjie?
1.3 Wat is statistiek?
1.4 Vlakke van data
Elementêre Kwantitatiewe Metodes
8 Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)
Gevallestudie: Michael
Vanessa kyk op as sy ’n klop by die deur hoor.
“Binne.”
Sy kyk vir ’n oomblik vraend na Michael wat effe onseker in die deur staan.
“Kan ek help?”
“Ek is Michael. David het gesê dat ek jou moet sien.”
Dan besef Vanessa wie die jong man is: Michael Bronkhorst, die student wat vandag sy
internskap by StatInc begin. David Brummer, een van die maatskappy se projekleiers, het
haar gevra om haar oor die junior te ontferm. Sy staan op.
“Natuurlik,” sê sy vriendeliker, dog professioneel. “Jammer, my kop was besig met ’n groot
projek wat ons vir ’n mediese fonds doen.” Sy hou haar hand uit. “Bly om jou te ontmoet.”
Michael skud haar hand. Vanessa wys na ’n stoel by haar lessenaar. “Sit gerus.”
Vanessa self neem plaas aan die agterkant van haar lessenaar. Sy kyk geïnteresseerd na
Michael. Vir sy ouderdom het die jong man ’n indrukwekkende CV. Hy is ’n eerstejaarstudent
by ’n plaaslike universiteit. Behalwe vir uitstekende matriekuitslae, was hy by elke moontlike
buitemuurse aktiwiteit by sy skool betrokke. Hy het selfs sy eie sakeonderneming begin
totdat dit met sy skoolwerk begin inmeng het en sy ouers ’n stokkie daarvoor gesteek het.
“Ek het jou universiteit gekontak. Daar is geen verpligte internskappe wat vereis word in jou
studierigting nie,” pak Vanessa dadelik die bul by die horings. “Waarom het jy besluit om by
ons betrokke te raak?”
“Ek het met ’n paar mense gesels; mense wat ’n werk doen wat ek eendag sal wil doen.
Almal het gekla dat studente wat die universiteit verlaat nie genoeg ondervinding het nie en
ek wou nie een van daardie studente wees nie.”
“En dit is hoe jy by David uitgekom het?”
Michael knik. “Ek het hom uit die bloute gebel en gehoor of daar iets is wat ek by StatInc kon
doen. Ek het nie gedink hy sal sommer ja sê nie, maar dalk kon hy vir my raad vir die
toekoms gee. Elke bietjie help.”
Vanessa word toenemend deur die effe buitengewone student beïndruk. Sy kan verstaan
waarom David hom ’n kans wou gee.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek 9
“StatInc is ’n baie dinamiese organisasie. Ons sal nooit die kans laat verbygaan om ’n
moontlike goeie werknemer – vir nou of vir die toekoms – te ontmoet nie. Verstaan ek reg as
ek sê dat jy bereid was om verniet te werk?”
Michael knik weereens. “Ek betaal vir my studies by die universiteit. Die feit dat julle my nie
geld vra om my te leer nie, is ’n bonus.”
Vanessa glimlag. “Wel, ek glo darem nie David sal jou vir ’n maand verniet laat werk nie.
Maar jou kontrak is ’n saak tussen julle twee. My taak sal wees om jou soveel as moontlik te
leer voordat jou maand verby is. Maar ek moet jou waarsku – jy gaan nie baie slaap inkry
nie!”
Michael se oë glinster. “Slaap is vir die voëls,” is al wat hy sê.
1.1. Waarom leer sakestudente van statistiek?
Statistiek, of soos dit in hierdie geval bekend staan, “Elementêre kwantitatiewe metodes”, is
’n vak wat mag voorkom of dit nie in ’n B.Com.-kwalifikasie hoort nie. Berekeninge hoort mos
by B.Sc- of Ingenieurskwalifikasies. Of dit mag moontlik deel wees van ’n B.Com.-
kwalifikasie, maar slegs by Rekeningkunde of Finansiële vakke. Waarom moet ’n student
wat met ’n graad in Ondernemingsbestuur of Bemarking besig is, Statistiek verstaan?
Die kort antwoord op hierdie vrae is eintlik eenvoudig. Statistiek is oral. Dit is deel van elke
bestuurder se lewe. Selfs klein sakeondernemings moet op ’n gereelde basis die een of
ander vorm van dataversameling doen en dan gevolgtrekkings op die statistiese ontleding
daarvan maak.
’n Groot uitdaging waarvoor studente te staan kom, is om die praktyk en teorie van Statistiek
met mekaar te versoen. Waarom moet ek ’n standaardafwyking kan bereken? Wat beteken
’n standaardafwyking van 10 – is dit groot of klein? Kan ek nie eerder eendag slegs ’n
statistikus betaal om die navorsing te doen nie? Wat beteken dit regtig as ’n hipotese
aanvaar is?
Die doel van hierdie gids is om daardie oorbrugging te verskaf. Deur intensief van ’n
deurlopende gevallestudie gebruik te maak, sal feitlik elke aspek van die Statistieksillabus
deur middel van ’n voorbeeld verduidelik word. Volg Michael, ’n eerstejaar B.Com.-student,
se ontdekkingstog tydens sy internskap by StatInc, ’n baie suksesvolle
marknavorsingsonderneming.
Elementêre Kwantitatiewe Metodes
10 Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)
Gevallestudie: Die toer
Michael volg Vanessa deur die gange van die hipermoderne kantoorgebou. StatInc is
duidelik ’n suksesvolle onderneming en elke kantoor is smaakvol toegerus met moderne
kantoormeubels. Oral is personeel besig om te werk. Vanessa stop by ’n kantoor met ’n
bordjie. Datavaslegging, lees Michael voordat hulle die kantoor binnestap.
Die kantoor is ’n bynes van aktiwiteit. Michael het in sy lewe nog nooit die geluid van soveel
rekenaarsleutelborde gehoor nie. ’n Groep van dertig of veertig datavasleggers sit by
rekenaars, besig om verskillende dokumente se waardes in die rekenaars in te lees. Michael
staan en staar oopmond na ’n dame wat teen ’n verbysterende spoed tik. As ek so vinnig
kon tik sou my take binne ’n halfuur afgehandel wees, en nie vier dae neem om te voltooi
nie, dink hy.
Vanessa praat saggies met Michael. “Hierdie is ons datavasleggers. Alle vraelyste wat
voltooi word, word deur hierdie personeel na ’n elektroniese formaat omgeskakel. Dit is
natuurlik baie belangrik dat hulle eenhonderdpersent akkuraat moet wees. As ’n
datavaslegger ’n fout maak, is die data wat ons vir statistiese ontleding kry, ook nie akkuraat
nie. Dit maak nie saak hóé goed en akkuraat ons statistiese ontleding dan is nie, die
resultate is niks werd as die data nie korrek is nie.”
Michael knik om aan te dui dat hy begryp.
“Ons het ook ’n aantal personeel wat spesialiseer in die ontwerp van vraelyste. Hulle eerste
verantwoordelikheid is om te sorg dat die inligting wat ons kliënt wil hê, wel deur die vraelys
versamel kan word. Hulle moet byvoorbeeld die regte vrae vra, seker maak dat daar nie
misverstande is nie, onnodige vrae uitlaat en seker maak dat daar nie enige vrae kort nie.
“Maar ’n tweede belangrike bydrae wat hierdie personeel maak, is om die vraelyste só op te
stel dat dit so vinnig as moontlik deur ons datavasleggers geprosesseer kan word. ’n Klein
verstelling op ’n vraelys kan die verskil tussen ’n uur en ’n week se werk veroorsaak.”
Michael staar verwonderd na die aktiwiteite in die vertrek. “Sleutel hulle slegs die data vir
StatInc se projekte in?”
“Nee, ons het kliënte wat hul eie navorsing gedoen het en dan slegs hul datavaslegging vir
ons stuur. Ons probeer natuurlik altyd verseker dat hul vraelyste ook deur StatInc opgestel
word omdat dit ons tyd en vir die kliënt geld spaar.”
Michael se kop werk oortyd as hy en Vanessa die vertrek verlaat. Hy het nooit besef dat hy
soveel in sy eerste dag sou leer nie. Die omvang van ’n navorsingsprojek is baie groter as
wat hy gedink het. Daar is die projekleiers en konsultante wat seker maak dat die regte vrae
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek 11
deur die navorsing gevra en beantwoord moet word. Soms weet die kliënte self nie presies
wat hulle met die navorsing wil bereik nie.
Dan word die navorsingsprojek beplan en die vraelyste word opgestel indien nodig. Daarna
moet die vraelyste deur veldwerkers aan die regte persone gegee word om in te vul (en die
manier waarop hierdie groep mense gekies word, is blykbaar ’n wetenskap in eie reg). As
die vraelyste voltooi is, word dit deur die datavasleggers in elektroniese formaat omgeskakel
en dan eers na die statistiese departement gestuur. Miskien moet ek probeer om my
internskap te verleng en ’n draai in elk van daardie departemente maak, dink hy as hulle
weer by Vanessa se kantoor instap.
Vanessa oorhandig ’n lêer aan Michael. Op die lêer is ’n plakker met die woorde “Vasvat
Versekeraars” geskryf. Michael kyk vraend na Vanessa.
“Dit is data wat ons vir een van ons kliënte versamel het. Hulle is Vasvat Versekeraars. Hulle
wil ’n behoefte-ontleding by hul bestaande kliënte doen. Ek glo julle het reeds beskrywende
statistiek op universiteit behandel?”
Michael knik.
“Die data is in die lêer. Een van ons junior statistikusse het reeds die beskrywende statistiek
met ’n rekenaarprogram afgehandel, maar ek sal graag wil hê dat jy die resultate moet
verifieer.”
Michael is vlug van begrip. “Met 'n potlood en ’n sakrekenaar?” sê hy met ’n glimlag.
“Presies. Jy sal sien dat daar ’n groot hoeveelheid data versamel is. Ons is egter
geïnteresseerd in die kliënte se ouderdomme en risikoprofiel. Ons kan mekaar môreoggend
agtuur weer ontmoet. Dan verwag ek van jou om die mees toepaslike beskrywende statistiek
voor te stel.”
Michael glimlag. “Wonderlik. My tweede dag by die werk en ek mag al aanbevelings maak!”
Vanessa is beïndruk deur sy optimisme. “Dinge gebeur baie vinnig by StatInc.”
1.2. Waar pas statistiek in die groter prentjie?
Soos wat die gevallestudie beskryf het, is Statistiek gewoonlik deel van ’n groter proses. ’n
Onderneming of navorser sal ’n sekere probleem in sy of haar omgewing identifiseer.
Hierdie probleem sal dan ondersoek word. Statistiek is ’n baie nuttige hulpmiddel om met
hierdie ondersoek te help.
Elementêre Kwantitatiewe Metodes
12 Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)
Die belangrikheid van goeie kwaliteit data kan egter nooit oorbeklemtoon word nie. Soos wat
Vanessa tereg gesê het, is die waarde van enige statistiese ontleding nul as die
dataversamelingsproses verdag is.
’n Navorsingsprojek, hetsy vir sakeondernemings, regeringsorganisasies of vir akademiese
doeleindes, volg dikwels ’n spesifieke proses. Hierdie proses word in Tabel 1.1 uiteengesit.
Die eerste kolom verskaf die stappe, die regterkantse kolom dui aan watter rol die statistikus
(of Vanessa en Michael in die gevallestudie) tydens hierdie stap sal speel.
Stap Rol van statistikus
Identifiseer die probleem Gewoonlik geen rol
Sekondêre navorsing (lees van bestaande
artikels en vorige navorsingsprojekte)
Gewoonlik geen rol
Beplan die navorsingsproses Beskryf watter data-analise-tegnieke
beskikbaar is.
Adviseer ten opsigte van die aard van data
wat versamel moet word.
Kies die steekproef. Steekproewe en
populasies word later in meer besonderhede
bespreek.
Bereken die benodigde steekproefgrootte.
Help met statistiese tegnieke om die regte
steekproef te identifiseer.
Stel die vraelyste op Maak seker dat die data wat deur die vraelys
versamel word, wel die navorsingsvrae kan
beantwoord.
Versamel die data Verskaf ondersteuning en opleiding aan
veldwerkers om goeie kwaliteit data te
versamel.
Analiseer data Hierdie is die taak van die statistikus. Data
word gebruik om ’n verskeidenheid
statistieke te bereken.
Vertoon resultate en maak gevolgtrekkings Hoewel die hele span gevolgtrekkings op die
data kan maak, is dit belangrik dat die
statistikus verseker dat die verkeerde
gevolgtrekkings nie gemaak word nie. Dit
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek 13
gebeur dikwels dat gevolgtrekkings gemaak
word sonder dat dit behoorlik deur die data
ondersteun word.
Stel ’n verslag saam Die statistikus gaan sommige dele van die
verslag moet skryf.
Hoewel groot projekte dikwels deur meer as een personeellid of selfs departemente
afgehandel word, is dit ’n luuksheid wat studente selde het. As ’n student sal jy heel moontlik
jou eie navorsing moet beplan, implementeer en data-analises doen. As ’n bestuurder sal dit
ook nodig wees om seker te maak dat alle departemente en spanlede hul werk doen – iets
wat moeilik sal wees sonder ’n deeglike kennis van al die verskillende aspekte (veral
statistiek) wat met navorsing verband hou.
1.3. Wat is statistiek?
Kortliks kan statistiek gedefinieer word as die ontleding van data om besluitneming te
ondersteun. As Vasvat Versekeraars byvoorbeeld hul premies wil verhoog, maar nie seker is
of hul kliënte die nuwe premies sal kan bekostig nie, sal hulle moontlik navorsing wil doen
om hul kliënte se inkomste te bepaal. Die statistikus sal die persoon wees wat die data wat
versamel is, ontleed.
Hoewel elke aspek van die navorsingsproses belangrik is, is die versameling van data
moontlik die een stap wat die grootste invloed op akkurate data-analise en statistiek mag hê.
Daarom is dit belangrik om ’n bietjie aandag hieraan te gee.
Gestel Vasvat Versekeraars het 100 000 kliënte. Hierdie groep kliënte stel die populasie
voor: dit is al die kliënte waarop navorsing gedoen kan word. Gestel Vasvat wil weet wat die
gemiddelde inkomste van daardie kliënte is, maar het nie hierdie data beskikbaar nie. Dit sal
dan nodig wees om hierdie data te versamel. Om vir 100 000 kliënte hul salarisse te vra, is
egter onmoontlik, gegewe die bepaalde begroting en tyd tot Vasvat se beskikking. Vasvat
sal dus ’n kleiner groepie kliënte moet identifiseer.
Elementêre Kwantitatiewe Metodes
14 Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)
Hierdie kliënte (steekproef) moet egter:
• uit die populasie gekies word; en
• verteenwoordigend wees van die populasie.
Hierdie kleiner groep kliënte word dan die steekproef genoem. ’n Verskeidenheid tegnieke
bestaan om te verseker dat die steekproef verteenwoordigend van die populasie is. Hierdie
tegnieke word later bespreek. As ’n steekproef verteenwoordigend is, kan statistiese
berekeninge met die steekproef gedoen word en die resultate kan dan op die populasie van
toepassing gemaak word.
Steekproef
500 kliënte
Populasie
100 000 kliënte
Sekere statistieke word bereken
Verteenwoor-
digend van
Gebruik vir: Statistieke word geskat
Figuur 1.2: Die gebruik van ’n steekproef om beramings ten opsigte van ’n populasie te maak
Populasie:
Al 100 000
van Vasvat se
kliënte
Steekproef:
Kleiner groep
vanuit
populasie
Verteenwoor-
digend van
populasie
Figuur 1.1: Die verskil tussen ’n steekproef en populasie
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek 15
1.4. Vlakke van data
Alle data wat vir statistiese doeleindes versamel word, kan op die een of ander wyse
beskryf word. Data kan kategorieë aandui (byvoorbeeld name van universiteite of
gunsteling restaurante), dit kan heelgetalle (byvoorbeeld die hoeveelheid mense in ’n gebou)
of reële getalle (byvoorbeeld salarisse) wees.
Die aard van data bepaal in ’n groot mate die tipe statistiese berekeninge wat daarmee
gedoen kan word. Dit is daarom belangrik om data te kan beskryf. Een wyse waarop data
beskryf kan word, is die vlakke van data.
Daar word hoofsaaklik onderskei tussen vier vlakke van data, naamlik nominale, ordinale,
interval- en ratio-data. Die mees beperkte data is nominale data. Hierdie tipe data besit geen
numeriese waarde nie en word soms ook kwalitatiewe data genoem. Nominale data word
gebruik om kategorieë voor te stel.
Dit is egter moontlik om numeriese waardes te verkry deur die hoeveelheid keer wat ’n
kategorie voorkom (die frekwensie genoem) te tel. As jy dus vir 1 000 persone vra wie hul
gunsteling versekeringsmaatskappy is en 250 persone noem Vasvat Versekeraars, dan is
die frekwensie van Vasvat Versekeraars 250. So kan jy die gewildheid van versekeraars
numeries bepaal. Jy kan egter nie ’n gemiddeld met hierdie frekwensies bereken nie.
Ordinale data is een vlak hoër as nominale data. Alle berekeninge wat met nominale data
gedoen kan word (byvoorbeeld frekwensies), kan ook met ordinale data gedoen word. Daar
is egter meer statistiese berekeninge wat met ordinale data gedoen kan word. Die groot
verskil tussen ordinale en nominale data is dat daar ’n mate van volgorde of grootte by
ordinale data kan voorkom. Nominale data kan verkry word met ’n vraag soos “Hoe gereeld
verander jy van versekeraar?” Die opsies vir antwoorde kan die volgende insluit:
• Nooit
• Jaarliks
• Twee keer per jaar
• Elke kwartaal
• Maandeliks
Hoewel die antwoord “nooit” nie enige numeriese waarde besit nie, is “jaarliks” meer gereeld
as nooit en “twee ker per jaar” meer gereeld as “jaarliks”. Die volgorde van antwoorde is dus
van “ongereeld” na “gereeld” gerangskik. Ordinale data is egter steeds beperk.
Intervaldata word gewoonlik verkry deur Likert-tipe skale. ’n Likertskaal, of ’n Likert-tipe
skaal, verskaf ’n aantal opsies aan die respondent (die persoon wat ’n vraelys invul)
Elementêre Kwantitatiewe Metodes
16 Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)
waarvan een gekies moet word. Die respondent moet op ’n skaal van, byvoorbeeld, een tot
vyf aandui hoeveel hy of sy met ’n stelling saamstem. Byvoorbeeld:
Vraag: Dui aan hoeveel jy met die volgende stelling saamstem: Statistiek is ’n
moeilike vak.
Stem glad nie
saam nie
Stem nie saam
nie
Neutraal Stem redelik
saam
Stem heeltemal
saam
X
Spesifieke waardes kan dan aan elke moontlike antwoord toegeken word, byvoorbeeld:
Stem glad nie
saam nie
Stem nie saam
nie
Neutraal Stem redelik
saam
Stem heeltemal
saam
X
1 2 3 4 5
’n Waarde van 2 is dus aan die bogenoemde antwoord toegeken. As 100 respondente se
antwoorde bymekaargetel word, kan ’n gemiddelde waarde bereken word. Anders as met
nominale en ordinale data, sal hierdie gemiddeld wel betekenisvol wees. ’n Gemiddeld van,
byvoorbeeld, 4.77 sal aandui dat die respondente oor die algemeen baie sterk met hierdie
stelling saamstem.
Die belangrikste eienskap van intervaldata is dat die afstande tussen die verskillende opsies
ewe groot moet wees. Die verskil tussen “stem glad nie saam nie” en “stem nie saam nie”
moet byvoorbeeld net so groot wees soos die verskil tussen “neutraal” en “stem redelik
saam”.
Alle berekenings wat met ordinale en nominale data gedoen kan word, kan egter ook met
intervaldata gedoen word.
Die laaste (en hoogste) vlak van data is ratio. Hierdie tipe data bevat soortgelyke
eienskappe as intervaldata, maar ’n 0 dui gewoonlik ook op die afwesigheid van die
genoemde element. Byvoorbeeld, as iemand se salaris gevra word en die antwoord is 0,
beteken dit dat die respondent geen salaris verdien nie. (In teenstelling, as iemand 0 op die
interval-skaal geantwoord het, beteken dit nie dat die persoon geen opinie het nie.) Die
volgende figuur som die vlakke van data op:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek 17
Figuur 1.3: Vlakke van data
Volgende aan die beurt
In Hoofstuk 2 sal Vanessa en Michael verskillende grafiese beskrywende statistieke
bespreek. Michael sal sommige statistieke voorstel. As Vanessa tevrede is, sal Michael
gevra word om elke statistiek te bereken en die resultate te interpreteer.
•Gewoonlike slegs kategorieë.
•Bv. manlike en vroulik.
Nominale data
•Die spesifeke getalle stel nie slegs kategorieë voor nie, maar het 'n waarde, bv. 1 is groter as 2.
•Bv. maatskappygrootte (mikro, klein, medium, groot).
Ordinale data
•Word gewoonlik gebruik met vrae wat skale (rating scales) bevat.
•Die afstand tussen verskillende opsies is ewe groot.
Intervaldata
•Die data is kontinu. Daar is dus enige hoeveelheid data wat tussen twee waardes voorkom.
•Bv: salaris (tussen R1 000 en R2 000 in onbeperkte hoeveelheid antwoorde).
Ratio-data
Elementêre Kwantitatiewe Metodes
18 Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)
Notas
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 19
HHOOOOFFSSTTUUKK 22:: GGRRAAFFIIEESSEE BBEESSKKRRYYWWEENNDDEE SSTTAATTIISSTTIIEEKK
Onderwerpe
2.1 Wat is beskrywende statistiek?
Item 1: Die frekwensietabel
Item 2: Die kolomgrafiek
Item 3: Die sirkelgrafiek
Item 4: Die histogram
Item 5: Kumulatiewe frekwensieverspreiding
Item 6: Die kumulatiewe frekwensieveelhoek
Elementêre Kwantitatiewe Metodes
20 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
Gevallestudie: Grafieke en tabelle
Michael het pas by Vanessa se tafel gaan sit. Vanessa is besig om vlugtig na ’n hele rits
tabelle en grafieke te kyk.
“Waarom het jy ’n sirkelgrafiek vir die verskillende inkomstestrome gebruik?” vra sy.
Michael kyk vinnig na die grafiek waarna Vanessa verwys:
“Die sirkelgrafiek gee vir ons ’n duideliker prentjie van die bydrae wat elke inkomstestroom
tot die totale inkomste maak. Ek kan ’n kolomgrafiek bysit as jy wil.”
“Dit sal goed wees. Maar hou die sirkelgrafiek in.” Vanessa kyk na ’n grafiek wat die totale
eise oor die laaste twaalf maande voorstel en frons. “Dis interessant,” sê sy. Sy wys die
grafiek vir Michael.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 21
“Is daar iets wat jou pla omtrent hierdie tendensgrafiek?” vra sy.
“Ja. Ek wou jou nog daaroor vra. Ek is nie ’n kenner in die versekeringsbedryf nie, maar my
logika sê dat daar meer eise oor die somervakansie sal wees as ander tye, met ’n effense
verhoging tydens April.”
“Hoekom April?” Michael is so verdiep in die grafiek dat hy nie die effense glimlag op
Vanessa se gesig sien nie – ’n aanduiding dat sy reeds die antwoord op daardie vraag ken.
Hy antwoord.
“Die Paasvakansie. Daar is gewoonlik meer ongelukke.”
“Korrek. En die tendensgrafiek dui dit aan. Wat ek nie verstaan nie, is hoekom daar so ’n
buitengewone verhoging in Oktober was.”
Michael het nie ’n idee nie. Vanessa verduidelik.
“Statistiek is ’n baie waardevolle hulpmiddel. Maar daar is beperkings rakende wat ons uit
statistieke kan leer. Dit is altyd belangrik dat ons die konteks rondom die statistieke
verstaan. Ons statistieke sê vir ons dat daar ’n skielike verhoging in eise in Oktober was.
Maar ons moet self die navorsing doen om te bepaal waar dit vandaan gekom het."
Skielik helder Michael se gesig op. “Wag ’n bietjie! Oktober verlede jaar. My pa het ook ’n
versekeringseis ingedien.”
Elementêre Kwantitatiewe Metodes
22 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
“Wat was fout met sy motor?”
“Haelstorms. Daar was amper elke dag ’n verskriklike storm. Die haelkorrels was so groot
soos gholfballe.”
“Dit is ’n moontlikheid. Ons weet nou waarvoor om te soek. Ons numeriese beskrywende
statistiek sal daarmee kan help.”
Michael is dadelik reg met ’n antwoord. “Ek het 'n paar gemiddelde en...”
Vanessa val hom laggend in die rede. “Wag eers. Een ding op ’n slag. Kom ons werk eers
deur jou grafiese beskrywende statistiek. Ons kan later aandag aan die numeriese
statistieke gee.”
2.1 Wat is beskrywende statistiek?
Soos reeds in die eerste hoofstuk verduidelik is, behels statistiek die versameling en
verwerking van data. Statistiek word meestal gebruik om gevolgtrekkings ten opsigte van ’n
sekere populasie te maak. Data word versamel deur, byvoorbeeld, vraelyste wat ingevul
word. Hierdie data word dan verwerk. Ons onderskei tussen twee kategorieë van verwerking
wat op hierdie data uitgevoer word:
• Beskrywende statistiek
• Afleidende (inferensiële) statistiek
Laasgenoemde behels die statistieke wat ons gebruik om gevolgtrekkings oor die populasie
te maak. Voorbeelde van gevolgtrekkings wat deur afleidende statistiek gemaak kan word,
is:
• Hoe ouer personeel by Maatskappy X is, hoe groter is hul salarisse.
• B.Com.-studente hou gemiddeld meer van sjokolade as B.A.-studente.
• Daar is ’n korrelasie tussen die tyd wat ’n leerder aan ’n vak spandeer en die punt
wat hy/sy vir daardie vak behaal.
Afleidende statistiek verskaf dus dikwels die antwoorde op vrae wat in die eerste plek
aanleiding tot die navorsing gegee het. In enige navorsingsprojek sal afleidende statistiek
egter deur beskrywende statistiek voorafgegaan word.
Beskrywende statistiek verskaf ’n “prentjie” van hoe die data lyk. Daar word nie gepoog om
enige gevolgtrekkings te maak nie, maar bloot om vir die leser van so ’n verslag ’n oorsig
van die data te gee. Beskrywende statistiek bestaan gewoonlik uit grafieke, tabelle en
sekere numeriese waardes soos gemiddelde, maksimum- en minimumwaardes. Hierdie
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 23
hoofstuk is gemoeid met grafiese beskrywende statistiek wat hoofsaaklik tabelle en grafieke
insluit. Hoofstuk 3 sal weer op numeriese beskrywende statistiek fokus.
� Item 1: Die frekwensietabel
Beskou die volgende skets:
Figuur 2.1: Elemente van ’n versameling
Deur na die gegewe skets te kyk, kan ons twee belangrike dinge sien:
• Daar is ’n groot hoeveelheid elemente in die versameling.
• Ons kan onderskei tussen drie groepe (of kategorieë) in hierdie versameling: wit
sirkels, donkergrys sirkels en sirkels met strepies.
Sorteer nou die verskillende sirkels in hierdie drie kategorieë (wit, grys en strepies). Jy
behoort die volgende te kry:
Elementêre Kwantitatiewe Metodes
24 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
Figuur 2.2: Elemente van ’n versameling gekategoriseer
Die sirkels is nou gekategoriseer:
• K1, K2 en K3 stel drie kategorieë voor.
• Die hoeveelheid sirkels in elke kategorie word frekwensies genoem.
o K1 se frekwensie is 12
o K2 se frekwensie is 9
o K3 se frekwensie is 15
’n Frekwensietabel word gebruik om hierdie frekwensies voor te stel. ’n Frekwensietabel vir
die bogenoemde sirkels sal soos volg lyk:
Kategorie Frekwensie
K1: Wit 12
K2: Grys 9
K3: Strepies 15
TOTAAL 36
Soms wil ons ook elke kategorie se proporsie van die totale frekwensies bepaal. Om hierdie
rede sal ons soms ’n ekstra kolom byvoeg waarin die persentasies vir elke kategorie
aangedui word. In bogenoemde frekwensietabel sal elke persentasie verkry word deur die
K 1
K 2
K 3
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 25
frekwensie deur 36 (die totale frekwensies vir alle kategorieë) te deel. Die frekwensietabel
sal dan soos volg daar uitsien:
Kategorie Frekwensie Persentasie
K1: Wit 12 33.33%
K2: Grys 9 25%
K3: Strepies 15 41.67%
TOTAAL 36 100%
In die sakeomgewing werk ons egter nie met sirkels van verskillende kleure nie. Ons werk
wel met kategorieë. ’n Student se studierigting, haarkleur en gunsteling restaurant is alles
voorbeelde van kategoriese data. Beskou die volgende vraag wat in ’n vraelys voorkom:
Vraag 1: Wat is die kleur van u oë?
Blou
Grys
Bruin
Swart
Groen
Ander
’n Respondent (die persoon wat die vraelys invul) sal dan ’n kruisie langs die korrekte
antwoord maak. Gestel daar is 200 vraelyste. Die navorser sal dan na elke vraelys kyk en ’n
strepie by ’n kategorie maak indien die respondent daardie kategorie gekies het,
byvoorbeeld:
Kleur Frekwensie
Blou ||||| ||||| ||
Grys ||||| |
Bruin ||||| ||||| |||||
Swart ||||| ||||| ||
Elementêre Kwantitatiewe Metodes
26 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
Groen |||
Ander ||
Wanneer al die vraelyste deurgewerk is, sal die navorser dan tel hoeveel strepies by elke
kategorie voorkom. Die hoeveelheid strepies (en dus die hoeveelheid respondente met
daardie kleur oë) word die frekwensie genoem. Die frekwensietabel sal dan soos volg lyk:
Kleur Frekwensie
Blou 12
Grys 6
Bruin 15
Swart 12
Groen 3
Ander 2
Vinnige vrae
Wat is ’n frekwensietabel?
’n Frekwensietabel is 'n tabel wat frekwensies in kategoriese data voorstel.
Wanneer gebruik ons dit?
’n Frekwensietabel is ideaal vir kwalitatiewe data wat in kategorieë ingedeel kan word. Deur
die frekwensies te bepaal kan kwalitatiewe data in kwantitatiewe data omgeskakel word. Met
kwantitatiewe data kan berekeninge gedoen word.
Is dit al waar ons frekwensietabelle kan gebruik?
Nee, frekwensietabelle kan ook vir numeriese data gebruik word, soos wat later in hierdie
hoofstuk gesien sal word. In so ’n geval moet die numeriese data egter steeds in kategorieë
gegroepeer word.
Voorbeeld van ’n vraag op ’n vraelys wat hierdie data sal versamel
Vraag:
Dui asseblief met ’n kruisie aan watter een van die onderstaande tydskrifte u gunsteling is:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 27
Die Huisgenoot
Die Time Magazine
Sarie
Rooi Rose
Frekwensietabelle is ’n nuttige wyse om kategoriese data voor te stel. Ons kan egter selfs
een stap verder gaan en die data in hierdie tabel op ’n meer visuele wyse voorstel. Hiervoor
gebruik ons ’n kolomgrafiek en ’n sirkelgrafiek.
� Item 2: Die kolomgrafiek
Die voordeel daarvan om data met behulp van tabelle voor te stel is dat die leser heelwat
besonderhede op een slag kan sien. Die gewilde spreekwoord sê egter dat ’n enkele prentjie
beter is as ’n duisend woorde of, in hierdie geval, ’n duisend getalle. Om hierdie rede is
grafieke baie nuttig wanneer data beskryf moet word.
’n Nuttige grafiek in hierdie verband is die kolomgrafiek. Hierdie grafiek kan vir enige tipe
data gebruik word. Michael het die verskillende bronne van inkomste vir Vasvat
Versekeraars ontvang. Hy het hierdie bronne in ’n tabel geplaas:
Premies R48 000 000
Huurinkomste R9 000 000
Rente R4 000 000
Ander R2 000 000
TOTAAL R63 000 000
Op Vanessa se versoek het Michael hierdie data grafies voorgestel. Een van die grafieke
wat Vanessa aangevra het, was ’n kolomgrafiek. Die grafiek wat Michael dus opgestel het,
lyk soos volg:
Elementêre Kwantitatiewe Metodes
28 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
Figuur 2.3: Voorbeeld van ’n kolomgrafiek
Dit is dus baie maklik om aan die een kant te sien watter bronne vir die grootste inkomste
verantwoordelik was. Aan die ander kant is dit ook maklik om van die grafiek te lees wat die
presiese bedrag was. (Die y-as aan die linkerkant dui byvoorbeeld aan dat premies vir
R48 miljoen se inkomste verantwoordelik was).
Vinnige vrae
Wat is ’n kolomgrafiek?
’n Kolomgrafiek is ’n grafiese voorstelling van data. Deur na ’n kolomgrafiek te kyk kan
verskillende data met mekaar vergelyk word en die presiese waarde van elke veranderlike
(in bogenoemde geval die verskillende bronne van inkomste) kan van die grafiek afgelees
word.
Wanneer gebruik ons dit?
’n Kolomgrafiek kan gebruik word om beide kategoriese en numeriese data voor te stel. Dit
is een van die eenvoudigste grafieke en behoort deur enige leser verstaan te word. Dit is
ideaal vir numeriese data waar ’n enkele waarde vir verskillende veranderlikes verskaf word.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 29
Wanneer sal ’n kolomgrafiek nie gebruik word nie?
’n Kolomgrafiek sal tipies nie gebruik word om persentasies of verhoudings voor te stel nie
(’n sirkelgrafiek werk beter hiervoor).
� Item 3: Die sirkelgrafiek
Nog ’n nuttige grafiek wat vir die voorstelling van data gebruik kan word, is ’n sirkelgrafiek.
Soos aan die begin van hierdie hoofstuk genoem is, het Michael se beskrywende statistiek
reeds ’n sirkelgrafiek bevat. Die data in hierdie grafiek is dieselfde data wat vir die
bogenoemde kolomgrafiek gebruik is, naamlik die bronne waarvandaan Vasvat
Versekeraars hul inkomste verkry het. Die grafiek lyk soos volg:
Figuur 2.4: Voorbeeld van ’n sirkelgrafiek
Wat is die verskil tussen hierdie twee grafieke? Waarom het Vanessa daarop aangedring dat
Michael beide grafieke moet skep? Die antwoord is eenvoudig: Waar die kolomgrafiek bloot
die verskillende Rand-bedrae aangedui het, kan die sirkelgrafiek die verhouding tussen die
verskillende bronne aandui. Uit hierdie grafiek is dit makliker om te sien dat premies vir meer
as 75% van alle inkomste verantwoordelik was. Dit is nie eens nodig om die presiese bedrae
of persentasies te sien nie.
’n Tipiese sirkelgrafiek sal gebruik word om die proporsionele bydrae van elke veranderlike
tot ’n totaal aan te dui. In programmatuur soos Excel kan ’n sirkelgrafiek op ’n
verskeidenheid wyses voorgestel word. Kyk na die volgende voorbeelde:
Elementêre Kwantitatiewe Metodes
30 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
Figuur 2.5: Verskillende voorstellings van ’n sirkelgrafiek
Vinnige vrae
Wanneer sal ons ’n sirkelgrafiek gebruik?
’n Sirkelgrafiek is ideaal om persentasies voor te stel. Dit word gebruik om elke veranderlike
se bydrae tot ’n geheel te vertoon. Die volledige sirkel stel 100% voor, terwyl elke skyfie ’n
proporsie van die geheel voorstel. ’n Sirkelgrafiek kan vir kategoriese data gebruik word (bv.
Hoeveel van die respondente het Opsie A, Opsie B, Opsie C of Opsie D gekies?) asook vir
numeriese data, soos die voorbeeld hierbo aandui.
Kan ’n sirkelgrafiek slegs persentasies aandui?
Nee. Hoewel die totaal van die sirkelgrafiek 100% van die totaal moet aandui, kan die
verskillende waardes (byvoorbeeld in Rand) steeds gebruik word om die grafiek te teken.
Byvoorbeeld:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 31
� Item 4: Die histogram
Die histogram is ’n spesiale vorm van ’n kolomgrafiek. Hierdie grafiek stel nie-kategoriese
data voor. Hoewel die x-as kategorieë kan bevat, sal hierdie ordinale, interval- of ratio-data
wees. Dit beteken dat, soos wat data na regs op die x-as beweeg, ’n toename in die
veranderlike se waarde sal plaasvind. Michael en Vanessa het ’n histogram bespreek:
Gevallestudie: Histogramme
“Sou dit nie wonderlik gewees het as ons kon sien hoeveel kliënte Vasvat in elke
ouderdomskategorie gehad het nie?”
Michael glimlag. Hy het gehoop Vanessa sou hierdie vraag vra. “Bladsy 15,” sê hy.
Vanessa kyk verras na hom en blaai dan vinnig na die korrekte bladsy. Sy glimlag beïndruk.
“Kan jy nou meer!” roep sy uit. “Hoe het jy dit gedoen?”
“Al die data was op die DVD wat jy vir my gegee het. Ek het net ’n eenvoudige
frekwensietabel geskep en die data oorgedra.”
Vanessa kyk na die histogram op bladsy 15. Dit lyk so:
Elementêre Kwantitatiewe Metodes
32 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
“As ek so vinnig na die data kyk, lyk dit of ons grootste groep kliënte tussen 35 en 41 is,” sê
sy. “Behalwe natuurlik vir die 56-jariges. Om die een of ander rede is daar nogal ’n groot
groep kliënte wat 56 jaar oud is.”
“Ek het nie enige kategorieë hier gebruik nie,” verduidelik Michael. “Dit is net sodat ons ’n
idee kan kry van hoe die ouderdomme versprei is. Daar is nog ’n histogram waar ek
kategorieë van tien jaar geskep het.”
“Kan dit nog steeds ’n histogram genoem word?” vra Vanessa die vraag waarop sy reeds die
antwoord ken.
“Ja, solank as wat die kategorieë aangrensend is. Die ouderdomsgroep van 18 tot 27 dui op
’n jonger ouderdom as die groep van 28 tot 37. Dit is dus nie kategorieë soos die kliënte se
gunsteling restaurant of die handelsnaam van die motor wat hulle bestuur nie.”
“Goeie antwoord!”
Vanessa kyk na die tweede histogram – die een waar ouderdomme in kategorieë verdeel is.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 33
“Die meeste van Vasvat Versekeraars se kliënte is in die 38 tot 47 ouderdomskategorie,”
merk Vanessa op.
“Hoewel dit nog te vroeg is om enige aannames te maak, sou ek raai dat hul
bemarkingsveldtog daardie ouderdomsgroep in ag moet neem,” waag Michael.
“Sonder om die ander twee groepe, 28 tot 37 en 48 tot 57 te ignoreer. Dié twee groepe het
saam meer kliënte as die mediaangroep.”
“Wat in hierdie geval ook die modus1 is.”
Vanessa is tevrede.
� Item 5: Kumulatiewe frekwensieverspreidings
’n Kumulatiewe frekwensieverspreiding is in effek slegs ’n ekstra kolom wat by ’n
frekwensietabel bygevoeg word. In hierdie kolom word elke kategorie se frekwensie by die
somtotaal van die vorige kategorieë se frekwensies gevoeg. Kyk na die volgende voorbeeld:
1 Die mediaan en die modus word in die volgende hoofstuk bespreek. Maak gerus ’n nota om weer hierdie deel
deur te lees as jy gemaklik is met die definisies van hierdie terme.
Elementêre Kwantitatiewe Metodes
34 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
Interval
(10 jaar)
Frekwensies
(Hoeveel
respondente val in
die kategorie?)
Kumulatiewe
frekwensie
(Notas ter verduideliking)
18-27 400 400
28-37 290 690 400 + 290
38-47 190 880 400 + 290 + 190
48-57 90 970 400 + 290 + 190 + 90
58-69 30 1000 400 + 290 + 190 + 90 + 30
Totaal 1000
Die “notas te verduideliking” is slegs vir hierdie voorbeeld bygevoeg. Dit vorm nie gewoonlik
deel van die kumulatiewe frekwensieverspreiding nie.
Vinnige vrae
Wat is die verskil tussen ’n frekwensietabel en ’n frekwensieverspreiding?
Hierdie twee terme kan meestal as sinonieme van mekaar gebruik word. Daar is egter ’n
tegniese verskil. Die frekwensietabel behels die rye en kolomme wat gebruik word om die
data voor te stel, terwyl die frekwensieverspreiding na die fisiese data verwys.
Wanneer word ’n kumulatiewe frekwensietabel gebruik?
’n Kumulatiewe frekwensietabel is veral nuttig wanneer die leser deurentyd die totale
frekwensies in ag wil neem. Deur na die kumulatiewe frekwensietabel hierbo te verwys, is dit
dus maklik om te sien dat die eerste twee kategorieë die meerderheid van die frekwensies
bevat. Daar kan dus reeds uit hierdie tabel ’n idee van die verspreiding van die data verkry
word.
Kan ’n mens die kumulatiewe frekwensie met ’n grafiek voorstel? Wat sou dit
beteken?
Die kumulatiewe frekwensies kan met ’n kumulatiewe frekwensieveelhoek (ogive) voorgestel
word. Hierdie grafiek word volgende bespreek.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 35
� Item 6: Die kumulatiewe frekwensieveelhoek
Die kumulatiewe frekwensieveelhoek word gebruik om kumulatiewe frekwensies grafies voor
te stel. Die kumulatiewe frekwensieverspreiding van Vasvat Versekeraars kan soos volg
voorgestel word:
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 185 1 034 542
’n Gewone lyngrafiek sal die frekwensies soos volg voorstel:
Figuur 2.6: Frekwensie voorgestel op ’n lyngrafiek
Elementêre Kwantitatiewe Metodes
36 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
Uit hierdie grafiek kan ons sien dat die frekwensies aanvanklik styg vir die eerste drie
kategorieë, en dan begin dit daal. Die kumulatiewe frekwensieveelhoek sal egter soos volg
lyk:
Figuur 2.7: Kumulatiewe frekwensieveelhoek
Hierdie twee grafieke verskil drasties. Die eerste grafiek (van die frekwensies) verskil nie
veel van die histogram nie. Die tweede grafiek poog om die verhouding van elke kategorie
se frekwensies met die totale hoeveelheid kliënte uit te beeld. By die kategorie waar die
helling die steilste is, is die grootste hoeveelheid kliënte by ’n kategorie gevoeg. Ons kan dus
hier sien dat ’n klein persentasie van die totale hoeveelheid kliënte in die laaste kategorie
bygevoeg is, omdat die helling amper horisontaal is.
’n Kumulatiewe frekwensieveelhoek maak dit ook makliker om te bepaal hoeveel kliënte bo
of onder ’n spesifieke ouderdom lê. ’n Vraag soos “Hoeveel kliënte is jonger as 47?” kan
vinnig met die volgende grafiek bepaal word:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 37
Figuur 2.8: Bepaling van ’n waarde op ’n kumulatiewe frekwensieveelhoek
Die 38 tot 47 kategorie se kumulatiewe frekwensie (606 412) kan van die grafiek gelees
word.
Gevallestudie: Volgende aan die beurt
Vanessa maak die lêer toe.
“Ek dink ons is op die regte spoor. Tabelle en grafieke is baie nuttig om vir ons ’n oorsig van
die data te gee. Wat weet ons dus nou van Vasvat Versekeraars?”
Michael dink vir ’n oomblik.
“Die meeste van hul inkomste word deur premies verkry. Hulle maak egter ook ’n groot
hoeveelheid geld deur hul geboue uit te huur. Die April- en Desembervakansies is die
besigste tye wat versekeringseise betref. ’n Natuurfrats, soos Oktober se haelstorms, kan
egter ’n groot hoeveelheid eise tot gevolg hê.”
“Wat weet ons van hul kliënte?”
“Die jongste kliënt is agtien jaar oud en die oudste 75. Die meeste van hul kliënte val in die
ouderdomsgroep van 38 tot 47, maar die twee aangrensende groepe, 28 tot 37 en 48 tot 57,
het ook heelwat kliënte.”
Vanessa dink ’n oomblik. “Dit is interessant. Maar dit is nie voldoende om ’n goeie beeld van
hul kliënte te kry nie.”
Elementêre Kwantitatiewe Metodes
38 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)
“En dit is waarom ek die numeriese beskrywende statistiek moes voorberei,” glimlag
Michael.
“Presies. En ons sal oor ’n rukkie daarna kyk. Maar nou eers ... middagete.”
Toe Vanessa en Michael die kantoor verlaat kan hy nie help om trots te voel nie. Vanessa
hoef nie te weet dat hy die vorige nag nie ’n oog toegemaak het nie.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 39
HHOOOOFFSSTTUUKK 33:: NNUUMMEERRIIEESSEE BBEESSKKRRYYWWEENNDDEE SSTTAATTIISSTTIIEEKK
Onderwerpe
3.1 Wat is numeriese beskrywende statistiek?
3.2 Wat is ‘n gemiddeld?
3.3 Wat is ‘n mediaan?
3.4 Wat is ‘n modus?
3.5 Wat is geweegde gemiddeld?
3.6 Wat is kwantiele?
3.7 Wat is maatstawwe van spreiding?
3.4 Wat is ‘n standaardafwyking?
3.5 Wat is die variansiekoëffisiënt?
3.10 Wat is skeefheidskoëffisienënt?
Elementêre Kwantitatiewe Metodes
40 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Gevallestudie: Numeriese beskrywende statistiek
Michael drink ’n koppie koffie terwyl hy vir Vanessa wag. StatInc het ’n oulike koffiewinkel op
die grondvloer. Ek sal nie omgee om vir hierdie maatskappy te werk nie, dink hy.
Op die tafel lê twee lêers. Die een voor Michael is oop – hy het vir oulaas deur sy verslae
gelees om seker te maak dat hy nie dalk ’n fout gemaak het nie. Die verslag het hom tot laat
besig gehou...
Vanessa kom haastig in en val met die deur in die huis. “Ek het jou grafiese beskrywende
statistiek solank vir Vasvat Versekeraars gestuur.”
Michael se maag trek op ’n knop. “En?”
“Hulle is baie beïndruk met hoe deeglik die verslae is,” merk Vanessa droog op. “Hulle besef
natuurlik dat dit slegs voorlopige statistiek is en nie sonder die numeriese beskrywende
statistiek geïnterpreteer moet word nie. Ek het dit eintlik net gestuur sodat hulle kan sien dat
ons nie niks doen nie.”
“Solank hulle tevrede is, is ek gelukkig.”
“Wat drink jy?”
Michael glimlag. Hy het lankal uitgevind dat Vanessa ook nie sonder haar koffie kan
klaarkom nie. “Cappuccino,” sê hy. “En jy was reg – dit is verslawend.”
Nadat Vanessa ’n groot cappuccino bestel het, kyk sy na die lêer wat Michael voor haar
neergesit het. Hulle het afgespreek om Michael se numeriese beskrywende statistiek in die
koffiewinkel te bespreek. Dit gee Vanessa ’n geleentheid om uit die kantoor, waar daar te
veel onderbrekings is, te ontsnap. En die koffie is inderdaad baie lekker.
“Wat het jy vir my?” Vanessa begin deur die lêer blaai.
“Gemiddelde, standaardafwykings, kwantiele, skeefheidskoëffisiënte, mediane en modusse.
En enigiets anders waaraan jy dalk mag dink.”
“Herinner my om jou in die toekoms vooraf te sê wat ek nodig het. Dan sal dit nie nodig
wees om ’n ensiklopedie te skryf nie. Jy het seker niks geslaap nie.”
“Slaap is vir die voëls,” sê Michael en onderdruk ’n gaap.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 41
3.1 Wat is numeriese beskrywende statistiek?
Soos reeds genoem, onderskei ons tussen numeriese en grafiese beskrywende statistiek.
Grafiese beskrywende statistiek is veral nuttig as ons vir die leser ’n groter prentjie oor die
data wil verskaf. Dit is egter nie baie spesifiek nie.
’n Leser wat na ’n grafiek kyk, kan ’n idee kry van hoe die data versprei is en dalk ’n
gemiddeld skat. Om egter ’n meer akkurate oorsig oor die data te verkry, sal die leser hom
of haar na numeriese beskrywende statistiek moet wend.
Soos wat die naam voorstel, behels numeriese beskrywende statistiek getalle wat die aard
van data beskryf. Daar word nie enige gevolgtrekkings oor die populasie op die steekproef
gebaseer (soos wat die geval met afleidende of inferensiële statistiek is) nie.
Die bekendste numeriese beskrywende statistiek is die gemiddeld, mediaan, modus
(maatstawwe van sentrale lokaliteit), kwantiele (maatstawwe van nie-sentrale lokaliteit), en
die standaardafwyking en skeefheidskoëffisiënt (maatstawwe van spreiding).
Gevallestudie: Die gemiddelde premie van ’n gemiddelde kliënt
“Vierhonderd-drie-en-sestig rand,” Vanessa frons.
“En sewe-en-negentig sent,” voeg Michael by.
“Dit is baie minder as wat ek per maand aan versekering betaal.”
“Miskien moet jy ’n nuwe versekeraar kry. Iemand soos Vasvat Versekeraars," sê Michael
met ’n glimlag.
“Of miskien moet ek net ’n goedkoper motor kry. Onthou, hierdie is slegs ’n gemiddeld. Die
kanse is goed dat daar heelwat kliënte is wat meer as dit betaal.”
Michael knik instemmend. “En daar is heelwat kliënte wat minder betaal.”
“Hoe groot was die steekproef?”
Michael kyk vlugtig na sy kopie van die verslag. “Hierdie kan nie regtig ’n steekproef genoem
word nie. Vasvat het vir ons ál hul kliënte se premies verskaf.”
“Ons kyk dus na hoeveel... ’n Miljoen kliënte?”
“Eenmiljoen vier-en-dertig-duisend vyfhonderd-twee-en-veertig.”
Vanessa kan nie help om te glimlag as Michael aandring om presies te wees nie. Dit is seker
’n sterkpunt. “Was daar enige uitskieters?”
“Daar was ’n paar kliënte wat baie hoë premies betaal het. En ’n handjievol het nie hierdie
Elementêre Kwantitatiewe Metodes
42 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
maand enigiets betaal nie.”
“Hoe beïnvloed die uitskieters die gemiddeld?”
“Nie noemenswaardig nie.” Soos die meeste van die vrae wat Vanessa vra, was hierdie iets
waaroor Michael ook gewonder het. “Ek het ook ’n gemiddeld bereken nadat ek alle waardes
onder R100 en alles waardes bo R2 000 uitgehaal het.”
“Hoekom het jy daardie spesifieke bedrae gekies?”
“Wel, Vasvat het geen normale premies onder R100 nie. R100-premies is dus spesiale
gevalle. En enigiets bo R2 000 is ook gevalle waar Vasvat sou verkies het om nie die
versekeraar te wees nie. Die risiko is te groot. Maar om die een of ander rede is die kliënte
steeds bereid om te betaal.”
Vanessa knik. “Maak sin. En het die uitskieters ’n verskil aan die gemiddeld gemaak?”
“Nie meer as ’n paar sent nie.”
“Waarom, dink jy, is dit die geval?”
“Die groot hoeveelheid waardes. Hoe groter die steekproef is, hoe kleiner is die effek van ’n
enkele waarde.”
“Hoeveel uitskieters was daar?”
“Eenhonderd-drie-en-twintig... wat nog steeds baie min is as ’n mens in ag neem dat daar
meer as ’n miljoen waardes was.”
Vanessa oorweeg die inligting vir ’n oomblik. “Wat jy dus kan sê is: die bedrag wat ’n
gemiddelde Vasvat-kliënt met ’n gemiddelde motor kan verwag om per maand aan
versekering te betaal, is vierhonderd-drie-en-sestig rand.”
Michael maak sy mond oop om iets te sê, maar Vanessa spring hom voor: “En sewe-en-
negentig sent.”
Michael lag. “Presies.”
3.2 Wat is ’n gemiddeld?
Ons leer van kleins af om gemiddelde te bereken. Op skool wou jy dalk bepaal het wat die
gemiddeld van al jou vakke se punte was. Dan sou jy die ses of sewe vakke se punte
bymekaar getel het en deur ses (of sewe) gedeel het. Die onderwyser wou dalk ’n idee gekry
het van hoe goed haar klas presteer het. Sy sou dan al die punte van al die leerders
bymekaar getel het en gedeel het deur die aantal leerders in haar klas.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 43
’n Gemiddeld is in hierdie geval baie nuttig vir vergelyking. Die onderwyser kan nou na ’n
spesifieke leerder se punt kyk en bepaal of hierdie leerder beter of swakker as die
klasgemiddeld presteer het. Die onderwyser kan ekstra aandag gee aan leerders wat
swakker as die klasgemiddeld presteer het.
Die onderwyser kan ook die klasgemiddeld van verskillende klasse met mekaar vergelyk.
Daardie klasse wat die swakste presteer het, kan dan ook ekstra aandag kry.
Gestel Michael het besluit om sy eie navorsing ten opsigte van Vasvat se kliënte te doen.
Gestel hy stel belang in die gemiddelde ouderdom van Vasvat se kliënte. In hierdie geval sal
Michael ’n steekproef saamstel. (Vir illustrasiedoeleindes sal ’n steekproef van tien kliënte
gebruik word. In praktyk sal hierdie steekproef baie groter moet wees om verteenwoordigend
van die populasie te wees.)
Michael vra dan aan elkeen van hierdie respondente die volgende vraag: “Wat is jou
ouderdom?” Die respondente kan hierdie vraag op ’n verskeidenheid wyses antwoord,
byvoorbeeld deur middel van ’n onderhoud of anoniem deur middel van ’n geskrewe of
elektroniese vraelys.
Gestel die tien respondente het die volgende geantwoord:
Figuur 3.1: Grafiese voorstelling van respondente se antwoorde op ’n vraelys
53
44
30
29
25
41 50 38
68
22
Elementêre Kwantitatiewe Metodes
44 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Toe Michael se dataversameling afgehandel is, het hy dus die volgende waardes gehad:
25 29 30 68 22 53 44 41 38 50
Michael besluit nou om die gemiddelde ouderdom te bereken. Hy doen dit deur al die
bogenoemde ouderdomme bymekaar te tel en dan die antwoord deur tien te deel (omdat
daar tien waardes is):
Gemiddeld = (25 + 29 + 30 + 68 + 22 + 53 + 44 + 41 + 38 +50) ÷ 10
= 400 ÷ 10
= 40 jaar
Omdat Michael ouderdomme bymekaargetel het, sal die antwoord ook in jare gemeet word.
Die gemiddelde kliënte in Michael se steekproef is dus 40 jaar oud.
Die formule vir ’n gemiddeld lyk soos volg:
x = ∑ ���
Wat beteken hierdie formule?
• Die ΣΣΣΣ teken dui op die som (bymekaartel) van ’n aantal waardes.
• �� dui op elke waarde wat vir die gemiddeld gebruik moet word. �� dui op die eerste
waarde (25), �� dui op die tweede waarde (29) en ��� dui op die tiende en laaste
waarde (50). � beteken dat daar by �� begin moet word en by ��� geëindig moet
word. Σx� beteken dat alle waardes vanaf �� tot by ��� bymekaargetel moet word.
• n dui op die grootte van die steekproef. In hierdie geval het Michael tien persone vir
hul ouderdomme gevra, dus is n in hierdie geval 10:
n = 10
Dit is belangrik om te onthou dat x en n die simbole is wat ons vir die steekproef (gemiddeld
en steekproefgrootte onderskeidelik) gebruik. Ons gebruik hierdie simbole omdat Michael
die gemiddeld van ’n steekproef van tien persone bereken het en nie dié van die populasie
nie. Indien Michael dieselfde gemiddeld vir die hele populasie (ál Vasvat se kliënte) wou
bereken, sou die simbool μ vir die populasiegemiddeld en N vir die populasiegrootte gebruik
word.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 45
Probeer self
Bereken nou die gemiddelde van elk van die volgende datastelle. Die antwoord word verskaf
sodat jy jouself kan toets:
Vraag 1:
’n Navorser wil bepaal hoeveel ure respondente per week aan ontspanning spandeer. Die
volgende datastel is verkry. Bereken die gemiddeld.
10 10 20 18 15 19 10 14 18 21
19 11 10 15 16 21 18 19 14 12
Antwoord: 15.5 uur per week
Vraag 2:
’n Navorser wil bepaal hoe vêr werknemers van die huis af woon. ’n Groep van sestien
werknemers is gevra hoe vêr hulle van die werk af woon. Die onderstaande data (in
kilometers) is verkry. Bereken die gemiddeld afstand wat ’n werknemer van die werk af
woon.
9 100 150 175 19 28 200 12
60 65 37 111 132 79 44 11
Antwoord: 77 kilometer
Vraag 3:
’n Marknavorser vra 25 respondente se ouderdom. Bereken die gemiddelde ouderdom deur
van die onderstaande data gebruik te maak.
72 83 87 94 35 68 84 56
56 63 44 80 20 77 40 16
69 71 61 90 25 56 61 51
53
Antwoord: 60.48 jaar
Elementêre Kwantitatiewe Metodes
46 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Vraag 4:
’n Groep van vyftien konsultante word gevra hoeveel geld hulle in die laaste week verdien
het. Die waardes hieronder is vanaf die vyftien respondente verkry. Bereken die gemiddelde
salaris wat ’n konsultant in die laaste week verdien het.
R8 300 R4 700 R9 490 R1 594 R9 100
R2 750 R9 240 R3 820 R8 760 R2 470
R5 700 R1 680 R10 001 R6 800 R4 980
Antwoord: R5 959
Gevallestudie: Oudtshoorn
Vanessa kyk na ’n verslag getiteld: BESKRYWENDE STATISTIEK: OUDTSHOORN. Sy
glimlag.
“Is daar iets fout?” vra Michael.
“Nee. Ek is op Oudtshoorn gebore. Ek is bly om te sien daar is nog heelwat ekonomiese
aktiwiteite op die dorp.”
Michael sug saggies van verligting. “Oudtshoorn het meestal individuele kliënte,” verduidelik
hy. “Maar ’n kwart van hulle premies is afkomstig van twee groot sakeondernemings.”
“A, nou maak dit sin.”
Michael gee haar ’n vraende kyk.
“Kyk na die numeriese beskrywende statistiek vir Oudtshoorn. Sien jy enigiets wat vreemd
is?”
Michael kyk na die verslag:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 47
“Die verdeling van die bronne van inkomste lyk omtrent dieselfde as die nasionale
verdeling,” probeer hy.
“En?”
“Die gemiddeld is hoër as die land se gemiddeld. Aansienlik hoër.”
Michael kyk fronsend na die verslag. Dan helder sy gesig op. “Die mediaan!” roep hy uit.
“Daar is ’n verskil tussen die mediaan en die gemiddeld. ’n Massiewe verskil!”
“Presies. En wat dink jy veroorsaak hierdie verskil in Oudtshoorn?”
Michael glimlag selfvoldaan. “Uitskieters.”
Vanessa knik. “Die maatskappye met hul groot premies.”
Elementêre Kwantitatiewe Metodes
48 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
3.3 Wat is ’n mediaan?
Ons onderskei tussen ’n verskeidenheid van maatstawwe van lokaliteit (measures of
central tendency). Die bekendste hiervan is die rekenkundige gemiddeld wat in die vorige
paragraaf bespreek is. Nog twee bekende maatstawwe van lokaliteit is die mediaan en die
modus. Die modus word in die volgende paragraaf bespreek.
Die mediaan (median) word verkry deur die alle waardes in die datastel van klein na groot te
sorteer. Die mediaan is dan daardie waarde wat presies in die middel voorkom.
Bereken ’n mediaan
Kyk na die volgende waardes:
20 80 10 17 40 15 90
Om die mediaan te bereken moet die waardes eers gesorteer word – van klein na groot:
10 15 17 20 40 80 90
Die waarde presies in die middel kan maklik direk van die datastel afgelees word:
10 15 17 20 40 80 90
Maar wat as daar nie een waarde in die middel is nie?
Dit is maklik om ’n mediaan te bereken as die hoeveelheid waardes ’n onewe getal is. (In die
voorbeeld hierbo is daar sewe waardes, wat ’n onewe getal is.) Maar wat doen ons as daar
byvoorbeeld agt waardes is? Kyk na die volgende datastel:
40 20 19 10 70 50 60 30
Om die mediaan te bereken moet die data nou gesorteer word:
10 19 20 30 40 50 60 70
Daar is nou twee waardes in die middel: 30 en 40. Wat nou gemaak?
10 19 20 30 40 50 60 70
Die antwoord is heel eenvoudig: Tel die twee waardes in die middel bymekaar en deel dit
deur twee:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 49
Mediaan = (30 + 40) ÷ 2
= 70 ÷ 2
= 35
Dus word die rekenkundige gemiddeld van hierdie twee waardes bereken om die mediaan
te verkry. Die mediaan is dus nou presies in die middel van 30 en 40, by die waarde 35.
� Wat van groepe?
Dit is maklik om die mediaan te bereken vir sewe of agt heelgetalle. Maar wat maak ’n mens
as jy die mediaan moet bereken vir die premies van ’n miljoen kliënte? Dit gaan feitlik
onmoontlik wees (en baie tyd neem) om al die premies met die hand van klein na groot te
sorteer!
Kyk weer na die uiteensetting van Vasvat se kliënte en hul ouderdomme. (Die tabel is effens
aangepas om die verduideliking te vergemaklik.)
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Hoe sal ’n mens die mediaan hiervan bereken (sonder om die meer as eenmiljoen
ouderdomme van klein na groot te rangskik)? Om die mediaan vir ’n groot hoeveelheid
waardes (soos die meer as eenmiljoen ouderdomme) te bereken, is daar drie stappe wat
gevolg moet word:
Stap 1: Maak die inligting hanteerbaar deur dit te kategoriseer. Dit is in die tabel hierbo
gedoen. In plaas daarvan om al die ouderdomme neer te skryf, is die ouderdomme nou in
ses kategorieë ingedeel. Die voordeel hieraan verbonde is dat die data meer hanteerbaar is.
Die nadeel is dat die vlak van data nie meer ratio is nie, maar ordinaal of interval
(afhangende van hoe die kategorieë geskep is).
Elementêre Kwantitatiewe Metodes
50 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Stap 2: Bepaal die kategorie waarin die mediaan voorkom. Die posisie van die mediaan van
die 1 034 543 ouderdomme sal presies in die middel voorkom. Die mediaan is dus die
517 272ste waarde (1 034 543 ÷ 2). As gevolg van die kategorieë kan ons nou nie presies sê
wat die 517 272ste waarde is nie, maar die kumulatiewe frekwensiekolom kan vir ons aandui
in watter kategorie hierdie waarde voorkom:
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Stap 3: Benader nou die 517 272ste ouderdom se waarde. Onthou, die mediaan is nie
517 272 nie. 517 272 is slegs die posisie van die mediaan. Maar hoe benader ons die
waarde? Kom ons fokus op die kategorie waarin die mediaan voorkom:
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Mediaan lê
hier êrens
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 51
Daar is tien verskillende ouderdomme in hierdie kategorie. Omdat ons nie presies weet
hoeveel van die respondente elke ouderdom gekies het nie, verdeel ons nou die 298 747
gelykop tussen die tien ouderdomme:
Frekwensies per ouderdom = 298 747 ÷ 10
= 29 874.7
Ouderdom Frekwensie
38 29 874.7
39 29 874.7
40 29 874.7
41 29 874.7
42 29 874.7
43 29 874.7
44 29 874.7
45 29 874.7
46 29 874.7
47 29 874.7
Die mediaan kan nou benader word deur die kumulatiewe frekwensie vir elke ouderdom in
hierdie kategorie te bereken. Kyk hoe die kumulatiewe frekwensietabel hieronder aangepas
is:
Kategorie Frekwensie
(hoeveel kliënte in die
kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 Ouderdom Frekwensie
38 29 874.7
39 29 874.7
Kum.
337 539.7
367 414.7
Elementêre Kwantitatiewe Metodes
52 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
40 29 874.7
41 29 874.7
42 29 874.7
43 29 874.7
44 29 874.7
45 29 874.7
46 29 874.7
47 29 874.7
397 289.1
427 163.8
457 038.5
486 913.2
516 787.9
546 662.6
576 537.3
606 412
298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Al wat ons nou moet doen, is om die mediaan te vind. Dit kan vanaf die tabel gelees word.
Waar in die kategorie “38 tot 47 jaar” sal die mediaan se posisie 517 272 voorkom? Die
517 272ste waarde sal in die 44 jaar-kategorie voorkom. Die mediaan is dus 44.
Dit is belangrik om daarop te let dat hierdie 44 slegs ’n benaderde mediaan is. Om dit te
bereken het ons aangeneem dat die verskillende frekwensies vir elke ouderdom in die “38
tot 47”-kategorie presies dieselfde is. Dit is egter ’n goeie aanduiding van wat die mediaan
kan wees.
� Moet ek altyd hierdie lang proses volg?
Gelukkig nie. Dit is belangrik dat jy hierdie proses verstaan. Die proses hierbo kan egter
deur ’n formule voorgestel word. Die formule sal selfs ’n meer akkurate mediaan verskaf
omdat dit die mediaan-kategorie (44 in hierdie geval) ook opdeel in kleiner dele en presies
bepaal waar die 517 272ste waarde voorkom.
Om die verduideliking te vergemaklik word die oorspronklike kumulatiewe frekwensietabel
hieronder verskaf:
Mediaan lê
hier êrens
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 53
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Die formule om ’n mediaan vir gekategoriseerde waardes te vind, is:
Me = Ome + [�� � ����]
���
Elk van die elemente van hierdie vergelyking kan soos volg verduidelik word:
• Me is die simbool vir die mediaan.
• Ome is die laagste waarde in die kategorie waar die mediaan voorkom. In hierdie
geval is dit 38.
• c is die grootte van die kategorie, met ander woorde die hoeveelheid waardes wat in
die kategorie voorkom. In hierdie geval kom die waardes 38, 39, 40, 41, 42, 43, 44,
45, 46 en 47 in die kategorie “38 tot 47” voor. Dus is die kategoriegrootte, en c, 10.
• n is die totale hoeveelheid waardes. In hierdie geval is dit 1 034 543.
• fme is die totale hoeveelheid frekwensies in die kategorie waarin die mediaan
voorkom (in hierdie geval die kategorie “38 tot 47”). In hierdie geval is fme dus
298 747.
• f(<) is die kumulatiewe frekwensie van al die kategorieë tot voor die kategorie waarin
die mediaan voorkom, in hierdie geval is dit 307 665
As ons die formule toepas op die ouderdomme van Vasvat se kliënte, kan ons die mediaan
soos volg bereken:
Mediaan in
hierdie
kategorie
Elementêre Kwantitatiewe Metodes
54 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Me = Ome + [�� � ����]
���
= 38 + ��[� ��� ���� � ��� ���]
�� ���
= 45.016 jaar
Die meer akkurate mediaan is dus 45.016 jaar. Hierdie mediaan stem redelik ooreen met die
benaderde mediaan (van 44).
� Waarom is ’n mediaan nuttig?
’n Mediaan is nuttig om ’n verskeidenheid redes.
Rede 1: ’n Rekenkundige gemiddeld kan nie altyd bereken word nie. Kyk na die volgende
frekwensietabel wat aandui hoe gereeld 80 respondente oefen:
Hoe gereeld? Frekwensie
(Hoeveel respondente het
hierdie kategorie gekies)
Kumulatiewe
frekwensie
Daagliks 20 20
Weekliks 15 35
Maandeliks 30 65
Jaarliks 15 80
TOTAAL 80
Die mediaan kom voor tussen posisie 40 en 41, wat dui op die “maandeliks”-kategorie.
Hieruit kan ’n mens aflei dat die gemiddelde respondent nie baie gereeld oefen nie. Dit is
egter nie moontlik om ’n rekenkundige gemiddeld te bereken nie.
Rede 2: ’n Mediaan is nie sensitief vir uitskieters nie. Kyk na die volgende voorbeeld: ’n
Groep vriende sit op ’n (baie lang) bank in die park. Hulle besluit dat die volgorde waarin
hulle sit deur die totale waardes van hulle bates (met ander woorde, hoe ryk hulle is) bepaal
moet word. Die volgende skets stel die vriende voor:
Mediaan
kom hier
voor
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 55
Figuur 3.2: Grafiese voorstelling van data sonder uitskieters
Die gemiddeld is:
(10 000 + 15 000 + 20 000 + 50 000 + 70 000 + 80 000 + 100 000 + 150 000 + 200 000) ÷ 9
= R77 222
Die mediaan is by Posisie 5 en is dus R70 000.
Gestel nou een van die vriende se ryk kollegas sluit by hulle aan. Hierdie kollega het totale
bates van tweebiljoen rand (R2 000 miljoen). Die prentjie lyk dus nou soos volg:
Figuur 3.3: Grafiese voorstelling van data met ‘n uitskieter
R10 000 R200 000 R100 000 R70 000 R20 000
R15 000 R50 000 R80 000 R150 000 R2 000 000 000
R10 000 R200 000 R100 000 R70 000 R20 000
R15 000 R50 000 R80 000 R150 000
Elementêre Kwantitatiewe Metodes
56 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Die gemiddeld is nou:
(10 000 + 15 000 + 20 000 + 50 000 + 70 000 + 80 000 + 100 000 + 150 000 + 200 000 +
2 000 000 000) ÷ 10
= R222 299 444
Hierdie gemiddeld is drasties hoër as die gemiddeld sonder die ryk vriend (R77 222)! Die
mediaan skuif egter slegs ’n halwe posisie na regs, tussen posisies 5 en 6. Die mediaan is
dus:
Me = (70 000 + 80 000) ÷ 2
= R75 000
Waar die gemiddeld drasties deur die uitskieter (die ryk vriend) beïnvloed is, is die mediaan
amper onveranderd.
Dit is ook wat Vanessa in die data van Vasvat se Oudtshoorn-tak raakgesien het. Die twee
groot kliënte het ’n groot invloed op die gemiddelde premie gehad (en was dus uitskieters)
terwyl die mediaan die nasionale gemiddeld verteenwoordig het.
Gevallestudie: Vasvat se unieke diens
“Vasvat is nogal suksesvol.”
Michael het pas deur die versekeraar se finansiële state gelees.
Vanessa knik. “Dit is omdat hulle ’n unieke diens bied.”
Michael kyk vraend na haar. Volgens hom is versekeraars maar dieselfde. ’n Mens kan hom
nie kwalik neem nie. Hy het wel sy eie bakkie met sy spaargeld gekoop, maar sy pa het
aangebied om die versekering te reël en te betaal.
“Vasvat het intensiewe navorsing gedoen. Deur ’n kombinasie van kliëntebehoeftes en hul
risikoprofiele, kon Vasvat gestandaardiseerde pakkette saamstel. Amper soos ’n mediese
fonds. Die kliënte was mal daaroor.”
“Hoekom? Ek sou dink dat kliënte juis sou hou van pakkette wat volgens hulle eie unieke
behoeftes saamgestel word.”
“Sulke pakkette neem tyd om te aktiveer. Kliënte moes vir twintig minute oor die telefoon ’n
magdom vrae beantwoord. Die meerderheid kliënte het dit gehaat.”
“Ek sou een van hulle gewees het.” Michael hou nie van lang telefoongesprekke nie.
“Die opsie om pasgemaakte pakkette aan te vra, is steeds beskikbaar, maar hierdie pakket
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 57
is slegs aanlyn beskikbaar. Voornemende kliënte vul ’n aanlynvorm in en ontvang dadelik
terugvoer.”
“En vir die res is daar drie pakkette?”
“Korrek. Wild-en-wakker is die mees omvattende pakket. Die kliënt word teen ’n
verskeidenheid risiko's beskerm, maar die premies is ook die hoogste. En kliënte onder die
ouderdom van vyf-en-twintig word verplig om hierdie pakket te neem.”
Michael kyk na ’n frekwensietabel in die verslag. “Wat gedeeltelik verduidelik waarom wild-
en-wakker die modus is,” sê hy.
Pakket Hoeveelheid kliënte
Wild-en-wakker 787 211
Vat-dit-kalm 50 223
Kleindorpie-kind 101 992
Pasgemaak 95 117
3.4 Wat is ’n modus?
Die derde maatstaf van lokaliteit is die modus. Die modus (mode) is daardie waarde wat die
meeste in ’n datastel voorkom. ’n Modus is redelik maklik om te bepaal. Kyk na die volgende
datastel van ouderdomme:
18 18 20 25 17 19 18 19 27
Watter ouderdom kom die meeste voor? ’n Frekwensietabel sal die antwoord verskaf:
Ouderdom Frekwensie
17 1
18 3
19 2
20 1
25 1
27 1
Elementêre Kwantitatiewe Metodes
58 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Die modus in hierdie geval is dus 18 met ’n frekwensie van 3.
Die modus is ’n nuttige maatstaf, veral met data waar daar nie ’n mediaan of rekenkundige
gemiddeld bereken kan word nie. Nominale data is ’n voorbeeld hiervan. Kyk na die
volgende frekwensietabel wat aandui in watter provinsies ’n sekere onderneming se kliënte
woon:
Provinsie Frekwensie
Wes-Kaap 240
Vrystaat 150
KwaZulu-Natal 160
Gauteng 440
Noord-Kaap 10
Die modus is Gauteng, die provinsie waarin die meeste kliënte bly, met ’n frekwensie van
440. ’n Gemiddeld en mediaan sou in hierdie geval niksseggend gewees het.
Modus vir intervalle
Kan ’n mens ’n modus bepaal vir kategorieë van numeriese data? Die antwoord is “ja”. Kyk
weer na Vasvat se kliënte-ouderdomme:
Kategorie Frekwensie
18 tot 27 66 675
28 tot 37 240 990
38 tot 47 298 747
48 tot 57 247 062
58 tot 67 161 883
68 tot 77 19 186
Dit is duidelik dat die kategorie "38 tot 47" die modus-kategorie is – die frekwensie van
298 747 is die hoogste. Maar watter ouderdom in hierdie kategorie is die modus? Is dit 38,
39, 40, 41, 42, 43, 44, 45, 46 of 47?
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 59
Soos wat die geval met die mediaan was, kan hierdie antwoord ook bereken word. Die
formule om ’n modus vir numeriese, gekategoriseerde data te bepaal is:
Mo = Omo + ������ ! �������� ! ���� " �
Die verskillende simbole stel die volgende voor:
• Mo stel die modus voor.
• Omo stel die onderste limiet van die modus-interval (38 tot 47) voor. In hierdie geval is
dit 38.
• c stel die grootte van die modus-interval voor. Die ouderdomme in die modus-interval
(of -kategorie) is 38, 39, 40, 41, 42, 43,44, 45, 46 en 47. Daar is dus tien
ouderdomme in hierdie interval. c is 10.
• fm dui op die frekwensies in die modus-interval. In hierdie geval is die frekwensie van
die “38 tot 47”-interval 298 747.
• fm-1 dui op die frekwensie van die interval voor die modus-interval (dus 28 tot 37). In
hierdie geval is dit 240 990.
• fm+1 dui op die frekwensie van die interval na die modus-interval (dus 48 tot 57). In
hierdie geval is dit 247 062.
Met hierdie waardes kan die modus nou bereken word:
Mo = Omo + ������!��������!����"�
= 38 + ����� ������� �������� ����� ��� ������� ���
= 38 + ��� ������ ���
= 43.27
Die ouderdom wat dus die meeste voorkom onder Vasvat se kliënte (en dus die modus) is
43.27 jaar.
Gevallestudie: Die agente
Vanessa lees deur een van Michael se verslae. Sy is beïndruk met die deeglikheid waarmee
die student sy werk doen. Dan sien sy iets raak.
”Blaai gou na bladsy vier-en-twintig,” sê sy.
Elementêre Kwantitatiewe Metodes
60 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Michael gehoorsaam. “Die verkoopsagente?”
Vanessa knik. “Hoe het jy by die gemiddelde ervaring uitgekom? Het hulle vir jou die rou
data gegee?”
Michael kyk na die frekwensietabel in die verslag:
Jare ervaring Hoeveel agente
1 140
2 180
3 110
4 120
6 50
7 50
8 20
9 25
10 5
TOTAAL 700
Gemiddeld agent het 3.421 jaar ondervinding.
“Nee,” sê Michael. “Die frekwensietabel was al wat ek ontvang het.”
“Hoe het jy by dan by die gemiddeld uitgekom?”
“Ek het ’n geweegde gemiddeld gebruik.”
Vanessa glimlag. “Waar daar ’n wil is, is daar ’n weg.”
Michael probeer om sy trots weg te steek. “Moet net nie vir my vra om ’n standaardafwyking
te bereken nie.”
“Dit is nie te moeilik nie,” sê Vanessa en Michael besef weereens waarom haar bynaam in
die kantore “Juffrou Einstein” is.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 61
3.5 Wat is ’n geweegde gemiddeld?
’n Geweegde gemiddeld word gebruik wanneer verskillende waardes (waarvan die
gemiddeld bereken moet word) nie dieselfde gewig dra nie.
In Vasvat se geval was hierdie waardes 1, 2, 3, 4, 6, 7, 8, 9 en 10 jaar ondervinding. Die
gemiddeld van hierdie nege waardes is:
Gemiddeld = (1 + 2 + 3 + 4 + 6 + 7 + 8 + 9 + 10) ÷ 9
= 50 ÷ 9
= 5.556 jaar
Hierdie gemiddeld sou verkeerd wees, omdat dit sou beweer dat die gemiddelde agent
5.556 jaar ondervinding het. Dit neem egter nêrens die hoeveelheid agente by elke
jaargroep in ag nie.
Hoe kan ’n meer akkurate gemiddeld bereken word? Die frekwensietabel dui aan dat daar
140 agente met een jaar ondervinding is. So ook is daar 180 agente met twee jaar
ondervinding, 110 agente met drie jaar ondervinding, ensovoorts. Die oorspronklike datastel
sou dus die volgende data bevat het:
140 1’e
180 2’s
110 3’e
120 4’s
50 6’e
50 7’s
20 8’s
25 9’s
5 10’e
Om die gemiddeld te bereken sou ons dan al die 1’e bymekaargetel het (wat vir ons 140 sou
gee), al die 180 2’s sou bymekaargetel word (wat vir ons 360 sou gee), al 110 van die 3’e
sou bymekaargetel word (wat vir ons 330 sou gee). Ons sou ook al die 4’s, 6’e, 7’s, 8’s, 9’s
en 10’e bymekaargetel het totdat ons al 700 waardes bymekaargetel het. Dan sou ons dit
deur 700 gedeel het en ’n gemiddeld gekry het.
VERKEERD!
Elementêre Kwantitatiewe Metodes
62 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Die geweegde gemiddeld vereenvoudig die proses. Elke frekwensie word vermenigvuldig
met die jare ondervinding. 140 x 1 gee presies dieselfde antwoord wat ons sou kry deur al
die 1’e bymekaar te tel. So ook sal 180 x 2 en 110 x 3 vir ons dieselfde antwoorde gee as
ons die 2’s en 3’e respektiewelik opgetel het. Ons kan dus nou ’n ekstra kolom in die
frekwensietabel byvoeg:
Jare ervaring Hoeveel agente Ervaring x agente
1 140 140
2 180 360
3 110 330
4 120 480
6 50 300
7 50 350
8 20 160
9 25 225
10 5 50
TOTAAL 700 2 395
Die totale jare ondervinding van die 700 agente is 2 395. Die gemiddeld kan nou maklik en
akkuraat bereken word:
x = totale jare ondervinding ÷ hoeveelheid agente
= 2 395 ÷ 700
= 3.421 jaar
Die 3.421 jaar ondervinding is baie meer akkuraat as die 5.56 jaar wat ons vroeër
(verkeerdelik) bereken het.
Die formule vir ’n geweegde gemiddeld is:
Geweegde x = ∑ ����∑ ��
Die simbole kan soos volg verduidelik word:
• fi stel elke kategorie se frekwensie voor.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 63
• xi stel elke waarde (jaar) voor.
• ΣΣΣΣfixi beteken dus dat elke waarde (jaar) met die frekwensie (hoeveelheid agente met
soveel jaar ondervinding) vermenigvuldig moet word. Die antwoord moet dan
bymekaargetel word.
• ΣΣΣΣfi beteken dus dat al die frekwensies bymekaargetel moet word (die totale
hoeveelheid agente in hierdie geval).
Gevallestudie: Om vrae te beantwoord
“Beskrywende statistiek is baie interessant, maar is daar enige van Vasvat se vrae wat ons
al beantwoord het?”
Hoewel Michael besef dat Vanessa beïndruk is deur sy werk, sou hy tog wou sien dat sy
werk waarde vir die kliënte inhou.
Vanessa dink nie lank nie. “Absoluut!” sê sy. “Kyk na die kwantiele wat jy bereken het. Vir
die inkomstegroepe.”
Michael blaai na ’n verslag en sien die volgende:
Kwantiele: Inkomste van kliënte
Q1: 8 220
Q2: R15 180
Q3: R40 444
Vanessa verduidelik: “Vasvat wil ’n nuwe produk ontwikkel vir hul kliënte in die laagste
inkomstegroep. Deur die kwantiele te bereken kan hulle nou sien dat vyf-en-twintig persent
van hulle kliënte minder as agtduisend tweehonderd-en-twintig rand per maand verdien. Dit
is aansienlik hoër as wat hulle verwag het.”
Michael knik tevrede. “Nou kan hulle meer voordele by die produk voeg en die premies ’n
bietjie hoër maak.”
“Presies. As hulle nie geweet het wat die eerste kwantiel was nie, sou hulle dalk ’n produk
ontwerp het wat bekostigbaar sou wees vir kliënte met ’n inkomste van onder drieduisend
rand, maar...”
“...hulle sou alle bestaande kliënte in die eerste kwantiel verloor het,” voltooi Michael haar
sin.
“Presies.”
Elementêre Kwantitatiewe Metodes
64 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
3.6 Wat is kwantiele?
Kwantiele is ’n voorbeeld van nie-sentrale maatstawwe van lokaliteit. Waar ’n gemiddeld,
modus en mediaan een of ander “middelpunt” van data probeer aandui, word nie-sentrale
maatstawwe gebruik om data op ander wyses te verdeel.
Die beginsel van kwantiele is eintlik heel eenvoudig. Alle data word van klein na groot
gesorteer en dan in vier ewe groot dele gedeel. Die proses is dieselfde as die proses wat vir
’n mediaan gevolg word. Waar ’n mediaan egter gebruik word om data in twee dele te deel,
word kwantiele gebruik om die data in vier te deel.
Beskou die volgende datastel:
40 45 42 44 18 20 21 25 31 35 38 39 55 50 49
Die data word nou van klein na groot gesorteer:
18 20 21 25 31 35 38 39 40 42 44 45 49 50 55
Om die kwantiele te bepaal word die data in vier dele gedeel. Die waarde presies tussen
twee dele of groepe data, word die kwantiel genoem. ’n Kwantiel word met ’n Q voorgestel,
gevolg deur die nommer (1, 2 of 3).
18 20 21 25 31 35 38 39 40 42 44 45 49 50 55
Q1 Q2 Q3
(ook mediaan)
Om ’n kwantiel te bepaal is dit eerste nodig om die posisie van die kwantiel te vind. Daarna
kan die waarde van die kwantiel bepaal word. Soos by die bostaande datastel gesien kan
word, is die posisie van Q1 vier (dit is die vierde waarde), maar Q1 self is 25.
Pasop!
’n Fout wat studente dikwels maak, is om slegs die posisie van die kwantiel te bepaal.
Hierdie is slegs die helfte van die berekening. Wanneer die posisie bepaal is, moet die
fisiese waarde van die kwantiel ook bereken word.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 65
� Hoe word Q1 bereken?
Q1 is die simbool wat gebruik word om die eerste kwantiel aan te dui. Die eerste kwantiel
vorm die boonste grens van die eerste 25% van alle waardes. Die posisie van Q1 word met
die volgende formule bereken:
Posisie van Q1 = (n + 1) ÷ 4
• n stel die totale hoeveelheid waardes voor, in hierdie geval 15.
In die bogenoemde geval kan die posisie van Q1 dus soos volg bereken word:
Posisie van Q1 = (n + 1) ÷ 4
= (15 + 1) ÷ 4
= 4
Die eerste kwantiel kom dus voor by posisie vier in die datastel. Dit is dus die vierde
waarde in ons datastel. Hierdie waarde kon ons van die datastel afgelees het:
Q1 = 25
Wat gemaak as Q1 se posisie nie ’n heelgetal is nie?
In die vorige voorbeeld (hierbo) was Q1 se posisie 4 gewees. Maar wat doen ons as Q1 se
posisie iets soos 7.25 of 2.25 is? Beskou die volgende datastel (reeds gesorteer):
20 24 33 38 42 45 49 51 55 60
Bereken nou Q1 se posisie:
Posisie van Q1 = (n + 1) ÷ 4
= (10 + 1) ÷ 4
= 2.75
Q1 is dus êrens tussen die tweede en derde waarde.
20 24 33 38 42 45 49 51 55 60
Q1
hier êrens
Elementêre Kwantitatiewe Metodes
66 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Ons kan egter nie dieselfde benadering as met ’n mediaan volg nie, omdat Q1 nie presies in
die middel van 24 en 33 lê nie. Die 0.75 in Q1 se posisie (2.75) beteken dat Q1 nader aan 33
as 24 is. Q1 moet dus met die volgende stappe bereken word.
Stap 1: Bepaal die afstand tussen die twee waardes. In hierdie geval dui dit op die afstand
tussen die 24 en 33:
Afstand = 33 – 24
= 9
Stap 2: Neem nou die breukdeel van die posisie van Q1 (in hierdie geval 0.75) en
vermenigvuldig dit met die afstand tussen die twee waardes (in hierdie geval 9). Hoekom
doen ons dit? Want 75% (0.75) van hierdie “afstand” vorm deel van die eerste kwantiel. Die
oorblywende 25% (0.25) vorm reeds deel van die volgende kwantiel:
9 x 0.75
= 6.75
Stap 3: Voeg nou hierdie deel van die “afstand” by die onderste waarde (24 in hierdie geval)
om Q1 te verkry.
Q1 = 24 + 6.75
= 30.75
Die eerste kwantiel is dus 30.75.
Nota:
Dieselfde stappe word gevolg om die derde kwantiel te bereken indien Q3 se posisie nie ’n
heelgetal is nie.
� Hoe word Q2 bereken?
Q2 word bereken deur die waarde reg in die middel van die datastel te identifiseer. Klink dit
bekend? Dit is presies dieselfde metode wat ons gebruik het om die mediaan te identifiseer.
Dus kan ons sê dat:
Q2 = mediaan
Dit sal altyd die geval wees.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 67
� Hoe word Q3 bereken?
Die derde kwantiel (Q3) word min of meer op dieselfde wyse as die eerste kwantiel (Q1)
bereken. Die enigste daadwerklike verskil is die formule van Q3 se posisie:
Posisie van Q3 = 3(n + 1) ÷ 4
Beskou weer die datastel wat ons vir die berekening van Q1 gebruik het (gesorteer):
18 20 21 25 31 35 38 39 40 42 44 45 49 50 55
Bereken nou Q3 se posisie:
Posisie van Q3 = 3(n + 1) ÷ 4
= 3(15 + 1) ÷ 4
= 12
Die twaalfde waarde in ons gesorteerde datastel is 45.
Waarde 18 20 21 25 31 35 38 39 40 42 44 45 49 50 55
Posisie 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Q3
� Wat as die posisie nie ’n heelgetal is nie?
As Q3 se posisie nie ’n heelgetal is nie, word dieselfde stappe wat in die geval van Q1
gebruik is, gevolg. Beskou die volgende datastel:
20 24 33 38 42 45 49 51 55 60
Posisie van Q3 = 3(n + 1) ÷ 4
= 3(10 + 1) ÷ 4
= 8.25
Q3 lê dus tussen die 8ste en 9de waarde, dus tussen 51 en 55:
20 24 33 38 42 45 49 51 55 60
Q3 is hier êrens
Elementêre Kwantitatiewe Metodes
68 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Stap 1: Bepaal die afstand tussen 51 en 55.
Afstand = 55 – 51
= 4
Stap 2: Vermenigvuldig die posisie (8.25) se breukdeel (dus 0.25) met die afstand tussen
die twee waardes (in hierdie geval 4):
0.25 x 4
= 1
Stap 3: Tel die waarde wat in Stap 2 bereken is by die 51 en vind sodoende Q3:
Q3 = 51 + 1
= 52
� Hoe interpreteer ons kwantiele?
Beskou die volgende kwantiele:
Q1 = 25
Q2 = mediaan = 39
Q3 = 45
Ons kan, onder andere, die volgende stellings maak:
• 25% van alle waardes is kleiner as 25
• 50% van alle waardes is kleiner as 39
• 50% van alle waardes is groter as 39
• 75% van alle waardes is kleiner as 45
• 25% van alle waardes is groter as 45
� Kwantiele vir kategorieë
Soos met ’n mediaan is kwantiele maklik om te bereken as die data heelgetalle is.
Heelgetalle en reële getalle (soos salarisse) wat in kategorieë gedeel is, vereis egter ’n
addisionele formule.
Die stappe om te volg om ’n mediaan (en dus Q2) vir kategorieë van data te bereken, is
reeds breedvoerig bespreek. Dieselfde stappe word vir die berekening van Q1 en Q3 gevolg.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 69
Beskou weer Vasvat se kliënte se ouderdomme:
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Die posisie van Q1 word met dieselfde formule as voorheen bereken:
Posisie van Q1 = (n + 1) ÷ 4
= (1 034 543 + 1) ÷ 4
= 258 636
Die 258 636ste waarde sal êrens in die kategorie “28 tot 37” voorkom. Hierdie kategorie begin
by die 66 675ste respondent se antwoord en eindig by die 307 665ste respondent se
antwoord. Die 258 636ste respondent sal dus êrens in hierdie kategorie voorkom.
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Die formule vir Q1 en Q3 in hierdie geval verskil egter (minimaal) van die formule van die
mediaan (Q2). Q1 se formule word soos volg voorgestel:
Q1 in hierdie
kategorie
Elementêre Kwantitatiewe Metodes
70 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Q1 = Oq1 + [�� � ����
�#�
Die simbole in die formule beteken die volgende:
• Oq1 stel die onderste grens van Q1 se interval voor, in hierdie geval 28.
• n stel die totale hoeveelheid waardes voor, in hierdie geval 1 034 543.
• f(<) stel die kumulatiewe frekwensie voor van die interval voor Q1 se interval. In
hierdie geval is dit 66 675.
• fq1 stel die frekwensie van Q1 se interval voor, in hierdie geval 240 990.
• c stel die grootte van Q1 se interval voor, in hierdie geval 10. (Die hoeveelheid
moontlik ouderdomme van 28 tot 37.)
Q1 kan dus nou soos volg bereken word:
Q1 = Oq1 + [�� � ����
�#�
= 28 + �� [� ��� ���� � �� ���
��� ���
= 28 + 7.966
= 35.966
Q3 kan op ’n soortgelyke wyse bereken word:
Posisie van Q3 = 3(n + 1) ÷ 4
= 3(1 034 543 + 1) ÷ 4
= 775 907.25
Die 775 907.25ste waarde sal êrens in die kategorie “48 tot 57” voorkom.
Kategorie Frekwensie
(hoeveel kliënte in
die kategorie)
Kumulatiewe
frekwensie
18 tot 27 66 675 66 675
28 tot 37 240 990 307 665
38 tot 47 298 747 606 412
48 tot 57 247 062 853 474 Q3 in hierdie
kategorie
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 71
58 tot 67 161 883 1 015 357
68 tot 77 19 186 1 034 543
Die formule vir Q3 in hierdie geval is:
Q3 = Oq3 + [��� � ����
�#�
= 48 + �� [�$� ��� ���%� � ��� ���
��� ���
= 48 + 6.860
= 54.86
Gevallestudie: Oudtshoorn en die onbetroubare gemiddeld
Vanessa glimlag. Michael merk op: “Miskien moet jy ’n naweek afvat en op Oudtshoorn gaan
kuier. Jy kyk nou al vir twintig minute na daardie statistieke.”
“Dit is baie interessant.”
“Die uitskieters?”
“Ja, en hoe hulle die gemiddeld beïnvloed. Omdat daar so min kliënte in Oudtshoorn is, het
die groot maatskappye se premies juis ’n invloed op die gemiddeld.”
“Dit is dus nie ’n verrassing dat die standaardafwyking so groot is nie.”
“Ja, ek het gesien. Wat is die variansiekoëffisiënt? Seker maklik vyftig persent?”
“Vier-en-sestig persent,” antwoord Michael. “Wat amper die helfte van die gemiddeld is.”
“Dit is baie hoog. Ek sou nie daardie gemiddeld vertrou nie. Die mediaan behoort ’n beter
aanduiding te gee van ’n tipiese premie as die gemiddeld. Het jy enige ander aanduiding van
die spreiding van Oudtshoorn se data?”
“Nee, maar ek het Pearson se skeefheidskoëffisiënt vir die totale data bereken.”
“Met die hand!?” Vanessa sien in haar geestesoog hoe Michael velle en velle papier gebruik
om meer as ’n miljoen waardes in berekening te bring.
Michael lag. “Darem nie. Maar ek sou dit kon doen as ek moes.”
“Liewer nie. Jou internskap is nie vierhonderd jaar lank nie!”
Elementêre Kwantitatiewe Metodes
72 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
3.7 Wat is maatstawwe van spreiding?
Maatstawwe van spreiding verwys na beskrywende statistiek wat aandui hoe data verspreid
is. Kyk na die volgende histogramme:
Figuur 3.4: Wyses waarop data versprei kan wees
Elk van hierdie histogramme stel ’n ander stel data voor. Hoewel dit moontlik is dat al hierdie
datastelle dieselfde gemiddeld kan hê, is die verspreiding van data drasties verskillend.
Hierdie verskille sal deur maatstawwe van spreiding aangedui word.
In hierdie gids word daar na drie maatstawwe van spreiding gekyk: die standaardafwyking,
variansiekoëffisiënt (wat gebruik word om die standaardafwyking te interpreteer) en ’n
skeefheidskoëffisiënt.
3.8 Wat is ’n standaardafwyking?
’n Standaardafwyking bepaal hoe vêr die verskillende waardes in ’n datastel van die
gemiddeld af lê. Die standaardafwyking poog om ’n “gemiddelde afstand van die gemiddeld
af” te bereken.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 73
� Waarom is ’n standaardafwyking belangrik?
Gestel ’n maatskappy wil ’n advertensieveldtog loods. Hulle weet egter nie hoe oud hulle
kliënte is nie en besluit om ’n vinnige steekproef te doen. Die maatskappy vra vir ses kliënte
wat hul ouderdomme is. Die ouderdomme wat hulle ontvang het, is:
60 20 25 65 70 12
Hulle bereken die gemiddeld van die steekproef:
x = (60 + 20 + 25 + 65 + 70 + 12) ÷ 6
= 252 ÷ 6
= 42 jaar
Gebaseer op die gemiddeld van 42 jaar, besluit die maatskappy om ’n advertensieveldtog te
loods vir persone tussen die ouderdomme van 40 en 50 jaar. Maar hulle maak ’n reusefout!
Daar is nie een persoon in die steekproef in hierdie ouderdomsgroep nie.
As die maatskappy ’n standaardafwyking bereken het, sou hulle gesien het dat die waardes
baie vêr van die gemiddeld van 42 af lê.
� Hoe word ’n standaardafwyking bereken?
’n Standaardafwyking word deur die volgende stappe bereken (’n formule word ’n bietjie later
verskaf):
• Stap 1: Die afstand tussen elke waarde in die datastel, en die gemiddeld van
dieselfde datastel, word bereken. Dit word gedoen deur die gemiddeld af te trek van
elke waarde in die datastel.
• Stap 2: Omdat Stap 1 moontlike negatiewe waardes tot gevolg kan hê (en afstande
nie negatief kan wees nie), word elke verskil wat in Stap 1 bereken is, gekwadreer.
• Stap 3: Om ’n gemiddelde “afstand” te kry, word al die gekwadreerde “afstande” deur
die totale hoeveelheid waardes (minus 1) gedeel. Die antwoord wat tydens hierdie
stap verkry word, word die variansie genoem.
• Stap 4: Die variansie is ’n nuttige hulpmiddel om spreiding te bepaal, maar word nie
in dieselfde eenheid (byvoorbeeld jare of rand) as die oorspronklike waardes gemeet
nie. As ons egter die variansie se vierkantswortel verkry, sal die antwoord in
dieselfde eenheid as die individuele waardes wees.
Elementêre Kwantitatiewe Metodes
74 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Die formule vir ’n standaardafwyking (wat met die letter s voorgestel word) is dus:
s =&∑���� ������
Beskou weer die datastel wat hierbo bespreek is:
60 20 25 65 70 12
Die simbole in die formule beteken die volgende:
• s word gebruik om die standaardafwyking vir ’n steekproef voor te stel. (As ons na ’n
hele populasie se standaardafwyking verwys, word die simbool σ gebruik.)
• xi dui op elke waarde in die steekproef (60, 20, 25, 65, 70 en 12 in bogenoemde
geval).
• x dui op die steekproef se gemiddeld (42 in bogenoemde geval).
• ΣΣΣΣ (xi- x)2 beteken dus dat die gemiddeld van elke waarde in die steekproef afgetrek
moet word en die gekwadreerde waardes van al hierdie antwoorde bymekaargetel
moet word.
• n dui op die steekproefgrootte (6 in die geval hierbo).
Om die berekening te vergemaklik sal die variansie eers bereken word:
variansie = ∑��� � ���
� � �
= [(60 – 42)2 + (20 – 42)2 + (25 – 42)2 + (65 – 42)2 + (70 – 42)2 + (12 – 42)2] ÷ 5
= (324 + 484 + 289 + 529 + 784 + 900) ÷ 5
= 3 310 ÷ 5
= 662
Die standaardafwyking is dan die vierkantswortel van die variansie:
s =&∑��� � ���� � �
= √���
= 25.729
Dit beteken dat die waardes ongeveer 25.729 jaar rondom die gemiddeld versprei is. Dit is
nogal groot: dit beteken dat die gemiddelde waarde 25.729 jaar kleiner of groter is as 42. Die
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 75
standaardafwyking kan dus hier vir ons ’n aanduiding gee dat die gemiddeld nie so akkuraat
is as wat ons graag sou wou gehad het nie.
3.9 Wat is die variansiekoëffisiënt?
Die variansiekoëffisiënt is ’n statistiek wat dit vir ons maklik maak om die standaardafwyking
ten opsigte van die gemiddeld te interpreteer. Die formule vir die variansiekoëffisiënt is:
CV = s ÷ x
In bogenoemde geval is die variansiekoëffisiënt dus:
25.729 ÷ 42
= 0.613
Die variansiekoëffisiënt word in persentasie aangedui. 0.613 sal dus voorgestel word as
61.30%. Die standaardafwyking is dus 61.30% van die gemiddeld. ’n “Akkurate” gemiddeld
sal ’n klein standaardafwyking hê en dus ook ’n klein variansiekoëffisiënt. Hoe nader die
variansiekoëffisiënt aan 0 is, hoe meer akkuraat is die gemiddeld.
Die verskil tussen die variansiekoëffisiënt en die standaardafwyking is dat eersgenoemde
die standaardafwyking ten opsigte van die gemiddeld vertoon. Kyk na die volgende twee
gemiddelde met hul standaardafwykings:
Datastel 1 Datastel 2
Standaardafwyking 150 Standaardafwyking 25
Watter standaardafwyking is die grootste? Die 150 natuurlik. Maar beteken dit dat Datastel 1
se gemiddeld meer akkuraat is as Datastel 2? Hierdie vraag kan nie beantwoord word
sonder om na die gemiddeld te kyk nie. Beskou nou dieselfde datastelle met meer inligting:
Datastel 1: Salarisse van kliënte Datastel 2: Jare ondervinding
Standaardafwyking R150 Standaardafwyking 25 jare
Gemiddeld R15 000 Gemiddeld 16 jare
Variansiekoëffisiënt 1% Variansiekoëffisiënt 156.25%
Deur na die gemiddeld en die variansiekoëffisiënt te kyk, kan ons nou sien dat die gemiddeld
van Datastel 1 baie meer akkuraat is. Datastel 2 se gemiddeld is glad nie akkuraat nie, met
’n baie groot standaardafwyking (wanneer dit met die gemiddeld vergelyk word).
Elementêre Kwantitatiewe Metodes
76 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
3.10 Wat is ’n skeefheidskoëffisiënt?
’n Standaardafwyking sal kan onderskei tussen die volgende twee verspreidings:
Figuur 3.5: Data met verskillende standaardafwykings
Die linkerkantste grafiek sal ’n kleiner standaardafwyking bevat, terwyl die tweede grafiek ’n
groter standaardafwyking sal hê. Maar watter statistiek sal tussen die volgende
verspreidings kan onderskei?
Figuur 3.6: Data met verskillende vlakke van skeefheid
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 77
Die “skeefheid” van ’n verspreiding van data kan deur ’n skeefheidskoëffisiënt voorgestel
word. Een van die bekendste hiervan is Pearson se koëffisiënt van skeefheid. Hierdie
koëffisiënt het die volgende formule:
Skp= � ∑��� � ����� � ���� � ��*�
Jy behoort op hierdie stadium bekend te wees met die simbole. Kom ons bereken nou die
Pearson skeefheidskoëffisiënt vir die bogenoemde datastel:
Ons weet:
• Die gemiddeld is 42
• Die standaardafwyking is 25.729
Ons bereken eerste die boonste deel van die formule:
nΣΣΣΣ(xi-x)3
= 6 x [(60 – 42)3 + (20 – 42)3 + (25 – 42)3 + (65 – 42)3 + (70 – 42)3 + (12 – 42)3]
= 6 x (5832 – 10 648 – 4 913 + 12 169 + 21 952 – 27 000)
= -147 360
Nou bereken ons die gedeelte aan die onderkant van die breuk:
(n – 1)(n – 2)s3
= (6 – 1)(6 – 2)(25.729)3
= 5 x 5 x 17 032.120
= 425 803
Nou kan die Skp bereken word:
Skp = � ∑��������� � ���� � ��*�
= ���� ������ ��
= -0.345
Hierdie data is dus negatief skeef verspreid (sien die volgende paragraaf).
60 20 25 65 70 12
Elementêre Kwantitatiewe Metodes
78 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
� Hoe interpreteer ons ’n koëffisiënt van skeefheid?
Positief skeef: Skp > 0
Die waardes met die grootste frekwensies sal na die linkerkant van die gemiddeld neig. Die
“stert”-gedeelte van die verspreiding is dus aan die regterkant. Hoe groter die
skeefheidskoëffisiënt, hoe verder sal die data van die gemiddeld verspreid wees. Die
volgende figuur stel ’n positief skewe verspreiding voor.
Figuur 3.7: Data wat positief-skeef verspreid is
Negatief skeef: Skp < 0
In hierdie geval sal die grootste frekwensies aan die regterkant van die gemiddeld voorkom.
Die waardes wat dus die meeste voorkom, sal almal groter as die gemiddeld wees. Hoe
verder die koëffisiënt van die 0 af is, hoe “skewer” is die data verspreid. Die volgende figuur
stel data wat negatief skeef is, voor:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 79
Figuur 3.8: Data wat negatief-skeef verspreid is
Simmetries: Skp = 0
Die waardes word simmetries rondom die gemiddeld versprei. Dit beteken dat die
frekwensies van waardes aan die linkerkant en die frekwensies van waardes aan die
regterkant ooreenstem. Hierdie verskynsel word ook ’n normaalverdeling genoem. Hoe
nader Skp aan 0 is, hoe meer verteenwoordig die verspreiding simmetrie.
Wat is volgende?
In die volgende hoofstuk sal Michael met ’n uitdaging gekonfronteer word. Vasvat
Versekeraars gaan van hom verwag om te voorspel wat in die toekoms gaan gebeur.
Elementêre Kwantitatiewe Metodes
80 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)
Notas
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 81
HHOOOOFFSSTTUUKK 44:: WWAAAARRSSKKYYNNLLIIKKHHEEDDEE
Onderwerpe
4.1 Wat is ‘n waarskynlikheid?
4.2 Berekening van ‘n waarskynlikheid
4.3 Telreëls
Wat is kombinasies?
Wat is permutasies?
Elementêre Kwantitatiewe Metodes
82 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Gevallestudie: Michael se laaste dag
Michael sit en staar na die leë koffiebeker. In sy gedagtes gaan hy vir die soveelste keer
deur die woorde wat hy vir Vanessa wil sê. Hy is skoon geïrriteerd met homself: Hy was nog
nooit iemand wat senuagtig was om te sê wat hy dink nie. Maar vandag is daar soveel op
die spel.
Die koffiewinkel is al vir ’n halfuur oop. Michael het reeds vir ’n halfuur buite gewag vir die
winkel om oop te maak. Die bestuurder was effens verras om hom daar te vind, maar hy
was vriendelik en het hom dadelik binnegenooi. Intussen was daar nog net twee ander
kliënte. Beide het wegneemkoffie bestel en Michael weer alleen met sy gedagtes gelaat.
Vanessa het ’n afspraak vir agtuur gemaak. Michael wou nie kanse vat nie. Vandag is sy
laaste dag by StatInc. Dit is waaroor Michael met Vanessa wil praat. In die laaste maand het
hy soveel geleer. Hy het feitlik die hele Vasvat Versekeraars-projek by Vanessa oorgeneem.
Hy het ’n paar dae in die ander departemente spandeer, vraelyste ontwerp, data ingelees,
selfs vir twee dae Vasvat se kliënte geskakel om data te versamel. En elke dag leer hy
soveel van wat in die wêreld van Statistiek gebeur.
Die geld is ook nie sleg nie. Hy het sy eerste betaling drie dae gelede ontvang. In sy haas
om by die onderneming betrokke te raak het hy nooit sy kontrak behoorlik gelees nie. Sy
verrassing was dus groot toe hy ’n SMS van sy bank ontvang. Hy het nie net ’n salaris
ontvang nie, maar dit was meer as wat enige van sy vriende vir hul deeltydse werk ontvang.
En hy was nie ’n kelner by ’n restaurant of ’n administratiewe klerk nie. Hy het iets gedoen
wat hy geniet het.
Michael wil sy kontrak by StatInc verleng. Hy weet egter dat Vanessa ’n opoffering gemaak
het om hom onder haar vlerk te neem. Hy wil nie van haar goedheid misbruik maak nie,
maar hy moet haar net vra. As hy vandag klaarmaak sonder om te probeer om aan te bly,
sal hy homself vir baie lank verwyt.
Hy kon natuurlik direk met David gesels het. David was die bestuurder wat hom aanvanklik
aangestel het. Maar hy moet eers Vanessa se goedkeuring kry. Sy is die een wat hom sal
moet mentor terwyl hy by StatInc werk.
Hy word na die werklikheid teruggeruk deur Vanessa wat skielik voor hom staan.
“Ek sou enigiets gee om te weet waaraan jy so hard dink,” sê sy met ’n glimlag.
Enigiets? Selfs 'n maand ekstra by StatInc? Michael sê egter nie wat hy dink nie en gee ’n
skaapagtige glimlag. Hy wil dadelik met die deur in die huis val, maar sy moed begewe hom.
“Môre,” sê hy vriendelik, dog ’n bietjie ongemaklik.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 83
“Ek het koffie nodig,” sê Vanessa. Sy wink die kelnerin nader en bestel ’n cappuccino. Dan
sit sy ’n groot lêer op die tafel neer. Michael skraap sy moed bymekaar en maak sy mond
oop, maar hy word deur Vanessa voorgespring.
“Wat is die kans dat ons jou kontrak met drie maande kan verleng?” val sy met die deur in
die huis.
Michael se mond val oop. Vanessa lag.
“Ons sal jou salaris verdubbel,” verduidelik sy. “Vasvat is baie gelukkig met jou werk en het
vir ons ’n paar nuwe projekte gegee. Ek het reeds met David gesels en hulle is bereid om
jou as my tydelike assistent aan te stel. Ons sal rondom jou klasse werk, solank jy net ’n
totaal van sestien ure per week aan Vasvat spandeer.”
Michael kan nie glo wat hy hoor nie. “Dit sal fantasties wees!” kry hy dit uiteindelik uit.
Vanessa mors nie tyd nie. “Mooi,” sê sy. “Kom ons begin met waarskynlikhede.”
Terwyl Michael nog sukkel om die nuus te verwerk, maak Vanessa die groot lêer oop.
“Vasvat het aktuarisse wat hul risiko’s bereken en die pakkette dienooreenkomstig opstel.
Daar is egter ander waarskynlikhede wat hulle ook wil bereken en daarvoor het hulle ons
hulp ingeroep.”
Michael is dadelik nuuskierig. “Soos wat?”
“Wat is die waarskynlikheid dat ’n middeljarige vrou met ’n inkomste van bo twintigduisend
rand per maand versekering op ’n motor van tweehonderdduisend rand sal uitneem?”
“Het ons data?”
Vanessa knik. “Die laaste tien jaar s’n vir die meeste en vir sommige waarskynlikhede het
ons tot twintig jaar se data tot ons beskikking.”
“Enige statistikus se droom,” lag Michael.
4.1 Wat is ’n waarskynlikheid?
Wat is die kans dat dit môre gaan reën? Wat is die moontlikheid dat die Springbokke hul
rugbywedstryd teen Engeland gaan wen? Wat is die kans dat ’n kliënt meer as een motor by
dieselfde handelaar sal koop?
Elementêre Kwantitatiewe Metodes
84 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Al die bogenoemde vrae verwys na een of ander onsekerheid. Die persoon wat hierdie vrae
vra (of beantwoord) het nie sekerheid ten opsigte van ’n spesifieke gebeurtenis nie. Om
hierdie vrae te beantwoord is dus baie moeilik.
’n Vraag soos “Gaan dit môre reën?” het nie ’n definitiewe “ja” of “nee” antwoord nie omdat
môre in die toekoms lê en dus van nature onseker is. Waarskynlikhede poog om hierdie
moeilike vrae te beantwoord.
In plaas daarvan om ’n eenvoudige “ja” of “nee” as antwoord te verskaf, kan ’n
waarskynlikheid ’n spesifieke getal gebruik om aan te dui wat die moontlikheid is dat dit
gaan reën en wat die moontlikheid is dat dit nie gaan reën nie. Hierdie waarskynlikheid
beantwoord nie die vraag in absolute terme (definitiewe “ja” of “nee”) nie, maar verskaf ’n
“tweede-beste” opsie. Die vraag “Gaan dit môre reën?” is dus onmoontlik om te beantwoord,
maar die vraag “Wat is die kanse dat dit môre gaan reën?” kan wel ’n moontlike antwoord
hê.
’n Waarskynlikheid word altyd voorgestel deur ’n getal tussen 0 en 1. Hierdie getal kan ook
as persentasie (tussen 0% en 100%) voorgestel word. Voordat ons ’n waarskynlikheid kan
bereken, word een of meer gebeurtenisse benodig. Die waarskynlikheid bepaal dan wat die
kanse is dat hierdie gebeurtenis sal plaasvind (of nie sal plaasvind nie).
As ons weer die weervoorspelling as voorbeeld gebruik, sal die gebeurtenis soos volg
gedefinieer word: “Dit gaan môre reën”. Deur diepgaande statistiese berekeninge, wat ’n
magdom veranderlikes in ag neem, bepaal die weerburo dat daar ’n 0.7 waarskynlikheid is
dat dit wel die volgende dag gaan reën. Tydens die weervoorspelling op die televisie, radio
of in koerante word hierdie 0.7 as ’n persentasie voorgestel (dus 70%). Die publiek weet dan
dat die waarskynlikheid van ’n reënbui groot is.
’n Waarskynlikheid van 0 en 1 het ’n spesiale betekenis. As ’n gebeurtenis ’n
waarskynlikheid van 0 het, beteken dit dat daardie waarskynlikheid beslis nie gaan
plaasvind nie. Ons verwys ook hierna as ’n onmoontlike gebeurtenis. Die volgende
waarskynlikhede het ’n 0 (of 0%) waarskynlikheid:
• Gebeurtenis A: Ek gaan môre op die son loop.
• Gebeurtenis B: Die kliënt is 700 jaar oud.
Aan die ander kant sal ’n gebeurtenis met ’n waarskynlikheid van 1 beslis plaasvind. Daar is
dus ’n 100% kans dat so ’n gebeurtenis gaan plaasvind. Voorbeelde van gebeurtenisse wat
’n waarskynlikheid van 1 het, sluit in:
• Gebeurtenis C: Ek gaan binne die volgende 200 jaar doodgaan.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 85
• Gebeurtenis D: Die spesifieke kliënt is jonger as 700 jaar.
Nota oor persentasies:
Studente wonder soms of hulle waarskynlikhede as ’n getal tussen 0 en 1, of as ’n
persentasie moet uitdruk. ’n Goeie riglyn is die volgende: Wanneer ons statistiese
berekeninge doen, verwys ons na die waarskynlikhede as getalle tussen 0 en 1
(byvoorbeeld 0.45 of 0.91). Wanneer ons terugvoer verskaf aan ’n kliënt of as deel van ’n
verslag waar ons nie op die statistiese berekeninge fokus nie, kan die terugvoer as
persentasie verskaf word (byvoorbeeld 45% of 91%).
� Berekening van ’n waarskynlikheid
Daar bestaan ’n verskeidenheid wyses om waarskynlikhede te bereken. Om die
waarskynlikheid van ’n reënbui te bepaal is ’n groot hoeveelheid komplekse berekeninge
nodig. Daar moet ’n verskeidenheid faktore in ag geneem word. Hierdie tipe berekeninge val
egter buite die grense van hierdie gids.
Vir gewone sakedoeleindes sal ons gewoonlik geskiedkundige data vir waarskynlikhede
gebruik. Ons sal kyk na bestaande waardes en dan hieruit waarskynlikhede bereken.
Byvoorbeeld, as ons vind dat, in die laaste jaar, een uit elke tien kliënte oor ’n sekere diens
gekla het, kan ons aanneem dat daar in die volgende jaar ’n soortgelyke verspreiding sal
wees. (Dit sal natuurlik slegs die geval wees indien alle veranderlikes dieselfde bly. As daar
dus maatstawwe in plek gestel word om die kliëntediens te verbeter, of die onderneming se
kliënte vermeerder of verminder drasties, mag die waardes anders lyk.)
As een uit elke tien kliënte verlede jaar gekla het (dus 10% van al die kliënte), dan is daar ’n
0.1 waarskynlikheid dat ’n spesifieke kliënt hierdie jaar ook gaan kla. Die formule om ’n
waarskynlikheid te bereken is dus:
P(A) = +�
Die veranderlikes in die formule kan soos volg beskryf word:
• A is ’n gebeurtenis (byvoorbeeld ’n Kliënt kla)
• P(A) is die waarskynlikheid dat A sal plaasvind (dus, die waarskynlikheid dat ’n
spesifieke kliënt sal kla)
• r is die hoeveelheid keer wat A wel plaasgevind het (uit historiese data vind ons dat r
een keer plaasgevind het vir elke tien kliënte)
• n is die steekproef
Elementêre Kwantitatiewe Metodes
86 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
In kort sal ons sê: Verlede jaar het r uit n kliënte gekla. Die waarskynlikheid dat ’n enkele
kliënt sal kla, is dus +�.
’n Waarskynlikheid het die volgende eienskappe (Wegner, 2013:102):
• ’n Waarskynlikheid lê altyd tussen 0 en 1. 0 en 1 is ingesluit.
• Indien ’n gebeurtenis onmoontlik is (en dus nie kan plaasvind nie), is die
waarskynlikheid dat daardie gebeurtenis gaan plaasvind 0.
• Indien ’n gebeurtenis wel gaan plaasvind (en dit dus onmoontlik is vir die gebeurtenis
om nie plaas te vind nie), is die waarskynlikheid dat daardie gebeurtenis gaan
plaasvind 1.
• Die som van die waarskynlikhede van alle moontlike uitkomste van ’n gebeurtenis
is 1.
• Die waarskynlikheid dat ’n gebeurtenis nie gaan plaasvind nie, is gelyk aan die
waarskynlikheid dat dit wel gaan plaasvind, afgetrek van 1. Dus: P'(A) = 1 – P(A). In
hierdie geval stel P'(A) die waarskynlikheid dat A nie gaan plaasvind nie, voor.
Voorbeeld
Vasvat Motors wil weet of persone jonger as 25 jaar hul produkte sal koop. Hulle trek ’n
steekproef van motoreienaars onder 25 jaar. Die steekproef bestaan uit 200 persone onder
25 jaar (dus, n = 200). Hulle vra vir elk van die persone in die steekproef die volgende vraag:
“Wie is die versekeraar van jou motor?” Uit die 200 persone het 15 gesê dat hulle wel by
Vasvat verseker is.
Wat is die waarskynlikheid dat ’n ewekansige kliënt wat uit dieselfde populasie gekies word,
by Vasvat verseker is?
Antwoord:
Om te begin moet ons die formule gebruik:
P(A) = +�
Die formule benodig ’n aantal waardes:
• Stel A = ’n Spesifieke kliënt onder die ouderdom van 25 jaar is wel ’n Vasvat-kliënt.
• P(A) is dan die waarskynlikheid dat ’n spesifieke kliënt wat ons gekies het, wel ’n
Vasvat-kliënt is.
• r is die hoeveelheid keer wat iemand in ons steekproef genoem het dat hulle wel ’n
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 87
Vasvat-kliënt is, dus 15.
• n is die hoeveelheid mense wat ons gevra het wie hul motors verseker, dus 200.
Die waarskynlikheid kan dus soos volg bereken word:
P(A) = +�
= 15 / 200
= 0.075
Die waarskynlikheid dat ’n ewekansig-gekose kliënt onder 25 wel ’n Vasvat-kliënt sal wees,
is dus 0.075 (wat 7.5% is).
4.2 Belangrike begrippe
Soos reeds genoem, is daar ’n verskeidenheid waarskynlikhede, en tipes waarskynlikhede,
wat bereken kan word. Daar is dus ook ’n groot hoeveelheid waarskynlikheidsbegrippe
waarvan ’n statistikus bewus moet wees. Vir die doel van hierdie gids sal daar na vyf
belangrike begrippe gekyk word (Wegner, 2013: 103):
• Snyding (intersection) van gebeurtenisse
• Samevoeging (union) van gebeurtenisse
• Onderling-uitsluitlike (mutually exclusive) gebeurtenisse
• Gesamentlik-uitputbare (collectively exhaustive) gebeurtenisse
• Statisties-onafhanklike gebeurtenisse.
Vervolg…
Vanessa en Michael sit by Vanessa se tafel met ’n groot hoeveelheid dokumente voor
hulle uitgepak.
“Die belangrikste is om eers te kyk na die data wat beskikbaar is,” sê Vanessa en gee vir
Michael ’n vel papier aan. “Hierdie is ’n kruistabulering van pakkette teenoor provinsies.”
Michael kyk na die dokument en sien die volgende:
Elementêre Kwantitatiewe Metodes
88 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-
Natal
94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
“Hierdie tabel bevat ’n opsomming van al Vasvat Versekeraars se kliënte,” verduidelik
Vanessa. “Dit is ingedeel volgens provinsie, maar ook volgens die pakket wat die kliënt
gekies het.”
“Dit is ’n goeie opsomming,” sê Michael. “Ons kan reeds ’n hele paar waarskynlikhede
van hierdie tabel aflees.”
Michael is reg. Hoewel daar ’n verskeidenheid wyses is om waarskynlikhede te bereken, is
die tabel wat hierbo verskaf is, ’n baie nuttige hulpmiddel. Hierdie tabel en die twee
kategorieë wat deur die tabel voorgestel word (Provinsie en Pakket), sal vir die
verduideliking van die vyf waarskynlikheidsbegrippe gebruik word.
� Begrip 1: Snyding
Snyding behels twee gebeurtenisse wat op dieselfde tyd plaasvind. Hierdie twee
gebeurtenisse kan enigiets wees, byvoorbeeld:
• Dit reën en die son skyn. Gebeurtenis A sal Dit reën wees en Gebeurtenis B sal Die
son skyn wees.
• Die respondent werk voltyds en het ’n gesin. Gebeurtenis A sal Die respondent werk
voltyds wees en Gebeurtenis B sal Die respondent het ’n gesin wees.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 89
• ’n Spesifieke kliënt woon in Gauteng en is geregistreer vir die Wild-en-wakker-
pakket. Gebeurtenis A sal Die kliënt woon in Gauteng wees en Gebeurtenis B sal Die
kliënt is geregistreer vir die Wild-en-wakker-pakket wees.
Daar is een woord wat in elk van die bogenoemde beskrywings voorkom. Hierdie woord is
“en”. Snyding word altyd deur die woord “en” voorgestel: Gebeurtenis A en Gebeurtenis B
vind gelyktydig plaas.
’n Nuttige wyse om snyding (en van die ander konsepte) voor te stel, is die sogenaamde
Venn-diagram. Met ’n Venn-diagram word elke gebeurtenis met ’n sirkel voorgestel. Deur na
die sirkels se interaksie (of gebrek aan interaksie) met mekaar te kyk, is dit makliker om ’n
spesifieke konsep te verstaan. Snyding kan dus soos volg deur ’n Venn-diagram voorgestel
word:
Figuur 4.1: Snyding voorgestel deur ’n Venn-diagram
Elke sirkel stel ’n gebeurtenis voor. Gebeurtenis A word deur die linkerkantse sirkel
voorgestel, terwyl die regterkantse sirkel Gebeurtenis B voorstel. Die plek waar die twee
sirkels mekaar sny, is die plek waar beide gebeurtenisse gelyktydig plaasvind.
Die snyding van twee gebeurtenisse word deur die teken ∩∩∩∩ voorgestel. Gestel daar is twee
gebeurtenisse, A en B. Die waarskynlikheid dat die snyding van die twee gebeurtenisse sal
plaasvind (met ander woorde, die waarskynlikheid dat A en B gelyktydig gaan plaasvind,
word voorgestel deur P(A∩∩∩∩B). Die volgende voorbeeld sal aandui hoe so ’n waarskynlikheid
bereken kan word.
A
B Snyding
Elementêre Kwantitatiewe Metodes
90 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Voorbeeld
Kyk weer na die tabel wat al Vasvat se kliënte volgens provinsies en pakkette indeel.
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Bereken nou die volgende:
Vraag 1:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng woon?
Vraag 2:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, vir die Pasgemaakte
pakket ingeskryf is?
Vraag 3:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Oos-Kaap woon
en vir die Wild-en-wakker-pakket ingeskryf is?
Vraag 4:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Wes-Kaap woon
en vir die Vat-dit-kalm-pakket ingeskryf is?
Antwoorde:
Vraag 1:
Die eerste vraag behels geen snyding nie. Daar is slegs een gebeurtenis waarvan ons die
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 91
waarskynlikheid moet bereken. Die eerste stap sal dus wees om die gebeurtenis te
identifiseer. Ons sal dit op die volgende wyse doen:
Gestel A = Die kliënt woon in Gauteng
Die volgende stap is om die waarskynlikheid te bereken. Ons weet reeds hoe om ’n basiese
waarskynlikheid te bereken. Ons gebruik die formule wat vroeër in hierdie hoofstuk bespreek
is:
P(A) = ,-
Nou moet ons bepaal watter waardes deur r en n voorgestel word:
• n stel die totale hoeveelheid kliënte voor, dus 1 034 543
• r stel die hoeveelheid kliënte wat in Gauteng woon, voor, dus 356 741
Nou is die berekening maklik:
P(A) = ,-
= 356 741 / 1 034 543
= 0.349
Daar is dus ’n 0.349 waarskynlikheid (of 34.9%) dat ’n kliënt wat ewekansig gekies sal word,
in Gauteng woon.
Toets jou antwoord:
’n Nuttige toets om te doen om te kyk of jy nie moontlik ’n fout gemaak het nie, is om te vra
“Maak my antwoord sin?” Is daar werklik ongeveer 35% van die kliënte in Gauteng? Nog ’n
belangrike vraag wat gevra moet word, is: “Is die waarskynlikheid wel tussen 0 en 1?”
Vraag 2:
Hierdie is ook ’n eenvoudige waarskynlikheid (wat nie snyding behels nie). Beskryf die
gebeurtenis soos volg:
Gestel A = Die kliënt is vir die pasgemaakte pakket ingeskryf
Bereken nou die waarskynlikheid met die formule:
P(A) = +�
waar:
• r = 95 117 (die totale hoeveelheid kliënte wat vir die pakket ingeskryf is)
• n = 1 034 543 (die totale hoeveelheid kliënte by Vasvat)
Elementêre Kwantitatiewe Metodes
92 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Die waarskynlikheid kan dus soos volg bereken word:
P(A) = +�
= 95 117 / 1 034 543
= 0.092
Daar is dus ’n 0.092 waarskynlikheid (of 9.2%) dat ’n kliënt wat ewekansig gekies word, wel
vir die pasgemaakte pakket ingeskryf is.
Vraag 3:
By Vraag 3 word daar vir die eerste keer na twee, snydende waarskynlikhede verwys.
Hoewel snyding sy eie formule het (wat ons later sal bespreek), kan ons ook die snyding van
twee gebeurtenisse van die tabel aflees. Die eerste stap sal natuurlik wees om die
gebeurtenisse te identifiseer:
Gestel A = Die kliënt woon in die Oos-Kaap
Gestel B = Die kliënt is vir die Wild-en-Wakker-pakket ingeskryf
Omdat die snyding van A en B op die tabel voorkom, kan ons dieselfde formule gebruik:
P(A∩∩∩∩B) = +�
n is steeds 1 034 543. Wat is r? r sal voorgestel word deur die plek op die tabel waar A en B
sny. Dit is dus by die sel waar die Oos-Kaap-ry kruis met die Wild-en-Wakker-kolom. Die
waarde by die hierdie snyding (op die tabel) is 42 374. Die waarde word hieronder op die
tabel aangedui:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 93
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Van hier af is die berekening weer dieselfde as vir enkele waarskynlikhede:
P(A∩∩∩∩B) = +�
= 42 374 / 1 034 543
= 0.041
Daar is dus ’n 0.041 waarskynlikheid (of 4.1%) dat ’n kliënt wat ewekansig gekies word in die
Oos-Kaap woon en vir die Wild-en-wakker-pakket ingeskryf is.
Vraag 4:
Hier het ons weereens ’n waarskynlikheid waar snyding betrokke is. Ons sal weer die twee
gebeurtenisse identifiseer:
Gestel A = Die kliënt woon in die Wes-Kaap
Gestel B = Die kliënt is vir die Vat-dit-kalm-pakket ingeskryf
Die formule P(A∩B) = ./ kan weer gebruik word.
n word weer voorgestel deur die totale hoeveelheid kliënte, naamlik 1 034 543, terwyl r
voorgestel word deur die sel waar die Wes-Kaap-ry en die Vat-dit-kalm-kolom sny. Die
waarde wat hier van die tabel afgelees kan word, is 7 384.
Bereken nou die waarskynlikheid:
P(A∩∩∩∩B) = +�
= 7 384 / 1 034 543
= 0.00714
Daar is dus ’n 0.00714 waarskynlikheid (0.714%) dat ’n kliënt wat ewekansig gekies word, in
die Wes-Kaap sal woon en vir die Vat-dit-kalm-pakket ingeskryf sal wees.
Notas:
• Jy sal oplet dat die waarskynlikheid vir twee gebeurtenisse wat op dieselfde tyd
plaasvind, kleiner is as die afsonderlike waarskynlikheid van elke gebeurtenis. Dit
maak logies sin: Die waarskynlikheid om een van jou ses vakke deur te kom is
kleiner as die waarskynlikheid om al jou vakke deur te kom. Die waarskynlikheid om
in 2016 ’n kompetisie te wen, is groter as die waarskynlikheid om in 2016, 2017 en
Elementêre Kwantitatiewe Metodes
94 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
2018 die prys te wen.
• Daar bestaan ’n formule om die snyding van twee waarskynlikhede te vind as jy nie
’n tabel het soos wat in hierdie oefening vir jou gegee word nie. Hierdie formule
gebruik die individuele waarskynlikhede van die twee gebeurtenisse en sal volgende
bespreek word.
Bereken snyding sonder ’n tabel
Om die snyding van twee gebeurtenisse te bereken, deur van ’n tabel gebruik te maak, is
redelik eenvoudig. Dit is, byvoorbeeld, maklik om die hoeveelheid Gauteng-kliënte wat vir
die Wild-en-wakker-pakket geregistreer is, van die tabel af te lees. Daar is egter nie altyd ’n
tabel met rou data beskikbaar vir hierdie berekening nie.
Die wyse waarop ons waarskynlikhede bereken het, was redelik eenvoudig. Die formule
P(A) = ./ is egter slegs een wyse waarop waarskynlikhede bereken kan word. Hierdie tipe
waarskynlikhede word “marginale waarskynlikhede” genoem. Nie alle waarskynlikhede is
egter marginale waarskynlikhede nie. Soos wat jy later in hierdie gids sal sien, is daar
verskillende tipes waarskynlikhede. Daar is ook verskillende wyses waarop waarskynlikhede
bereken kan word. Ons sal, byvoorbeeld, later sien hoe waarskynlikhede deur sogenaamde
waarskynlikheidverspreidings bereken kan word. Daar is ook ’n groot hoeveelheid wyses
waarop waarskynlikhede bereken kan word, wat nie in hierdie gids bespreek word nie.
Dit is dus moontlik dat jy slegs twee waarskynlikhede sal ontvang (sonder die rou data) en
dat daar van jou verwag word om die snyding te bereken.
Beskou die volgende:
P(A) = 0.24
P(B) = 0.11
Wat is P(A∩∩∩∩B)?
Hoe nou gemaak? Ons het nie ’n tabel met die rou data tot ons beskikking nie? Gelukkig is
daar ’n formule vir die berekening van snyding beskikbaar.
Hierdie formule is:
P(A∩∩∩∩B) = P(A) x P(B)
As daar meer as twee waarskynlikhede is en ons wil graag die snyding van al die
waarskynlikhede bereken, kan dieselfde formule aangepas word. Beskou die volgende
Venn-diagram vir drie gebeurtenisse:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 95
Figuur 4.2: Snyding van drie gebeurtenisse
Die formule vir die snyding van hierdie drie gebeurtenisse is:
P(A∩∩∩∩B∩∩∩∩C) = P(A) x P(B) x P(C)
Beskou weer die voorbeeld hierbo genoem:
P(A) = 0.24
P(B) = 0.11
Om die snyding te bereken kan ons die formule toepas:
P(A∩∩∩∩B) = P(A) x P(B)
= 0.24 x 0.11
= 0.0264
Dit is belangrik om in ag te neem dat, omdat die rou data nie beskikbaar is nie, die formule ’n
benaderde waarde vir die snyding gee. As ons, byvoorbeeld, nie weet hoeveel Gauteng-
kliënte vir Vasvat se Wild-en-wakker-pakket geregistreer is nie, sal ons die totale
hoeveelheid kliënte in Gauteng en die totale hoeveelheid kliënte wat vir die Wild-en-wakker-
pakket geregistreer is, gebruik om die presiese snyding-waarskynlikheid te benader.
A B
C
P(A∩∩∩∩B∩∩∩∩C)
Elementêre Kwantitatiewe Metodes
96 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Probeer dit self
Beskou weer Vasvat Versekeraars se kliëntegetalle:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Vraag 1:
Deur die tabel te gebruik, bepaal die waarskynlikheid dat ’n ewekansig-gekose kliënt in
Limpopo sal woon en vir die Pasgemaakte pakket geregistreer is.
Vraag 2:
Bereken nou dieselfde waarskynlikheid wat jy in Vraag 1 hierbo bereken het, maar maak
gebruik van die formule P(A∩B) = P(A) x P(B). Hoe verskil die waarskynlikhede?
Antwoorde:
Vraag 1:
Gestel A = Die kliënt woon in Limpopo
Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer
P(A∩∩∩∩B) = +� (Lees r van die tabel af)
= 9 372 / 1 034 543
= 0.0091
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 97
Vraag 2:
Gestel ons kan nie r bloot van die tabel aflees nie – met ander woorde, die hoeveelheid
kliënte wat in Limpopo woon en vir die pasgemaakte pakket geregistreer is, is nie beskikbaar
nie. Ons sal dus nou P(A) en P(B) moet gebruik om die waarskynlikheid te benader.
Gestel A = Die kliënt woon in Limpopo
Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer
P(A) = +�
= 68 462 / 1 034 543
= 0.0662
P(B) = +�
= 95 117/ 1 034 543
= 0.092
Ons kan dan die formule gebruik om die snyding te benader:
P(A∩∩∩∩B) = P(A) x P(B)
= 0.0662 x 0.092
= 0.0061
Hoe verskil die twee waardes?
Die mees akkurate waarskynlikheid van die snyding is 0.0091. Die benaderde waarde is
0.0061. Die verskil tussen hierdie twee waardes is ’n relatief klein, naamlik 0.003 (of 0.3%).
Probeer self: Jy kan self probeer om ’n paar van die ander moontlike snydings te bereken
en dan met die formule te benader.
� Begrip 2: Samevoeging
Samevoeging behels die waarskynlikheid dat ten minste een van twee of meer
gebeurtenisse kan plaasvind. Hierdie gebeurtenisse hoef nie gelyktydig plaas te vind nie,
hoewel dit wel mag gebeur. Voorbeelde van gebeurtenisse sluit in:
• ’n Persoon is ten minste 21 jaar oud of sy ouers teken die kontrak namens hom.
Gebeurtenis A is dan Die persoon is ten minste 21 jaar oud en Gebeurtenis B is Die
persoon se ouers teken die kontrak namens hom. Dit is ook moontlik dat die persoon
se ouers namens hom teken, selfs al is hy 21 jaar oud.
Elementêre Kwantitatiewe Metodes
98 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
• Dit reën of dit hael. Gebeurtenis A is Dit reën en Gebeurtenis B is Dit hael. Dit is ook
moontlik dat dit gelyktydig kan reën en hael.
• ’n Toeris is Suid-Afrikaans of Amerikaans. Gebeurtenis A is Die toeris is Suid-
Afrikaans en Gebeurtenis B is Die toeris is Amerikaans. In sommige gevalle is dit
moontlik dat ’n toeris gedeelde burgerskap besit en die gebeurtenisse gelyktydig ook
kan plaasvind.
Daar is egter gevalle waar die twee (of meer) gebeurtenisse nie gelyktydig kan plaasvind nie
(hoewel ’n kreatiewe persoon moontlik aan uitsonderings kan dink!). Voorbeelde sluit in:
• Die ruimtevaarder is op die Aarde of op die Maan.
• Dit is nag of dit is dag (die som van hierdie twee waarskynlikhede sal natuurlik 1
wees – sien Begrip 4).
• Die student se oë is oop of die student nies.
Een woord wat in elk van hierdie stellings voorkom, is die woord “of”. “Of” word gebruik om
samevoeging van twee gebeurtenisse aan te dui. Die Venn-diagram hieronder stel
samevoeging grafies voor. Die behoort ook vir jou ’n aanduiding te gee waarom ons die
woord “samevoeging” gebruik.
Figuur 4.3: Samevoeging voorgestel deur ‘n Venn-diagram
Die twee sirkels stel die waarskynlikhede dat twee gebeurtenisse, A en B, sal plaasvind,
voor. Die grys gedeelte (wat dus die totale oppervlakte van A en B is), stel die
waarskynlikheid voor dat een of albei van A of B sal plaasvind. Die waarskynlikheid dat ten
minste een (of albei) van die gebeurtenisse sal plaasvind, is dus die som van die twee
A B
SAMEVOEGING
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 99
waarskynlikhede. Die Venn-diagram hierbo stel slegs waarskynlikhede wat wel gelyktydig
kan plaasvind, voor.
Samevoeging word deur die simbool U voorgestel. Die waarskynlikheid dat Gebeurtenisse A
of B (of beide) sal plaasvind, word deur P(AUB) voorgestel.
Daar is twee formules wat gebruik kan word om samevoeging te bereken. Die keuse van die
formule word bepaal deur die antwoord op die vraag: Is dit moontlik dat beide gebeurtenisse
tegelyk kan plaasvind? Ons sal begin deur na ’n geval te kyk waar twee gebeurtenisse nie
gelyktydig kan plaasvind nie. Die formule wat ons in hierdie geval gebruik, is:
P(AUB) = P(A) + P(B)
Voorbeeld
Die waarskynlikheid dat ’n student by ’n sekere universiteit vir ’n BCom
(Ondernemingsbestuur)-graad ingeskryf is, is 0.42. Die waarskynlikheid dat ’n student by die
universiteit vir ’n BCom (Finansiële bestuur)-graad ingeskryf is, is 0.32. Dit is nie moontlik vir
’n student om vir meer as een kwalifikasie in te skryf nie.
Wat is die waarskynlikheid dat ’n student vir ’n Ondernemingsbestuur- of Finansiële Bestuur-
kwalifikasie ingeskryf is?
Antwoord:
Gestel A = Student is ingeskryf vir Ondernemingsbestuur
Gestel B = Student is ingeskryf vir Finansiële bestuur
Die formule vir die samevoeging is bloot die som van die afsonderlike waarskynlikhede:
P(AUB) = P(A) + P(B)
= 0.42 + 0.32
= 0.74
Dit kan ook uitgedruk word as ’n persentasie van 74%.
Wanneer die twee gebeurtenisse gelyktydig kan plaasvind, ondervind ons ’n probleem. Kyk
na die volgende waarskynlikhede:
• Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep Suid-Afrikaans is, is 0.75.
• Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep Amerikaans is, is 0.30.
Elementêre Kwantitatiewe Metodes
100 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
• Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep beide Amerikaanse en
Suid-Afrikaanse burgerskap het, is 0.05.
Wat is die waarskynlikheid dat ’n toeris Suid-Afrikaans of Amerikaans (of beide) sal wees?
As ons nou die formule vir samevoeging sou toepas, sou dit soos volg lyk:
Gestel A = Die toeris is Suid-Afrikaans
Gestel B = Die toeris is Amerikaans
P(AUB) = 0.75 + 0.3
= 1.05
MAAR ons weet dat ’n waarskynlikheid nooit meer as 1 mag wees nie! Hoe het dit gebeur?
Kom ons stel hierdie geval grafies met behulp van ’n Venn-diagram voor:
Figuur 4.4: Gebeurtenisse wat nie onderling uitsluitlik is nie
Ons kan hierdie Venn-diagram nou aanpas om die spesifieke waarskynlikhede te
weerspieël:
Figuur 4.5: Waarskynlikhede van gebeurtenisse wat nie onderling uitsluitlik is nie
A = 0.75
B = 0.3 A∩∩∩∩B =0.05
A
B A∩B
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 101
Die groot verskil tussen hierdie voorbeeld en die vorige voorbeeld, is die feit dat A en B wel
gelyktydig kan plaasvind. As ons Gebeurtenis A se waarskynlikheid (0.75) in ag neem, is die
0.05 van die snydingsgedeelte daarby ingesluit. As ons Gebeurtenis B se waarskynlikheid in
ag neem, is die 0.05 van die snydingsgedeelte ook daarby ingesluit. Wanneer ons die twee
waarskynlikhede (0.75 en 0.3) bymekaartel, dan het ons dus die snydingsgedeelte twee
keer in ag geneem. Om hierdie rede moet ons die snydingsgedeelte een keer van die totaal
aftrek om die samevoeging te vind.
Die formule vir samevoeging, as dit moontlik is vir twee gebeurtenisse om gelyktydig plaas
te vind, is dus:
P(AUB) = P(A) + P(B) – P(A∩∩∩∩B)
Bogenoemde voorbeeld sal dus soos volg bereken kan word:
P(AUB) = P(A) + P(B) – P(A∩∩∩∩B)
= 0.75 + 0.3 – 0.05
= 1
In hierdie geval is die waarskynlikheid van 1 wel aanvaarbaar. Ons kan dus ook aanneem
dat daar in hierdie geval geen ander toeriste in die toergroep is as Suid-Afrikaners en
Amerikaners (of toeriste met gedeelde burgerskap) nie. Hierdie begrip (gesamentlik
uitputbaar) word later bespreek.
Probeer self
Kyk weer na die tabel wat al Vasvat se kliënte volgens provinsies en pakkette indeel.
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Elementêre Kwantitatiewe Metodes
102 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Bereken nou die volgende:
Vraag 1:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng of die Wes-
Kaap sal voorkom?
Vraag 2:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, vir die Wild-en-wakker-
pakket of die Pasgemaakte pakket geregistreer sal wees?
Vraag 3:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Vrystaat,
Noordwes of Limpopo sal woon?
Vraag 4:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng sal woon of
vir die Wild-en-wakker-pakket geregistreer sal wees?
Antwoorde:
Vraag 1:
Vir elk van die waarskynlikhede moet ons die vraag vra: Is dit moontlik vir die twee
gebeurtenisse om gelyktydig plaas te vind? Vir Vraag 1 is hierdie antwoord “nee”. Dit is nie
moontlik vir ’n kliënt om in beide Gauteng en die Wes-Kaap voor te kom nie. (Ons neem aan
dat geen kliënte twee keer in die tabel voorkom nie.) Die formule wat ons dus gaan gebruik,
is P(AUB) = P(A) + P(B).
Gestel A = Die kliënt woon in Gauteng
Gestel B = Die kliënt woon in die Wes-Kaap
Voordat ons egter die gesamentlike waarskynlikheid kan bereken, moet ons die individuele
waarskynlikhede, P(A) en P(B), bereken.
P(A) = +�
= 356 741 / 1 034 543
= 0.345
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 103
P(B) = +�
= 290 867 / 1 034 543
= 0.281
Nou kan ons die gesamentlike waarskynlikheid bereken:
P(AUB) = P(A) + P(B)
= 0.345 + 0.281
= 0.626
Daar is dus ’n waarskynlikheid van 0.626 dat ’n kliënt wat ewekansig gekies word, in
Gauteng of in die Wes-Kaap woon.
Vraag 2:
Ons moet weer die vraag vra: Is dit moontlik vir die twee gebeurtenisse om gelyktydig plaas
te vind? Is dit dus moontlik dat ’n kliënt vir meer as een pakket op een slag geregistreer is?
Omdat ons aanneem dat ’n kliënt nie twee keer in die tabel ingesluit is nie, gaan ons ook
aanneem dat dit nie moontlik is vir ’n kliënt om vir meer as een pakket op ’n slag geregistreer
te wees nie. Ons kan dus die formule P(AUB) = P(A) + P(B) gebruik.
Gestel A = Die kliënt is vir die Wild-en-wakker-pakket geregistreer
Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer
Ons moet weereens eers die afsonderlike waarskynlikhede, P(A) en P(B), bereken:
P(A) = +�
= 787 211 / 1 034 543
= 0.761
P(B) = +�
= 95 117 / 1 034 543
= 0.092
Nou kan ons die samevoeging bereken:
P(AUB) = P(A) + P(B)
= 0.761 + 0.092
Elementêre Kwantitatiewe Metodes
104 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
= 0.853
Daar is dus ’n waarskynlikheid van 0.853 (of 85.3%) dat ’n kliënt wat ewekansig gekies
word, vir ’n Wild-en-wakker-pakket of ’n Pasgemaakte pakket geregistreer sal wees.
Vraag 3:
In hierdie vraag is daar drie gebeurtenisse. Die wyse waarop hierdie vraag benader word,
verskil egter nie van die vorige twee vrae nie. Ons moet weereens bepaal of dit moontlik is
dat hierdie gebeurtenisse gelyktydig kan plaasvind. Die antwoord is weereens “nee”. Dit is
nie moontlik vir ’n kliënt om gelyktydig in die Vrystaat, Noordwes en Limpopoprovinsie te
woon nie. (Selfs al sou dit vir ’n kliënt moontlik wees om twee huise in verskillende
provinsies te besit, sou slegs een adres as die hoofadres in Vasvat se databasis voorgekom
het.)
Ons gaan dus dieselfde formule gebruik: P(AUBUC) = P(A) + P(B) + P(C)
Gestel A = Die kliënt woon in die Vrystaat
Gestel B = Die kliënt woon in die Noordwesprovinsie
Gestel C = Die kliënt woon in die Limpopoprovinsie
Ons moet natuurlik eers die afsonderlike waarskynlikhede bereken:
P(A) = +�
= 34 756 / 1 034 543
= 0.034
P(B) = +�
= 88 577 / 1 034 543
= 0.086
P(C) = +�
= 68 462 /1 034 543
= 0.066
Nou kan ons die waarskynlikhede bymekaartel om die samevoeging te vind:
P(AUBUC) = P(A) + P(B) + P(C)
= 0.034 + 0.086 + 0.066
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 105
= 0.186
Daar is dus ’n 0.186 waarskynlikheid (of 18.6%) dat ’n kliënt wat ewekansig gekies word, uit
die Vrystaat, Noordwes- of Limpopoprovinsie sal kom.
Vraag 4:
In die laaste vraag kyk ons na twee gebeurtenisse wat wel gelyktydig kan plaasvind. Ons sal
dus in hierdie geval die tweede formule moet gebruik: P(AUB) = P(A) + P(B) – P(A∩B). Dit is
moontlik vir ’n kliënt om in Gauteng te woon en terselfdertyd vir die Wild-en-wakker-pakket
geregistreer te wees.
Gestel A = Die kliënt woon in Gauteng
Gestel B = Die kliënt is vir die Wild-en-wakker-pakket geregistreer
Ons het reeds beide hierdie waarskynlikhede in Vraag 1 en 2 hierbo bereken:
P(A) = 0.345
P(B) = 0.761
Ons moet egter nou ook nou bereken wat die waarskynlikheid is dat ’n ewekansig-gekose
kliënt in Gauteng woon en vir die Wild-en-wakker-pakket geregistreer is, omdat hierdie
waarde deur die formule benodig word.
P(A∩∩∩∩B) = +�
= 289 371 / 1 034 543
= 0.280
Ons kan nou die samevoeging bereken:
P(AUB) = P(A) + P(B) – P(A∩∩∩∩B)
= 0.345 + 0.761 – 0.280
= 0.826
Daar is dus ’n waarskynlikheid van 0.826 (of 82.6%) dat ’n ewekansig-gekose kliënt in
Gauteng woon of vir die Wild-en-wakker-pakket geregistreer is (of beide).
Nota: Jy sal opmerk dat die eerste formule vir samevoeging (wat nie die snyding in ag neem
nie) ook vir jou ’n ongeldige waarskynlikheid van 1.106 (0.345 + 0761) sou gee. Die rede
hiervoor is omdat daar so ’n groot hoeveelheid kliënte is wat beide in Gauteng woon en vir
die Wild-en-wakker-pakket geregistreer is – die snyding van die twee gebeurtenisse is dus
groot.
Elementêre Kwantitatiewe Metodes
106 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
� Begrip 3: Onderling-uitsluitlike gebeurtenisse
Gebeurtenisse is onderling uitsluitlik indien die gebeurtenisse nie gelyk kan plaasvind nie.
Die volgende is voorbeelde van onderling-uitsluitlike gebeurtenisse:
• ’n Student kan geregistreer wees vir ’n BCom (Ondernemingsbestuur) of vir ’n BCom
(Finansiële bestuur)-graad, maar mag nie vir meer as een kwalifikasie op een slag
geregistreer wees nie.
• ’n Werknemer kan in een van die volgende departemente werk: Finansies, Menslike
hulpbronne, Produksie of Bemarking. Die werknemer kan egter nie in meer as een
departement werksaam wees nie.
’n Venn-diagram sal onderling-uitsluitlike gebeurtenisse soos volg voorstel:
Figuur 4.6: Venn-diagram van onderling-uitsluitlike gebeurtenisse
Uit bogenoemde Venn-diagram is dit duidelik dat A en B nooit tegelyk kan plaasvind nie
omdat die twee sirkels (en dus gebeurtenisse) nooit sny nie. Die waarskynlikheid dat A en B
gelyktydig plaasvind, is dus ’n onmoontlikheid:
P(A∩∩∩∩B) = 0
Waarom is dit belangrik om te weet of gebeurtenisse onderling uitsluitlik is? Die waarde
hiervan kan gesien word in die berekening van ’n samevoeging-waarskynlikheid. Soos
vroeër genoem, bepaal die feit dat gebeurtenisse onderling uitsluitlik is, die formule wat vir
samevoeging gebruik gaan word. As gebeurtenisse wel kan sny (en dus nie onderling
uitsluitlik is nie), word een formule gebruik. Indien dit wel onderling uitsluitlik is, word ’n ander
formule gebruik.
A
B
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 107
Probeer dit self
Beskou weer die kliëntegetalle van Vasvat Versekeraars:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Vraag:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in beide Gauteng en die
Wes-Kaap woon?
Antwoord:
Hierdie vraag kan nie met ’n formule bereken word nie. Uit die tabel is dit duidelik dat dit nie
moontlik is vir een kliënt om in Gauteng en die Wes-Kaap te woon nie. Daar is nie ’n
spesifieke sel vir kliënte in beide Gauteng en die Wes-Kaap nie. Die waarskynlikheid sal dus
nul wees:
Gestel A = ’n Kliënt woon in Gauteng
Gestel B = ’n Kliënt woon in die Wes-Kaap
P(A∩∩∩∩B) = 0
Die belangrikheid van konteks:
Om ’n vraag soos hierdie te beantwoord, is dit egter altyd nodig om die konteks rondom die
data te verstaan. As jy bloot die waarskynlikhede A en B ontvang het, sou jy die formule
gebruik het om die waarskynlikheid te bereken. Sonder konteks sou jy dan ’n
Elementêre Kwantitatiewe Metodes
108 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
waarskynlikheid gevind het. Hierdie antwoord sou egter verkeerd gewees het, bloot omdat
dit nie moontlik is vir ’n enkele kliënt om in beide Gauteng en die Wes-Kaap geregistreer te
wees nie.
� Begrip 4: Gesamentlik uitputbaar
Gebeurtenisse is gesamentlik uitputbaar indien dit alle moontlike gebeurtenisse insluit.
Voorbeelde van gesamentlik-uitputbare gebeurtenisse sluit in:
• Gebeurtenis A = Die skrywer lewe.
Gebeurtenis B = Die skrywer is oorlede.
Daar is nie enige ander moontlike gebeurtenisse wat nie by A of B ingesluit is nie.
Die waarskynlikheid dat A of B waar is, is dus 1 (of 100%).
• Gebeurtenis A = Die kliënt is 21 jaar of jonger.
Gebeurtenis B = Die kliënt is ouer as 21 jaar en jonger as 35.
Gebeurtenis C = Die kliënt is 35 en ouer, maar jonger as 55.
Gebeurtenis D = Die kliënt is 55 jaar en ouer.
Dit is nie moontlik vir ’n kliënt om enige ouderdom te besit wat nie by een van die
bogenoemde gebeurtenisse inpas nie. Die waarskynlikheid vir A of B of C of D om
waar te wees, is 1.
Die belangrikste eienskap van gesamentlik-uitputbare gebeurtenisse is die feit dat die som
van die waarskynlikhede van hierdie gebeurtenisse 1 sal wees. Beskou weer die laaste punt
wat hierbo genoem word:
Gestel A = Die kliënt is 21 jaar of jonger
Gestel B = Die kliënt is ouer as 21 jaar en jonger as 35
Gestel C = Die kliënt is 35 en ouer, maar jonger as 55
Gestel D = Die kliënt is 55 jaar en ouer
Deur na die bogenoemde gebeurtenisse te kyk, is dit onmoontlik om aan enige gebeurtenis
te dink (ten opsigte van die kliënte se ouderdomskategorie) wat nie by een van die
bogenoemde ingesluit is nie. Dus kan ons sê dat:
P(AUBUCUD) = P(A) + P(B) + P(C) + P(D) = 1
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 109
Probeer self
Die volgende waarskynlikhede word verskaf:
P(A) = 0.22
P(B) = 0.44
P(C) = 0.13
P(D) = 0.19
P(E) = ?
Dit is bekend dat A, B, C, D en E gesamentlik uitputbaar is.
Bereken P(E).
Antwoord:
Die belangrikste leidraad wat benodig word om hierdie vraag te beantwoord, is die feit dat
die gebeurtenisse gesamentlik uitputbaar is. As gevolg van hierdie feit, mag ons aanvaar dat
die som van al die waarskynlikhede gelyk is aan 1. Sodoende kan ons die uitstaande
waarskynlikheid bereken:
P(AUBUCUDUE) = P(A) + P(B) + P(C) + P(D) + P(E) = 1
Dus:
0.22 + 0.44 + 0.13 + 0.19 + P(E) = 1
Ons kan nou die eenvoudige wiskundige vergelyking oplos deur P(E) as ’n onbekende
veranderlike te hanteer:
0.22 + 0.44 + 0.13 + 0.19 + P(E) = 1
0.98 + P(E) = 1
P(E) = 1 – 0.98
= 0.02
Dus is die waarskynlikheid dat P(E) gaan plaasvind 0.02 (of 2%).
Ons kan ons antwoord toets deur al die waarskynlikhede nou bymekaar te tel. As die totaal 1
is, is ons antwoord korrek omdat die gebeurtenisse gesamentlik uitputbaar is.
P(A) + P(B) + P(C) + P(D) + P(E)
= 0.22 + 0.44 + 0.13 + 0.19 +0.02
= 1
Elementêre Kwantitatiewe Metodes
110 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Terug na Vasvat Versekeraars
Beskou weer Vasvat Versekeraars se kliënte-inligting:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Vraag:
Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies is, vir die Wild-en-wakker-
pakket, die Vat-dit-kalm-pakket, die Kleindorpie-kind-pakket of die Pasgemaakte pakket
geregistreer sal wees?
Antwoord:
Uit die samestelling van die data is dit duidelik dat al 1 034 543 kliënte vir een van die vier
pakkette geregistreer is. Die vier gebeurtenisse is dus gesamentlike uitputbaar. Ons kan
hierdie stelling egter statisties toets:
Gestel A = Die kliënt is vir die Wild-en-wakker-pakket geregistreer
Gestel B = Die kliënt is vir die Vat-dit-kalm-pakket geregistreer
Gestel C = Die kliënt is vir die Kleindorpie-kind-pakket geregistreer
Gestel D = Die kliënt is vir die Pasgemaakte pakket geregistreer
Ons moet nou elke waarskynlikheid afsonderlik bereken:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 111
P(A) = +�
= 787 211 / 1 034 543
= 0.7609
P(B) = +�
= 50 223 / 1 034 543
= 0.0485
P(C) = +�
= 101 992 / 1 034 543
= 0.0986
P(D) = +�
= 95 117 / 1 034 543
= 0.0919
Om die samevoeging te bereken, gebruik ons die formule vir gebeurtenisse wat onderling
uitsluitlik is, omdat dit nie moontlik is vir ’n enkele kliënt om vir meer as een pakket
geregistreer te wees nie:
P(AUBUCUD) = P(A) + P(B) + P(C) + P(D)
= 0.7609 + 0.0485 + 0.0986 + 0.0919
~ 1
� Begrip 5: Voorwaardelike waarskynlikhede
Met ’n voorwaardelike waarskynlikheid word ’n aanname ten opsigte van een van die
veranderlikes gemaak. Hierdie aannames word as ’n gegewe aanvaar en die
waarskynlikheid word dan bereken. ’n Voorwaardelike waarskynlikheid kan soos volg lyk:
• ’n Ewekansig-gekose kliënt woon in die Wes-Kaap. Wat is die waarskynlikheid dat
daardie kliënt vir die Pasgemaakte pakket geregistreer is?
• Gegewe dat ’n ewekansig-gekose kliënt vir die Wild-en-wakker-pakket geregistreer
is. Wat is die waarskynlikheid dat daardie kliënt in Gauteng woon?
Elementêre Kwantitatiewe Metodes
112 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
• Gegewe dat ’n ewekansig-gekose kliënt nie in die Limpopoprovinsie woon nie. Wat is
die waarskynlikheid dat daardie kliënt vir die Vat-dit-kalm-pakket geregistreer is?
Indien ’n tabel, soos in die geval van Vasvat Versekeraars se kliënte, beskikbaar is, is ’n
voorwaardelike waarskynlikheid maklik om te bereken. Dieselfde formule kan gebruik word
(+�). Die enigste verskil is die feit dat ons die getalle van ’n kleiner steekproef gebruik.
Voorbeeld
Beskou die kliëntetabel van Vasvat Versekeraars:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt vir die Vat-dit-kalm-pakket
geregistreer is, gegewe dat hierdie kliënt in die Wes-Kaap woon?
Omdat ons dus nou weet dat die kliënt in die Wes-Kaap woon, hoef ons glad nie die data in
die ander provinsies in ag te neem nie. Ons kan dus soos volg na die tabel kyk:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 113
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Ons werk dus nou slegs met die Wes-Kaap se data. Die voorwaardelike waarskynlikheid
kan dus soos volg bereken word:
Gestel A = Die kliënt is vir die Vat-dit-kalm-pakket geregistreer
Gestel B = Die kliënt woon in die Wes-Kaap (gegewe)
P(A/B) = +�
= 7 384 / 290 867
= 0.025
Probeer self
Beskou die kliëntetabel van Vasvat Versekeraars:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Elementêre Kwantitatiewe Metodes
114 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Vraag 1:
Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt in die Vrystaat sal woon, gegewe
die feit dat die kliënt vir die Pasgemaakte pakket geregistreer is?
Vraag 2:
Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt vir die Wild-en-wakker-pakket
geregistreer sal wees, gegewe dat hierdie kliënt in Gauteng of die Wes-Kaap woon?
Antwoord 1:
In hierdie geval kan ons weer die meeste van die data in die tabel ignoreer en slegs fokus op
die kliëntegetalle van die Pasgemaakte pakket (gegee). Die tabel sal dan soos volg lyk:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-
Natal
94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Gestel A = Die kliënt woon in die Vrystaat
Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer (gegewe)
P(A/B) = +�
= 1 960 / 95 117
= 0.021
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 115
Antwoord 2:
In hierdie geval word die steekproef ook verklein. In plaas daarvan om een ry of kolom te
kies, word twee rye (Gauteng en Wes-Kaap) van die tabel ingesluit. Ons tabel sal dus soos
volg lyk:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Ons het egter nou die totale van die samevoeging ook nodig: Ons steekproef bestaan uit alle
kliënte in Gauteng en die Wes-Kaap. ’n Nuwe tabel met die totale sal soos volg lyk:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
TOTAAL 478 942 16 528 86 872 65 266 647 608
Gestel A = ’n Kliënt is vir die Wild-en-wakker-pakket geregistreer
Gestel B = ’n Kliënt woon in Gauteng of die Wes-Kaap
P(A/B) = +�
= 478 942 / 647 608
= 0.74
Elementêre Kwantitatiewe Metodes
116 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
� Begrip 6: Statistiese afhanklikheid
Vervolg…
Michael en Vanessa kyk na Vasvat se kliëntegetalle. Hulle is al vir twee dae besig met
waarskynlikhede en het nog nie eens na die ander data gekyk nie.
Vanessa dink skielik aan iets: “Is die provinsie waarin ’n kliënt woon en die pakket waarvoor
die kliënt ingeskryf het, statisties afhanklik?”
“Ja.”
Vanessa bars uit van die lag. “Jy het nie eers daaroor gedink nie!”
“Ek het. Gister al.”
“Ek is die ene ore. Hoe het jy tot jou gevolgtrekking gekom?”
Michael trek 'n ander lêer nader. “Ek het 'n bietjie data gaan versamel. En ’n paar
berekeninge gedoen.”
“Mooi,” sê Vanessa. “Teoretiese en statistiese argumente. Kom ons begin by die teorie.
Waarom dink jy is die twee veranderlikes afhanklik van mekaar?”
Michael dink ’n oomblik voordat hy begin praat. “Wel, ek het na die definisie van statistiese
onafhanklikheid gekyk. As die twee veranderlikes onafhanklik was, sou kliënte se keuse
van ’n pakket dieselfde gewees het, ongeag van die provinsie waarin hulle woon.”
“En jy is van mening dat dit nie geval is nie?” vra Vanessa.
Michael skud sy kop. “Daar is te veel faktore wat eie is aan ’n provinsie, wat ’n kliënt se
keuse van pakket kan beïnvloed.”
“Soos?”
“Die ouderdom van die populasie. Die misdaadsyfers. Die vlak van opleiding van die meeste
van die bevolking. Kulture. Dit maak net nie sin dat iemand se provinsie nie ’n rol kan speel
in die keuse van ’n versekeringspakket nie.”
“Sou jy dus sê dat ’n kliënt se provinsie sy of haar keuse van ’n produk beïnvloed?”
Michael huiwer vir 'n oomblik. “Ek is versigtig om so ’n stelling te maak.”
“Hoekom?”
“Want statistiese afhanklikheid beteken nie noodwendig dat die een ’n invloed op die ander
het nie. Daar kan ’n derde veranderlike wees wat ook ’n invloed op beide faktore het.”
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 117
Vanessa wag vir Michael om te verduidelik.
“Kom ons probeer ’n ander voorbeeld. Navorsers vind dat roomysverkope by ’n spesifieke
strand tydens sekere maande hoër is as ander maande. Hulle vind ook dat die verkope van
swemkostuums by dieselfde strand hoër is in dieselfde maande as roomysverkope. Is
roomysverkope en verkope van swemklere statisties afhanklik? Ja? Beïnvloed
roomysverkope die verkope van swemkostuums? Nee. Beide word deur die hoeveelheid
besoekers aan die strand beïnvloed, wat weer weer beïnvloed word deur die klimaat.”
“Goed gestel,” antwoord Vanessa. “Jy het my oortuig dat, vanuit ’n logiese of teoretiese
perspektief, provinsie en keuse van pakket van mekaar afhanklik is. Het jy enige statistiese
bewyse?”
Michael maak die lêer oop. “Inderdaad,” sê hy. “My argument is: Indien provinsie en keuse
van ’n pakket onafhanklik is, sal die waarskynlikheid dat ’n kliënt ’n pakket kies, dieselfde
bly, ongeag van die provinsie waarin die kliënt woon.”
“Dit maak sin. Hoe het jy die berekening gedoen?”
Michael skuif ’n bladsy oor die tafel na Vanessa. Vanessa sien die volgende som:
Die waarskynlikheid dat ’n ewekansig-gekose kliënt die Wild-en-wakker-pakket sal kies:
P(A) = +�
= 787 211/ 1 034 543
= 0.761
Indien ek egter vooraf weet dat die kliënt beslis in Gauteng woon, wat sal die
waarskynlikheid wees dat daardie kliënt die Wild-en-wakker-pakket kies?
P(A/B) = +�
= 289 371 / 356 741
= 0.811
Dit is dus duidelik dat die twee waarskynlikhede verskil.
Vanessa neem ’n oomblik om die opsomming te lees. “Verduidelik jou tweede
waarskynlikheid vir my. Waarom gebruik jy nie die totale hoeveelheid kliënte, die 1 034 543,
in jou berekening nie?”
“Want dit is ’n voorwaardelike waarskynlikheid. Dit is die logika van die berekening. Met
die eerste waarskynlikheid kyk ek wat die kans is dat ’n ewekansig-gekose persoon uit alle
Elementêre Kwantitatiewe Metodes
118 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
provinsies die Wild-en-wakker-pakket gaan kies. Met die tweede een skep ek ’n kleiner
steekproef – slegs die kliënte in Gauteng – en kyk of die waarskynlikheid vir ’n kliënt om die
Wild-en-wakker-pakket te kies, dieselfde bly.”
“En in hierdie geval het dit nie gebeur nie,” bevestig Vanessa.
“Presies. Die waarskynlikheid dat ’n kliënt uit die hele populasie die Wild-en-wakker-pakket
gaan kies, is kleiner as die waarskynlikheid dat iemand uit Gauteng die Wild-en-wakker-
pakket gaan kies. Dus is die waarskynlikheid wel afhanklik van die provinsie. En dus is
provinsie en keuse van ’n pakket statisties afhanklik.”
Vanessa sit glimlaggend terug. “As ’n beroep in Statistiek nie vir jou uitwerk nie, kan jy gerus
’n loopbaan in die onderwys oorweeg.”
Die formule vir die afhanklikheidstoets wat Michael hierbo gebruik het, kan soos volg
voorgestel word:
P(A/B) = P(A)
Die voorwaardelike waarskynlikheid, P(A/B), kan beskryf word as: Die waarskynlikheid dat
Gebeurtenis A gaan plaasvind as ons weet dat Gebeurtenis B wel waar is. In die
bogenoemde geval was dit:
Gebeurtenis A = ’n Kliënt kies die Wild-en-wakker-pakket
Gebeurtenis B = ’n Kliënt woon in Gauteng
Dus is die vraag wat ons vra: As ons weet dat ’n kliënt in Gauteng woon, sal die
waarskynlikheid dat daardie kliënt die Wild-en-wakker-pakket kies dieselfde wees as
wanneer ons nie weet in watter provinsie hy/sy woon nie?
Om P(A/B) te bereken, gebruik ons slegs Gauteng se kliënte. Ons kyk nie eens na kliënte in
die ander provinsies nie. Daar is 356 741 kliënte in Gauteng. Wat is die waarskynlikheid dat
’n ewekansig-gekose Gauteng-kliënt die Wild-en-wakker-pakket gaan kies? Daar is tans 289
371 kliënte in Gauteng wat vir die Wild-en-wakker-pakket geregistreer is. Daarom is:
P(A/B) = +� (Slegs vir Gauteng)
= 289 371 / 356 741
= 0.811
En omdat die waarskynlikheid vir slegs Gauteng verskil van die waarskynlikheid van die hele
land, kan ons aflei dat die twee veranderlikes, provinsie en keuse van pakket, statisties
afhanklik is.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 119
4.3 Telreëls
Vervolg…
“Hallo. Michael?”
Michael word na die werklikheid terug geruk en kyk op. Vir ’n oomblik is hy verward. “Ja?”
“Ek is Sonja. Ons het so vinnig by die StatInc partytjie ontmoet.”
Dan onthou Michael wie die meisie is. “Natuurlik. Ek het jou nie sonder die lemmetjiegroen-
en-pienk rok herken nie."
Sonja word nie van stryk gebring nie. “Dit was die tema van die partytjie.”
“’n Kleurvolle toekoms. En toe daag ek op met ’n professor se toga.”
Sonja lag. “Opvoeding is die belangrikste pad na ’n kleurvolle toekoms.”
“Ek is bly jy het die simboliek raakgesien. Opleiding is nie die enigste pad na sukses nie,
maar dit help baie.”
“Ja, dit, en as jy die maatskappy se lotery wen.”
Michael het nog nie van die maatskappy se lotery gehoor nie. Sonja merk dit op en
verduidelik.
“Daar is elke jaar ’n kompetisie waaraan personeel kan deelneem.” Sonja gaan sit sonder
om uitgenooi te word. Nie dat Michael omgee nie – almal is mal oor die vrolike meisie van
Bemarking. “Een personeellid kan op ’n gratis toer na drie Europese lande gaan. Al wat jy
moet doen, is om te raai watter drie lande hierdie jaar deel van die toer uitmaak. Die een wat
die regte drie lande raai, kan op die toer gaan.”
“Ek neem aan studente wat hul internskap doen, kwalifiseer nie.”
“Wel, die een wat wen mag vier vriende saamneem.”
Michael se hart maak ’n sprong. Dit is een van sy grootste drome om oorsee te gaan. En sy
gunsteling bestemming is juis Europa. Hy is nie seker of hy Sonja reg verstaan het nie.
“Waar pas ek in die prentjie in?”
“Wel, as jy my help wen, dan kan jy saamkom.”
“Hoe is ek veronderstel om dit reg te kry?”
“Jy is die statistikus. Jy behoort te weet. Watter lande het die grootste kans om gekies te
word?”
Elementêre Kwantitatiewe Metodes
120 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
“Jy kry nie baie met Statistiek te doen nie, né?" Michael se stem is vriendelik. Sonja lag
weer.
“As ek ’n statistikus was, sou ek nie nou hier gewees het nie. Ek sou myself kon help.”
Michael oorweeg dit ’n oomblik. “Uit hoeveel lande kan jy kies?”
Sonja bring ’n lys te voorskyn. “Daar is twaalf lande. Ek moet drie kies.”
“Die eerste stap sal wees om te bepaal wat jou kanse is om die regte lande te kies, sou elke
lande ewekansig gekies word.”
“Ewekansig?”
“Random. Lukraak. Elke land se kans om gekies te word, is ewe groot.” Michael gryp sy
sakrekenaar en ’n stuk papier. Sonja hou hom geïnteresseerd dop. Na ’n rukkie gee Michael
vir haar die papier.
“Jou kans om die regte drie lande te kies is 0.0045. Dit is minder as ’n halfpersent.”
Sonja kyk hom geskok aan. “Hoe weet jy dit?”
“Jou kans is een uit 220.”
Sonja is nog steeds verward. Michael verduidelik.
“Die berekening wat ek gebruik het, is ’n kombinasie,” sê hy. “Ek het gaan uitwerk hoeveel
verskillende kombinasies van lande jy kan raai. Uit ’n groep van twaalf, kan jy 220 moontlike
kombinasies kies.”
“En hoe kom jy by die halfpersent uit?”
“Minder as ’n halfpersent. Wel, uit daardie 220 moontlike kombinasies, is daar slegs een
kombinasie wat reg is. So jy het ’n kans van een uit 220 om die regte kombinasie te kies.
Jou waarskynlikheid van die korrekte keuse is dus een gedeel deur 220.”
“Dis onmoontlik,” sê Sonja, afgehaal.
“Dis makliker as die nasionale lotery. Daar is jou kanse 0.0000072 persent, met meer as 13
miljoen verskillende kombinasies. Jy kan bly wees dat jy nie die lande in ’n spesifieke
volgorde moet plaas nie. Dit sou die waarskynlikheid nog laer gemaak het.”
“Minder as ’n halfpersent is nog steeds baie laag.”
“Jammer,” sê Michael, “maar jou kans om ryk te word deur harde werk en innovasie is baie
groter as met ’n lotery.”
“Dan moet ek maar weer terugkom by my lessenaar. Ek het ’n berg werk wat wag.”
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 121
Sonja maak aanstaltes.
“Sonja!” Sy draai om as Michael haar terugroep.
“Kies Nederland, Frankryk en Engeland.”
“Hoekom?”
“Dit is my gunsteling lande. As jy wen, is dit die lande wat ek graag sal wil besoek.”
Sonja oorweeg dit ’n oomblik. “Parys. Londen. Amsterdam. Ek hou van die idee.”
� Wat is kombinasies?
Die voorbeeld wat hierbo genoem is, behoort ’n baie goeie aanduiding te verskaf van wat
kombinasies is. Om die hoeveelheid moontlike kombinasies te bereken, word twee
veranderlikes of waardes benodig. Die eerste is die hoeveelheid voorwerpe waaruit gekies
kan word. In die StatInc-kompetisie is dit die twaalf lande waaruit Sonja moet kies. Hierdie
waarde word deur die simbool n voorgestel.
Die tweede veranderlike wat nodig is, is die hoeveelheid voorwerpe wat gekies kan word. In
StatInc se kompetisie, moet Sonja drie lande kies. Hierdie waarde word met die simbool r
voorgestel.
• Faktoriaal
Voordat die formule vir ’n kombinasie bespreek kan word, is dit eers belangrik om te
verduidelik wat ’n faktoriaal is. Faktoriaal word deur ’n uitroepteken (!) voorgestel. Die
faktoriaal van enige getal is die produk (vermenigvuldiging) van al die positiewe heelgetalle
wat kleiner as daardie getal is. Byvoorbeeld:
Vyf faktoriaal is 5 x 4 x 3 x 2 x 1, wat 120 is. Die som sal soos volg voorgestel word:
5!
= 5 x 4 x 3 x 2 x 1
= 120
Probeer dit self
Vraag 1:
Bereken 3!
Vraag 2:
Elementêre Kwantitatiewe Metodes
122 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Bereken 10!
Antwoord 1:
3!
= 3 x 2 x 1
= 6
Antwoord 2:
10!
= 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1
= 3 628 880
Let wel: Die faktoriaal van 0 sal altyd 1 wees. Dus 0! = 1.
Formule vir ’n kombinasie:
’n Kombinasie se formule kan soos volg voorgestel word:
nCr = �!+!�� � +�!
Soos hierbo genoem, stel die simbole die volgende voor:
• n is die totale hoeveelheid objekte of voorwerpe waaruit gekies kan word.
• r is die hoeveelheid objekte of voorwerp wat gekies moet word.
Die belangrikste eienskap van ’n kombinasie is dat die volgorde waarin die objekte of
voorwerpe gekies word nie belangrik is nie.
Hoe het Michael die hoeveelheid kombinasies waarvolgens lande gekies kan word,
uitgewerk? Vir hierdie som het Michael twee waardes nodig gehad, naamlik n en r:
• n is 12, omdat daar twaalf lande is waaruit Sonja kan kies.
• r is 3, omdat Sonja drie lande moet kies.
Nou kan die formule toegepas word:
nCr = �!+!�� � +�!
12C3 = ��!�!��� � ��!
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 123
= ��� ��� ���� ���� ��
= 220
Daar is dus 220 verskillende kombinasies van lande wat gekies kan word. Voorbeelde van
kombinasies wat Sonja kan kies is:
• Engeland, Frankryk, Nederland
• Engeland, Frankryk, België
• Engeland, Nederland, België
• Frankryk, Nederland, België
• Engeland, Duitsland, Nederland
Elk van die bogenoemde is ’n kombinasie, en daar is 220 van hierdie kombinasies wat
moontlik gekies kan word. Wat is die waarskynlikheid dat een van hierdie kombinasies
gekies kan word?
Die waarskynlikheid dat een spesifieke kombinasie gekies kan word, is maklik om te
bereken: Wat is die waarskynlikheid dat, uit 220 moontlik kombinasies, een spesifieke
kombinasie ewekansig gekies kan word?
Gestel A = die korrekte een kombinasie word gekies
P(A) = 1 / 220
= 0.0045
Daar is dus ’n 0.45% kans dat Sonja die korrekte kombinasie van lande sal kies.
Probeer dit self
Vasvat Versekeraars het kliënte in al nege provinsies. Mnr. Louw is ’n bemarkingsbestuurder
by Vasvat Versekeraars. Die topbestuur van Vasvat het besluit om aan mnr. Louw drie
provinsies toe te ken. Mnr. Louw sal dan beheer oor die bemarking in daardie provinsies
bestuur. Mnr. Louw weet nie watter provinsies aan hom toegeken gaan word nie. Jy mag
aanneem dat elke provinsie dieselfde kans het om aan mnr. Louw toegeken te word.
Vraag 1:
Hoeveel verskillende moontlike kombinasies van provinsies kan aan mnr. Louw toegeken
word?
Vraag 2:
Elementêre Kwantitatiewe Metodes
124 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Wat is die waarskynlikheid dat Gauteng, Vrystaat en die Limpopoprovinsie aan mnr. Louw
toegeken gaan word?
Antwoord 1:
Daar is nege provinsies en elk het dieselfde kans om in ’n groep van drie provinsies ingesluit
te word. Die bestuur moet dus drie provinsies uit nege moontlike provinsies kies. Die
hoeveelheid moontlike kombinasies van drie provinsies moet dus bereken word. Die
volgorde van die provinsies is nie belangrik nie. Voorbeelde van hierdie kombinasies is:
• Gauteng, Vrystaat, Wes-Kaap
• Gauteng, Wes-Kaap, Limpopo
• Wes-Kaap, Vrystaat, Noord-Kaap
• ...en nog baie meer
Om die hoeveelheid kombinasies te bereken, kan die formule gebruik word:
nCr = �!+!�� � +�!
waar:
• n = 9
• r = 3
9C3 = �!�!�� � ��!
= ��� �� ���
= 84
Daar is dus 84 moontlike kombinasies van provinsies wat aan mnr. Louw toegeken kan
word.
Antwoord 2:
Een van die 84 kombinasies wat aan mnr. Louw toegeken kan word, is Gauteng, Vrystaat en
Limpopo. Die waarskynlikheid dat hierdie kombinasie toegeken word, is dus een uit 84.
Gestel A = Gauteng, Vrystaat en Limpopo word aan mnr. Louw toegeken
P(A)
= 1 / 84
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 125
= 0.012
Daar is dus ’n 1.2% kans dat mnr. Louw as bemarkingsbestuurder oor Gauteng, Vrystaat en
die Limpopoprovinsie aangestel kan word.
� Permutasies
Vervolg…
“Ek het ’n interessante gesprek met Vasvat Versekeraars gehad,” begin Vanessa tydens
haar en Michael se daaglikse ontmoeting vir koffie voor werk.
“Ek dink enige gesprek met Vasvat Versekeraars is interessant,” sê Michael.
Vanessa gee toe. “Hierdie gesprek was egter met hul bemarkingsbestuurder. Hy het my
raad gevra oor die uitleg van hul stalletjies by ’n finansiële kongres.”
“Wat het dit met statistiek te doen?”
“Nie veel nie. Hulle benodig ’n hele stalletjie per pakket. Hy wou weet wat die beste volgorde
is om hul pakkette uit te stal. Een stalletjie is by die deur en die ander is ’n paar treë verder.
Die Wild-en-wakker-pakket is die gewildste. Die kans is dus goed dat voornemende kliënte
daarin sal belangstel. Die Pasgemaakte pakket is nog baie nuut en hulle wil dit behoorlik
bemark. En dan is daar nog genoeg redes om die ander pakkette ook in te sluit.”
“En hulle wil weet wat die beste volgorde is waarin hul pakkette uitgestal kan word?”
“Die probleem is: Hulle het net twee stalletjies en kan dus net twee pakkette uitstal. Hulle
moet dus eers besluit watter twee pakkette hulle gaan uitstal, en dan die volgorde waarin dit
uitgestal gaan word. Watter een is eerste – en dus naby die deur – en watter pakket is
tweede.”
“Wat het jy gesê?” vra Michael, wat self nie weet wat hy in die situasie sou doen nie.
“Ek het vir hom gesê dat daar ’n 8.3% kans is dat die Wild-en-Wakker-pakket eerste sou
wees, gevolg die pasgemaakte pakket. Toe het ek genoem dat ek ’n statistikus is en nie ’n
bemarkingsbestuurder nie en nog koffie bestel.”
Michael bars uit van die lag. “Ek kan nie glo wat ek hoor nie. Was hy omgekrap?”
“Nee, hy wou dadelik meer weet van permutasies en kort voor lank was die
bemarkingsprobleem vergete.”
Elementêre Kwantitatiewe Metodes
126 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
• Wat is ’n permutasie?
’n Permutasie is soortgelyk aan ’n kombinasie. Vir enige gegewe datastel sal daar egter
meer permutasies as kombinasies wees. Met ’n permutasie sal die volgorde waarin die
verskillende objekte gekies word, van belang wees.
Gestel daar is vier persone waarvan drie vir ’n spesifieke span gekies moet word: Adam,
Bessie, Carel en Danelle. Die verskil tussen kombinasies en permutasies kan in die
volgende tabel voorgestel word:
Kombinasies
(Alle moontlikhede, volgorde is nie belangrik
nie)
Permutasies
(Volgorde is belangrik)
Die span bestaan uit: Adam, Bessie en Carel Plek A: Adam
Plek B: Bessie
Plek C: Carel
Die span bestaan uit: Adam, Bessie en
Danelle
Plek A: Adam
Plek B: Carel
Plek C: Bessie
Die span bestaan uit: Adam, Carel en
Danelle
Plek A: Carel
Plek B: Adam
Plek C: Bessie
Die span bestaan uit: Bessie en Carel en
Danelle
Plek A: Carel
Plek B: Bessie
Plek C: Adam
Plek A: Bessie
Plek B: Adam
Plek C: Carel
Plek A: Bessie
Plek B: Carel
Plek C: Adam
En nog 18 ander moontlik permutasies as
ons Danelle ook in berekening bring!
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 127
Wanneer die volgorde van die keuses wat gemaak word, belangrik is, is daar dus baie meer
moontlikhede wat gekies kan word. Dit is om hierdie rede dat Michael vir Sonja gesê het dat
sy bly kan wees dat die lande nie in ’n spesifieke volgorde gekies moet word nie.
Die formule vir ’n permutasie lyk soos volg:
nPr = �!���+�!
Hier stel n weereens die hoeveelheid objekte waaruit gekies kan word, voor. r stel die
hoeveelheid objekte wat gekies moet word, voor. In die geval van die voorbeeld in die tabel
hierbo, is daar dus vier moontlike persone wat vir die span gekies kan word (n = 4). Drie
persone moet gekies word (r = 3). Die belangrikste aanduiding dat permutasies se formule
gebruik moet word, is die aanduiding dat volgorde belangrik is. [Adam, Bessie, Carel] sal
verskil van [Bessie, Carel, Adam]. Dit is natuurlik nie die geval by kombinasies nie. In so ’n
geval sal [Adam, Bessie, Carel] presies dieselfde kombinasie as [Bessie, Carel, Adam] wees
en slegs een keer getel word.
Ons kan dus nou die bogenoemde permutasie soos volg bereken:
nPr = �!���+�!
waar:
• n = 4
• r = 3
4P3 = �!�����!
= 24 / 1
= 24
Daar is dus 24 moontlike wyses waarop drie van die vier persone gekies kan word as die
volgorde waarin hulle gekies word, belangrik is.
Wat is die waarskynlikheid dat drie persone soos volg gekies kan word?
• Plek A: Adam
• Plek B: Bessie
• Plek C: Carel
Elementêre Kwantitatiewe Metodes
128 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Ons weet dat daar 24 verskillende permutasies is waarvan hierdie slegs een is. Die
waarskynlikheid dat hierdie permutasie gekies kan word, is dus 1 uit 24. Die waarskynlikheid
kan dus soos volg bereken word:
Gestel A = Die volgende permutasie word gekies:
• Plek A: Adam
• Plek B: Bessie
• Plek C: Carel
P(A) = 1 / 24
= 0.042
Daar is dus ’n waarskynlikheid van 0.042 (of 4.2%) dat Adam in Plek A, Bessie in Plek B en
Carel in Plek C, uit Adam, Bessie, Carel en Danelle gekies sal word.
Vasvat se bemarking
Hoe het Vanessa by die 8.3% uitgekom?
Vasvat het vier pakkette waaruit hulle twee moet kies. Die volgorde waarin hierdie twee
pakkette gerangskik moet word, is belangrik. Ons moet dus die permutasies bereken.
4P2 = �!�����!
= 24 / 2
= 12
Daar is dus twaalf permutasies.
Wat is die waarskynlikheid dat die volgende permutasie gekies sal word?
• Eerste: Wild-en-wakker-pakket
• Tweede: Pasgemaakte pakket
Hierdie is een van die twaalf permutasies. Daar is dus ’n 1 uit 12 kans dat hierdie permutasie
gekies kan word.
Gestel A = Die volgende permutasie word gekies:
• Eerste: Wild-en-wakker-pakket
• Tweede: Pasgemaakte packet
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 129
P(A) = 1 / 12
= 0.083
Daar is dus ’n 0.083 (of 8.3%) kans dat die Wild-en-wakker-pakket eerste uitgestal sal word,
gevolg deur die Pasgemaakte pakket.
Ten slotte
Hierdie hoofstuk het ’n deeglike inleiding tot waarskynlikhede verskaf. Waarskynlikhede
word egter nie altyd op hierdie wyse bereken nie. Die volgende hoofstuk sal
waarskynlikheidverspreidings gebruik om waarskynlikhede te bereken. In hierdie hoofstuk
het ons slegs twee waardes gebruik: r en n. Ons het bestaande of historiese data gebruik
om die waarskynlikhede te bereken.
Deur na die aard van data te kyk, is dit egter moontlik om te sien dat sekere gebeurtenisse
patrone volg. Hierdie patrone kwalifiseer die waarskynlikheid om deur middel van ’n
spesifieke formule of waarskynlikheidverspreiding opgelos te word.
Hierdie drie verspreidings sal in die volgende hoofstuk bespreek word.
Elementêre Kwantitatiewe Metodes
130 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)
Notas
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 131
HHOOOOFFSSTTUUKK 55:: WWAAAARRSSKKYYNNLLIIKKHHEEIIDDVVEERRSSPPRREEIIDDIINNGGSS
Onderwerpe
5.1 Inleiding
5.2 Die binominale verspreiding
5.3 Die Poisson-verspreiding
Wat is ‘n Poisson-verspreiding?
5.4 Die normaalverdeling
Wat is ‘n normaalverdeling?
Wat is kontinue data?
Twee tipes normaalverdelings
Elementêre Kwantitatiewe Metodes
132 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
5.1 Inleiding
Soos aan die einde van Hoofstuk 4 genoem is, is dit redelik eenvoudig om ’n marginale
waarskynlikheid te bereken. ’n Marginale waarskynlikheid word deur die volgende formule
bereken:
P = +�
Om ’n marginale waarskynlikheid te bereken het ons dus net ’n waarde vir n en ’n waarde vir
r nodig. Beskou nou die volgende vrae:
• Wat is die waarskynlikheid dat ’n masjien meer as drie keer per jaar sal breek as dit
bekend is dat ’n masjien gemiddeld twee keer per jaar breek?
• Wat is die waarskynlikheid dat drie uit vyf kliënte ’n produk sal koop as die
waarskynlikheid dat een kliënt die produk sal koop, 0.4 is?
Hierdie waarskynlikhede is ietwat meer kompleks. Hierdie tipe waarskynlikhede word met
ander tegnieke opgelos.
Wanneer ’n waarskynlikheid (of die waarskynlikheidsprobleem) aan sekere vereistes
voldoen, is dit moontlik om dit as ’n waarskynlikheidverspreiding te klassifiseer. Sodra ’n
spesifieke waarskynlikheid wat bereken moet word, deel van ’n waarskynlikheidverspreiding
uitmaak, kan daardie waarskynlikheid met behulp van ’n spesifieke formule opgelos word.
Elke waarskynlikheidverspreiding het sy eie stel voorwaardes en formule. Drie belangrike
waarskynlikheidverspreidings is:
• die binominale verspreiding
• die Poisson-verspreiding
• die normaalverdeling
Die laaste verdeling is veral van belang vir hierdie vak omdat dit die grondslag vorm vir
berekeninge wat in die res van hierdie gids behandel gaan word. Elke
waarskynlikheidverspreiding sal hieronder bespreek word:
5.2 Die binominale verspreiding
Ons lees verder…
“Hy is regtig goed,” fluister Michael.
“Hy is obsessief oor sy besigheid,” fluister Vanessa terug.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 133
Michael en Vanessa is genooi na een van Vasvat se bemarkingsessies. Walter Blignaut, die
bemarkingsbestuurder van Vasvat Versekeraars, is besig om ’n groep kliënte toe te spreek.
“Wie het al versekering oor die foon probeer koop?” vra Walter die groep kliënte. “Dit neem
ten minste ’n halfuur se telefoongesprek! Tyd wat jy aan iets anders kon spandeer. Dit is
waar Vasvat Versekeraars ander is. Baie anders. En beter.”
Vanessa neem ’n stukkie papier en skryf vir Michael ’n boodskap. Hoeveel mense dink jy
gaan Vasvat-produkte koop? Michael antwoord, sonder om te dink: Almal. Vanessa is vir ’n
oomblik stil. Watter pakket sal hulle koop? skryf sy.
Michael kyk vir ’n oomblik na die verskillende kliënte wat meegevoer is deur Walter se
passievolle aanbieding. Beslis Vat-dit-kalm. Ten minste die helfte van hulle is ouer as
veertig. Vanessa glimlag: Wil jy wed?
Ek is ’n statistikus. Ek dobbel nie, is al antwoord wat sy kry.
“Wat is die waarskynlikheid dat agtien persone die Vat-dit-kalm-pakket gaan kies?” fluister
Vanessa vir hom.
“Hoekom agtien?” fluister Michael terug.
Vanessa glimlag net. Michael trek ’n nuwe vel papier nader. Hy is in sy noppies: uiteindelik
iets om hom mee besig te hou. Hy skryf die volgende op die papier:
Hoeveelheid persone: 20
Waarskynlikheid dat iemand die Vat-dit-kalm-pakket kan kies? Geskat
op 0.049 (provinsies onbekend?!)
Sukses = ’n Persoon kies Vat-dit-kalm
Mislukking = ’n Persoon kies nie Vat-dit-kalm nie
Binominale verspreiding!! x = 18
Na ’n rits berekeninge wys hy die papier vir Vanessa:
Daar is ’nDaar is ’nDaar is ’nDaar is ’n 0.00013 waarskynlikh0.00013 waarskynlikh0.00013 waarskynlikh0.00013 waarskynlikheid dat 18 persone die Vateid dat 18 persone die Vateid dat 18 persone die Vateid dat 18 persone die Vat----ditditditdit----kalmkalmkalmkalm----
pakket gaan kies. pakket gaan kies. pakket gaan kies. pakket gaan kies.
Vanessa se oë rek: Michael hou nooit op om haar te beïndruk nie.
Die binominale verspreiding word gebruik om waarskynlikhede op te los waar slegs twee
uitkomste – ’n sukses en ’n mislukking – kan plaasvind. Die eienskappe van ’n binominale
Elementêre Kwantitatiewe Metodes
134 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
verspreiding (en dus die vereistes vir ’n spesifieke scenario om met die binominale
verspreiding opgelos te word) is:
• Daar moet ’n gebeurtenis wees met slegs twee uitkomste: sukses en mislukking. In
die gevallestudie se geval is die gebeurtenis soos volg:
o Sukses: ’n Kliënt kies die Vat-dit-kalm-pakket
o Mislukking: ’n Kliënt kies nie die Vat-dit-kalm-pakket nie
• Die gebeurtenisse is gesamentlik uitputbaar. Dit moet dus nie moontlik wees vir
enige ander uitkoms om plaas te vind nie. In die gevallestudie hierbo is dit die geval:
’n Kliënt kan die Vat-dit-kalm-pakket kies, of die kliënt kan nie die Vat-dit-kalm-pakket
kies nie. Daar is geen ander opsie nie. As die kliënt, byvoorbeeld, besluit om die
Wild-en-wakker-pakket te kies, is dit presies dieselfde as ’n mislukking (die kliënt kies
nie die Vat-dit-kalm-pakket nie).
• Die waarskynlikheid van ’n sukses moet bekend wees. In die gevallestudie hierbo
moet die waarskynlikheid dat ’n kliënt die Vat-dit-kalm-pakket kies, bekend wees.
Ons het in die vorige hoofstuk hierdie tipe (marginale) waarskynlikheid met die tabel
en die formule bereken.
Die formule vir die binominale verspreiding is:
P(x) = nCxpx(1 – p)n-x
Hierdie formule sal deur middel van ’n voorbeeld verduidelik word.
Voorbeeld
Dit is bekend dat een uit elke vyf kliënte wat ’n sekere winkelsentrum besoek, by die
restaurant Bessie se Kombuis gaan eet. Gestel dat vyf kliënte op ’n sekere tydstip die
winkelsentrum besoek.
Vraag 1:
Wat is die waarskynlikheid dat twee van hierdie kliënte by Bessie se Kombuis gaan eet?
Vraag 2:
Wat is die waarskynlikheid dat al drie van die vyf kliënte by Bessie se Kombuis gaan eet?
Vraag 3:
Wat is die waarskynlikheid dat minder as drie van die vyf kliënte by Bessie se Kombuis gaan
eet?
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 135
Vraag 4:
Wat is die waarskynlikheid dat ten minste een van die vyf kliënte by Bessie se Kombuis
gaan eet?
Antwoorde:
Voordat ons die antwoorde vir die afsonderlike vrae kan bepaal, moet ons eers die inligting
tot ons beskikking ontleed:
Hierdie is ’n binominale verspreiding – daar is slegs twee moontlike uitkomste:
• Sukses: ’n Kliënt eet by Bessie se Kombuis.
• Mislukking: ’n Kliënt eet nie by Bessie se kombuis nie.
Dit is bekend dat een uit elke vyf kliënte wat die winkelsentrum besoek, ook by Bessie se
Kombuis gaan eet. Die waarskynlikheid van ’n sukses is dus een uit vyf:
• P(sukses) = 1/5 = 0.2
• P(mislukking) = 1 – p (sukses) = 1 – 0.2 = 0.8
• Die veranderlike x verskil van vraag tot vraag. Die veranderlike n sal vir al drie vrae
dieselfde bly:
• n = 5 (daar is vyf kliënte wat by die sentrum instap)
Antwoord 1:
Om die waarskynlikheid van twee suksesse uit die vyf te bereken, kan die formule vir ’n
binominale verspreiding gebruik word. n is, soos hierbo genoem, 5. x sal in hierdie geval 2
wees omdat ons die waarskynlikheid dat twee kliënte by Bessie se Kombuis eet, wil bepaal.
Ons pas dus nou die binominale verspreiding se formule soos volg toe:
P(x) = nCxpx(1 – p)n-x
Met x = 2; n = 5, p = 0.2
P(x = 2) = 5C2(0.2)2(0.8)5-2
= �!�!�����! (0.2)2(0.8)5-2
= 10(0.04)(0.512)
= 0.2048
Daar is dus ’n 0.2048 (of 20.48%) waarskynlikheid dat twee uit die vyf kliënte sal kies om by
Bessie se Kombuis te eet.
Onthou: 5C2 stel die kombinasie,
soos in die vorige hoofstuk
bespreek, voor.
Elementêre Kwantitatiewe Metodes
136 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Antwoord 2:
Vraag 2 vra dieselfde as Vraag 1, behalwe dat x in hierdie geval 3 is. Ons sal dus weer die
formule gebruik:
P(x) = nCxpx(1 – p)n-x
Met x = 3; n = 5, p = 0.2
P(x = 3) = 5C3(0.2)3(0.8)5-3
= �!�!�����! (0.2)3(0.8)5-3
= 10 (0.008)(0.64)
= 0.0512
Daar is dus ’n waarskynlikheid van 0.0512 (of 5.12%) dat drie van die kliënte uit ’n groep van
vyf sal besluit om by Bessie se Kombuis te eet.
Antwoord 3:
Hierdie vraag is ’n bietjie moeiliker. Wat is die waarde vir x? In die vorige vrae was dit redelik
maklik om vir x te vind, maar in hierdie geval wil ons weet wat die waarskynlikheid is dat
minder as drie kliënte by Bessie se Kombuis gaan eet. Die waarskynlikheid wat ons dus wil
bereken is:
P(x < 3)
Hoe word dit gedoen? Om hierdie vraag te beantwoord sal ons eenvoudig al die waardes
van x wat kleiner is as 3 moet gebruik en die verskillende binominale waarskynlikhede
bereken. Die berekening kan met die volgende vergelyking verduidelik word:
P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2)
Die waarskynlikheid dat P<3 is, is dus dieselfde as die som van al die waarskynlikhede waar
x kleiner is as 3. Ons moet dus drie waarskynlikhede bereken. Jy kan self P(x = 0) en
P(x = 1) bereken – gebruik die formule soos by Vraag 1 en 2 hierbo gedoen is. Ons het
reeds P(x = 2) in Vraag 1 hierbo bereken. Jy behoort die volgende waardes te verkry:
P(x = 0) = 0.3277
P(x = 1) = 0.4096
P(x = 2) = 0.2048
Die finale waarskynlikheid kan dus nou soos volg bereken word:
P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2)
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 137
= 0.3277 + 0.4096 + 0.2048
= 0.9421
Daar is dus ’n waarskynlikheid van 0.9421 (of 94.25%) dat minder as drie van die vyf kliënte
wel by Bessie se Kombuis gaan eet.
Antwoord 4:
Hier wil ons weet wat die waarskynlikheid is dat ten minste een kliënt Bessie se Kombuis
gaan besoek. Ons weet dat daar net vyf kliënte is wat by die winkel instap, daarom is die
maksimum moontlike besoekers aan Bessie se Kombuis ook vyf kliënte. Die waarskynlikheid
dat ten minste een kliënt Bessie se Kombuis besoek, is dus:
P(x > 0) = P(x = 1) + P(x = 2) + P(x = 3) + P(x = 4) + P(x = 5)
Is daar nie ’n makliker manier om hierdie waarskynlikheid te bereken nie? Om die vraag te
beantwoord benodig ons vyf verskillende waarskynlikhede wat elk bereken moet word. Daar
is egter wel ’n makliker manier!
Die maksimum kliënte wat Bessie se kombuis kan besoek, is 5. Die minimum is 0. Dit is dus
nie moontlik dat 6 of meer kliënte (of minder as 0 kliënte) Bessie se Kombuis kan besoek
nie. Die ses waarskynlikhede, P(x = 0), P(x = 1), P(x = 2), P(x = 3), P(x = 4) en P(x = 5)
verteenwoordig alle moontlike uitkomste. Ons kan dus aflei dat hierdie ses gebeurtenisse
gesamentlik uitputbaar is en alle moontlike uitkomste voorstel. Dus is die som van hierdie
gebeurtenisse gelyk aan 1.
Die waarskynlikheid dat x groter as 0 is, is dus presies dieselfde as 1 minus die
waarskynlikheid dat x gelyk aan 0 is:
P(x > 0) = 1 – P(x = 0)
Nou is daar slegs een waarskynlikheid om te bereken: P(x=0) wat ons dan van 1 kan aftrek.
P(x) = nCxpx(1 – p)n-x
Met x = 0; n = 5, p = 0.2
P(x = 0) = 5C0(0.2)0(0.8)5-0
= �!�!�����! (0.2)0(0.8)5-0
= 1 (1)(0.3277)
= 0.3277
Daar is dus ’n 0.3277 (of 32.77%) waarskynlikheid dat geen van die vyf kliënte Bessie se
Elementêre Kwantitatiewe Metodes
138 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Kombuis sal besoek nie. Die waarskynlikheid dat ten minste een kliënt wel Bessie se
Kombuis gaan besoek, is:
P(x>0) = 1 – P(x=0)
= 1 – 0.3277
= 0.6723
Daar is dus ’n waarskynlikheid van 0.6723 (of 67.23%) dat ten minste een van die vyf kliënte
Bessie se Kombuis gaan besoek.
Toets jou antwoord met Microsoft Excel
Microsoft Excel is baie nuttig om jou antwoord mee te toets. Dit is natuurlik belangrik dat jy
die waarskynlikhede met die hand kan bereken, omdat jy sodoende sal verseker dat jy die
begrippe verstaan. Vraag 1 en 3 hierbo sal gebruik word om te verduidelik hoe om Microsoft
Excel te gebruik.
Vraag 1:
Die vraag was: Wat is die waarskynlikheid dat twee van die vyf kliënte by Bessie se Kombuis
gaan eet?
Neem ook in ag dat:
• P(sukses) = 1/5 = 0.2
• P(mislukking) = 1 – P(sukses) = 1 – 0.2 = 0.8
• n = 5
• x = 2
In enige sel in Excel, sleutel nou die volgende in:
=BINOMDIST(2,5,0.2,FALSE)
Terwyl jy tik, sal jy die volgende boodskap sien:
=BINOMDIST(number_s,trials,probability_s,cumulative)
Hierdie stel die verskillende waardes voor wat in die BINOMDIST-funksie vervang moet
word:
• “number_s” stel x voor, dit is dus 2
• “trials” stel n voor, dit is dus 5
• “probability_s” stel die waarskynlikheid van ’n sukses voor, dit is dus 0.2
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 139
• “cumulative” sal met die volgende vraag verduidelik word
Vraag 3:
Verwys weer na Vraag 3: Wat is die waarskynlikheid dat minder as drie van die vyf kliënte
wel by Bessie se Kombuis gaan eet? Om die vraag op te los, het ons die volgende gedoen:
P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2)
= 0.3277 + 0.4096 + 0.2048
= 0.9421
Hierdie vraag kan egter ook met Excel se BINOMDIST-funksie opgelos word. Deur die
laaste waarde van die funksie (“cumulative”) na “TRUE” te verander, sal die funksie alle
waarskynlikhede tot en met die waarde vir “number_s” bymekaartel. As ons dus die funksie
soos volg gebruik:
=BINOMDIST(2,5,0.2,TRUE)
sal alle waarskynlikhede van x = 0 tot x = 2 (insluitend) bymekaargetel word.
Hoe het Michael sy berekening gedoen?
Kyk weer na die berekening wat Michael gedoen het. Die inligting wat Michael tot sy
beskikking gehad het was:
• Hoeveelheid persone in die vertrek: 20
• Geskat op 0.049 (sien hieronder vir ’n verduideliking)
• Sukses = ’n Persoon kies Vat-dit-kalm
• Mislukking = ’n Persoon kies nie Vat-dit-kalm nie
• Binominale verspreiding!!
Waar het Michael die waarskynlikheid gekry? Kyk weer na die tabel wat Vasvat
Versekeraars se kliëntegetalle aandui:
Wild en
wakker
Vat dit
kalm
Kleindorpie-
kind
Pasgemaak TOTAAL
Gauteng 289 371 9 144 54 187 4 039 356 741
Wes-Kaap 189 571 7 384 32 685 61 227 290 867
Noord-Kaap 14 586 6 291 590 431 21 898
Elementêre Kwantitatiewe Metodes
140 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Oos-Kaap 42 374 5 382 1 573 2 448 51 777
Vrystaat 27 463 3 458 1 875 1 960 34 756
KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465
Noordwes 72 839 2 800 3 100 9 838 88 577
Limpopo 56 132 2 480 478 9 372 68 462
TOTAAL 787 211 50 223 101 992 95 117 1 034 543
Ons kan vir eers aanneem dat die provinsies waaruit die persone in die vertrek afkomstig is,
onbekend was. (As ons elkeen se provinsie in ag wou neem, sou die berekening aansienlik
moeiliker gewees het.) Gebaseer op die bestaande inligting tot Vasvat (en Michael) se
beskikking, is daar 50 223 van die 1 034 543 kliënte wat die Vat-dit-Kalm-pakket gekies het.
Die waarskynlikheid van ’n sukses (m.a.w. dat ’n kliënt die Vat-dit-Kalm-pakket kies) is dus:
P(sukses) = 50 223 / 1 034 543
= 0.0485 (benaderd na 0.49)
Om Vanessa se vraag te beantwoord sal ons weer die binominale verspreiding se formule
gebruik:
P(x) = nCxpx(1 – p)n-x
waar:
• n = die hoeveelheid persone in die vertrek = 20
• x = 18
• p = waarskynlikheid van ’n sukses = 0.49
• 1 – p = waarskynlikheid van ’n mislukking = 0.51
P(x=18) = 20C18(0.49)18(0.51)20-18
= ��!� !����� �! (0.49)18(0.51)20-18
= 190 (0.0000265)(0.2601)
= 0.00013
Daar is dus ’n 0.00013 (of 0.13%) waarskynlikheid dat, uit die 20 kliënte, 18 die Vat-dit-
Kalm-pakket gaan kies.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 141
5.3 Die Poisson-verspreiding
Vervolg…
“Vasvat het ’n nuwe probleem.”
Michael is die ene ore. “En hulle wil hê ons moet dit oplos?”
“Ja en nee. Ons moet hulle adviseer met waarskynlikhede. Hulle sal self die probleem
uitsorteer.”
“En wat is die probleem?”
“Vasvat het ’n groot oproepsentrum. Daar is voldoende personeel om alle oproepe te
beantwoord. Maar so nou en dan is daar ’n skielike toename in oproepe.”
“Direk nadat daar ’n advertensie op die radio of televisie was?”
“Dit is die probleem: hulle kan nie vasstel wat hierdie toename veroorsaak nie. Daar is geen
duidelike oorsaak nie. Ja, daar is ’n toename in oproepe direk na ’n advertensie of na ’n
groot haelstorm, maar die bestuurder van die oproepsentrum beplan hiervoor en stel
deeltydse personeel aan.”
“Hoe gereeld gebeur dit?”
“Gemiddeld twee keer per dag.”
“En waar pas ons in die prentjie in?”
“Die bestuurder het besluit om self in te spring en telefone te beantwoord tot die oorsaak van
die skielike toenames opgespoor is.”
“So die probleem is opgelos?” Michael is nie seker waarheen Vanessa met die gevallestudie
op pad is nie.
“Ja en nee,” sê Vanessa weer. “As die oproepsentrumbestuurder die hele dag in die
oproepsentrum is, dan is daar geen probleem nie. Maar sy het ander afsprake om te maak.
En sy kan nie afsprake maak as sy nie seker is dat die oproepe soos normaal gaan verloop
nie.”
Michael snap. “Ek sien. En sy wil weet wanneer sy die oproepsentrum kan verlaat.”
Vanessa beaam. “En sy wil weet wat die waarskynlikheid is dat daar ’n derde of vierde
toename in oproepe sal wees. Moet sy elke dag wag vir vier toenames om te gebeur, of kan
sy die kantoor verlaat sodra die eerste toename in oproepe verby is?”
“Klink soos ’n waarskynlikheidverspreiding. Poisson.”
Elementêre Kwantitatiewe Metodes
142 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
“Presies. Kom ons begin met die eerste vraag: As die bestuurder na die tweede toename in
oproepe die kantoor verlaat, wat is die waarskynlikheid dat sy ’n toename in oproepe gaan
mis?”
� Wat is ’n Poisson-verspreiding?
Nie alle gebeurtenisse is binominaal nie. Deur die geval hierbo soos ’n binominale
verspreiding te hanteer, gaan Vasvat se probleem nie opgelos word nie. Vir die
bogenoemde geval sal ’n Poisson-verspreiding beter wees.
Waarskynlikhede volg ’n Poisson-verspreiding as daar ’n sekere gebeurtenis is wat ’n sekere
hoeveelheid kere binne ’n spesifieke tyd-, ruimte- of volume-interval plaasvind (Wegner,
2013: 130). Voorbeelde van vrae wat deur ’n Poisson-verspreiding beantwoord kan word,
sluit in:
• Dit is bekend dat Bessie se Kombuis gemiddeld twaalf kliënte per uur ontvang. Wat
is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie se Kombuis veertien
kliënte sal ontvang? Wat is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie
se Kombuis minder as agt kliënte sal ontvang?
• Dit is bekend dat ’n spesifieke dosent daagliks ’n gemiddeld van drie oproepe van
studente ontvang. Wat is die waarskynlikheid dat die dosent op ’n spesifieke dag
meer as vier oproepe sal ontvang? Wat is die waarskynlikheid dat die dosent tydens
’n spesifieke week (vyf dae) meer as agt oproepe sal ontvang?
Uit die twee voorbeelde hierbo genoem, is daar twee waardes ter sprake by ’n Poisson-
vraag:
• ’n Gegewe hoeveelheid gebeurtenisse tydens ’n spesifieke periode (of ruimte of
volume). Byvoorbeeld: Dit is bekend dat ’n dosent gemiddeld drie oproepe per dag
van studente ontvang. Dit is bekend dat Bessie se Kombuis gemiddeld twaalf kliënte
per uur ontvang. Hierdie waarde word met die simbool a voorgestel.
• Die x-waarde soos wat ons dit in die binominale verspreiding gebruik het. Hierdie is
die waarde wat op ’n spesifieke vraag en dus waarskynlikheid van toepassing is.
Byvoorbeeld: Wat is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie se
Kombuis veertien kliënte sal ontvang? In hierdie geval is x = 14. Ons sal dan die
waarskynlikheid P(x =14) bereken.
’n Derde waarde wat by die berekening van ’n Poisson-waarskynlikheid gebruik word, is e.
Hierdie is ’n konstante waarde en sal altyd 2.71828 wees, ongeag wat die vraag is. Die
formule vir ’n Poisson-waarskynlikheid is:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 143
P(x) = �!11�
�!
Let wel:
• e = 2.71828
• x sal altyd ’n heelgetal wees, bv. 1, 2 of 3
• a is die gemiddelde hoeveelheid keer wat ’n gebeurtenis in ’n spesifieke tyd, ruimte
of volume plaasvind
• x is die hoeveelheid kere wat die gebeurtenis sal plaasvind in die waarskynlikheid
wat bereken word
Voorbeeld
Die eienaar van ’n restaurant, Bessie se Kombuis, ontvang weekliks ’n gemiddeld van vyf
klagtes. Die restaurant is elke dag van die week (en elke week van die jaar oop).
Vraag 1:
Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis drie klagtes sal
ontvang?
Vraag 2:
Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis minder as twee
klagtes sal ontvang?
Vraag 3:
Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis meer as drie
klagtes sal ontvang?
Vraag 4:
Wat is die waarskynlikheid dat Bessie se Kombuis ’n klagte op ’n spesifieke dag sal
ontvang?
Antwoord 1:
Ons gebruik die formule vir die Poisson-verdeling:
P(x) = �!11�
�!
met:
• e = 2.71828
Elementêre Kwantitatiewe Metodes
144 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
• a = 5
• x = 3
P(x = 3) = ��.�� � �!���
�!
= �.34��5
= 0.1403
Daar is dus ’n waarskynlikheid van 0.1403 (of 14.03%) dat Bessie se Kombuis in ’n
spesifieke week drie klagtes sal ontvang.
Antwoord 2:
Die waarskynlikheid wat bereken moet word, is P(x<2). Ons moet dus die volgende
waarskynlikhede bereken:
• P(x = 0)
• P(x = 1)
Ons sal dan hierdie twee waarskynlikhede bymekaartel om P(x < 2) te vind.
Vir P(x = 0) gebruik ons die Poisson-verspreiding se formule:
P(x) = �!11�
�!
met:
• e = 2.71828
• a = 5
• x = 0
P(x = 0) = ��.�� � �!���
�!
= �.�����
= 0.0067
Vir P(x=1) gebruik ons dieselfde formule:
P(x) = �!11�
�!
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 145
met:
• e = 2.71828
• a = 5
• x = 1
P(x = 1) = ��.�� � �!���
�!
= �.�����
= 0.0337
Nou kan ons die twee waarskynlikhede bymekaartel:
P(x < 2) = P(x = 0) + P(x = 1)
= 0.0067 + 0.0337
= 0.0404
Daar is dus ’n waarskynlikheid van 0.0404 (of 4.04%) dat Bessie se Kombuis in ’n spesifieke
week minder as twee klagtes sal ontvang.
Vraag 3:
In hierdie geval is daar ’n oneindige hoeveelheid waardes vir x. Omdat daar nie ’n
maksimum vasgestel is vir die hoeveelheid klagtes wat Bessie se Kombuis in ’n week kan
ontvang nie, is dit moontlik dat 10, 20 of 100 000 klagtes ontvang sal word. Hierdie
waarskynlikhede sal natuurlik baie klein wees, maar dit moet steeds bereken word.
Hoewel dit nie moontlik is om al hierdie (oneindige) moontlike waardes van x te gebruik en
die (oneindige hoeveelheid) waarskynlikhede te bereken nie, weet ons dat alle moontlike
waardes van x ’n totale waarskynlikheid van 1 sal verskaf. Ons weet dus dat die
waarskynlikheid dat x groter is as drie, dieselfde is as 1 minus die waarskynlikheid dat x
kleiner of gelyk aan 3 sal wees. Dus:
P(X > 3) = 1 – P(x ≤ 3)
Ons moet dus nou eers P(x ≤ 3) bereken:
P(x ≤ 3) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3)
Jy kan self die waarskynlikheid P(x = 2) gaan bereken. Uit die vorige vrae is die
waarskynlikhede vir x = 0, 1 en 3 ook bekend. Die vier waarskynlikhede is:
Elementêre Kwantitatiewe Metodes
146 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
• P(x = 0) = 0.0067
• P(x = 1) = 0.0337
• P(x = 2) = 0.0842
• P(x = 3) = 0.1403
Die totale waarskynlikheid kan dus soos volg bereken word:
P(x ≤ 3) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3)
= 0.0067 + 0.0337 + 0.0842 + 0.1403
= 0.2649
Vraag 4:
Hierdie vraag is anders as die ander drie. Die eenheid waarin a gemeet is (oproepe per
week), is nie dieselfde as die eenheid waarin x gemeet word nie (oproepe per dag). Ons
moet dus eers a aanpas na dieselfde eenhede as x toe (of x aanpas vir a).
a = 5 oproepe per week
= 5 / 7 oproepe per dag (in ’n 7-dag week)
= 0.714 oproepe per dag.
Nou kan ons die formule gebruik:
P(x) = �!11�
�!
met:
• e = 2.71828
• a = 0.714
• x = 1
P(x = 1) = ��.�� � �!�.����.����
�!
= �.�����
= 0.3496
Daar is dus ’n 0.3496 (of 34.96%) waarskynlikheid dat Bessie se Kombuis een klagte op ’n
spesifieke dag sal kry.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 147
Toets jou antwoord in Microsoft Excel
Jy kan, soos wat die geval is met die binominale verspreiding, ook jou Poisson-verdeling se
antwoord toets in Microsoft Excel. Gebruik die volgende funksie:
=POISSON(1,5,TRUE)
waar:
• Die eerste waarde x voorstel (in hierdie geval 1)
• Die tweede waarde a voorstel (in hierdie geval 5)
• Die derde waarde aandui of die waarskynlikhede vir alle heelgetalle kleiner as x
bymekaargetel moet word. (In hierdie getal die waarskynlikhede vir x = 0, en 1.)
Terug by Vasvat
Kyk weer na die vraag wat deur Vasvat se oproepsentrumbestuurder gevra is. Die
oproepsentrum kry gemiddeld twee oproepe per dag. Die vraag is: As die bestuurder na die
tweede toename in oproepe die kantoor verlaat, wat is die waarskynlikheid dat sy ’n
toename in oproepe gaan misloop?
Ons wil dus weet wat die kans is dat daar nog toenames in oproepe gaan plaasvind na die
tweede toename in ’n dag. Met ander woorde, wat is die kans dat daar drie of meer
toenames op enige dag sal plaasvind? Die vraag kan voorgestel word as:
Wat is P(x>2)?
Soos ons reeds hierbo gesien het, is daar oneindige x-waardes wat groter is as 2. Ons sal
dus die formule soos volg moet gebruik:
P(x > 2) = 1 – P(x ≤ 2)
= 1 – [P(x = 0) + P(x = 1) + P(x = 2)]
Om P(x = 0) te bereken kan ons die Poisson-verdeling se formule gebruik:
P(x) = �!11�
�!
met:
• e = 2.71828
• a = 2
Elementêre Kwantitatiewe Metodes
148 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
• x = 0
P(x = 0) = ��.�� � �!���
�!
= �.�����
= 0.1353
Om P(x = 1) te bereken kan ons ook die Poisson-verdeling se formule gebruik:
P(x) = �!11�
�!
met:
• e = 2.71828
• a = 2
• x = 1
P(x = 1) = ��.�� � �!���
�!
= �.�����
= 0.2707
P(x = 2) sal soos volg bereken word:
P(x) = �!11�
�!
Met:
• e = 2.71828
• a = 2
• x = 2
P(x = 1) = ��.�� � �!���
�!
= �.�����
= 0.2707
Ons kan nou P(x>2) soos volg bereken:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 149
P(x > 2) = 1 – P(x ≤ 2)
= 1 – [P(x = 0) + P(x = 1) + P(x = 2)]
= 1 – (0.1353 + 0.2707 + 0.2707)
= 1 – 0.6767
= 0.3233
Daar is dus ’n 0.3233 (of 32.33%) waarskynlikheid dat daar meer as drie toenames op ’n
dag sal plaasvind. Die bestuurder moet dus maar liewer ’n rukkie langer in die kantoor bly en
dalk eers na die derde toename in oproepe die kantoor verlaat.
5.4 Die normaalverdeling
Die normaalverdeling is ’n belangrike waarskynlikheidsverdeling omdat dit in ’n groot mate
as basis vir alle statistiese toetse in die res van hierdie boek gebruik word. Wanneer data
deur navorsing versamel word, sal ’n statistikus gewoonlik eers toets of die data normaal
verdeel is. Indien dit wel normaal verdeel is, is daar heelwat meer statistiese toetse wat die
statistikus kan gebruik. ’n Verskeidenheid statistiese toetse kan slegs op normaalverdelings
toegepas word.
Vir alle berekeninge in die res van hierdie boek sal ons aanneem dat die data wel normaal
verdeel is.
� Wat is ’n normaalverdeling?
’n Normaalverdeling is slegs moontlik wanneer kontinue data gebruik word. Respondente se
keuse van ’n gunsteling restaurant is nie kontinu nie. Wanneer ’n groep van 200
respondente gevra word wat hul gemiddelde inkomste per maand is, sal die data wel kontinu
wees.
Kyk na die volgende data en histogram:
Kategorie Frekwensie
0 tot 10 1 500
11 tot 20 2 000
21 tot 30 2 500
31 tot 40 1 900
41 tot 50 1 400
Elementêre Kwantitatiewe Metodes
150 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Hierdie data kan soos volg as ’n histogram voorgestel word:
Figuur 5.1: Histogram van ‘n normaalverspreiding
As ons egter die kategorieë nou kleiner maak, sal die histogram soos volg lyk:
Kategorie Frekwensie
0 tot 5 700
6 tot 10 800
11 tot 15 900
16 tot 20 1100
21 tot 25 1200
26 tot 30 1300
31 tot 35 1000
36 tot 40 900
41 tot 45 800
46 tot 50 600
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 151
Figuur 5.2: Histogram met meer kategorieë
Let daarop dat die data wat versamel is, nie verander het nie. Dit is net die kategorieë wat
kleiner is.
Gestel ons raak heeltemal ontslae van al die kategorieë. Gestel ons het ’n kolom vir 1, 2, 3,
4, al die pad tot by 50. Dan sal ons ’n histogram vind wat soos volg lyk:
Figuur 5.3: Histogram met ‘n kolom vir elke heelgetal
Jy sal sien dat die kolomme al hoe nader aan mekaar kom. Hierdie laaste histogram is egter
nog steeds gebaseer op heelgetalle op die x-as. Wat as dit moontlik is vir die respondente
om reële getalle (met desimale) te verskaf? En as ons dan vir elke moontlike waarde
(desimale ingesluit) ’n kolom geskep het? Die kolomme sou so naby aan mekaar gekom het
Elementêre Kwantitatiewe Metodes
152 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
dat daar nie meer spasies tussen die kolomme sou gewees het nie. En omdat daar ’n
oneindige hoeveelheid waardes tussen enige twee heelgetalle kan voorkom, is daar ’n
oneindige hoeveelheid kolomme wat in ’n kontinue verdeling kan voorkom.
� Wat is kontinue data?
Hoeveel waardes is daar tussen 20 en 21? As ons na heelgetalle kyk, is daar geen waardes
tussen 20 en 21 nie. 21 volg direk op 20. As ons egter na kontinue waardes kyk, sal ons alle
moontlike desimale waardes insluit. Hoeveel desimale waardes is tussen 20 en 21? Daar is
20.1, 20.2, 20.3, tot by 20.9. Maar selfs tussen 20 en 20.1 is daar ’n groot hoeveelheid
waardes: 20.01, 20.02, 20.03, tot by 20.1. En so kan ons aangaan. Die waarde
20.000002228 kom ook tussen 20 en 21 voor. So ook die waarde 20.99999999999. Daar is
dus ’n oneindige hoeveelheid waardes tussen 20 en 21. Om hierdie rede sal die “kolomme”
vir die moontlike waardes wat respondente tussen 20 en 21 kon kies, ook oneindig wees.
In ’n kontinue verspreiding is daar geen spasies tussen die “kolomme” nie. Die volgende is
voorbeelde van kontinue data wat grafies voorgestel is:
Figuur 5.4: Grafiese voorstelling van kontinue data
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 153
Die normaalverdeling is ’n spesiale tipe kontinue verspreiding. In hierdie verspreiding is die
gemiddeld, mediaan en modus gelyk aan mekaar. Dit beteken dat die meeste waardes reg
in die middel van die verspreiding voorkom. Hoe verder ’n waarde van die middel (en dus
gemiddeld) af beweeg, hoe minder van hierdie waardes kom in die verspreiding voor. ’n
Normaalverdeling sal dus soos volg lyk:
Figuur 5.5: Grafiese voorstelling van ’n normaalverdeling
’n Normaalverdeling is spesiaal. Dit bevat die volgende eienskappe:
• ’n Normaalverdeling is simmetries. Dit beteken dat die linkerkant van die verdeling
(tot by die gemiddeld) presies dieselfde is as die regterkant. Ons sal later sien
waarom hierdie eienskap baie nuttig kan wees.
• Die oppervlakte van ’n normaalverdeling kan gebruik word om ’n waarskynlikheid
voor te stel. Dus: die oppervlakte tussen twee punte op ’n normaalverdeling = die
waarskynlikheid dat ’n ewekansig-gekose waarde tussen hierdie twee punte sal
voorkom. Hierdie is een van die belangrikste eienskappe van ’n normaalverdeling.
• Die oppervlakte van ’n normaalverdeling is 0. Die linkerkant (tot by die gemiddeld) se
oppervlakte is dus 0.5. Omdat die normaalverdeling simmetries is, is die regterkant
ook 0.5, soos wat in die onderstaande figuur aangedui word:
Gemiddeld
Elementêre Kwantitatiewe Metodes
154 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Figuur 5.6: Simmetrie van ’n normaalverdeling
� Twee tipes normaalverdelings
Ons onderskei hoofsaaklik tussen twee tipes normaalverdelings:
• Die standaard-normaalverdeling. Hierdie verdeling word nie tipies in praktyk
aangetref nie, maar is baie belangrik vir die berekeninge wat ons doen. Die
gemiddeld van ’n standaard-normaalverdeling is 0 en die standaardafwyking is 1.
• Normaalverdelings in praktyk. Data wat in praktyk versamel word, sal tipies nie ’n
gemiddeld van presies 0 en ’n standaardafwyking van 1 hê nie.
Bereken waarskynlikhede in ’n normaalverspreiding
Ons sal begin om waarskynlikhede te bereken deur van die standaard-normaalverdeling
gebruik te maak. Daarna sal ons, soos wat meer in die praktyk die geval is, waarskynlikhede
bereken in normaalverdelings waar die gemiddeld en standaardafwyking nie 0 en 1,
onderskeidelik, is nie. Die berekening van ’n waarskynlikheid sal met behulp van die
volgende voorbeeld verduidelik word:
Bereken ’n waarskynlikheid deur middel van die standaard-normaalverdeling
Vraag:
’n Sekere datastel is normaal verdeel met ’n gemiddeld van 0 en ’n standaardafwyking van
1. Wat is die waarskynlikheid dat ’n ewekansige waarde wat uit die verdeling gekies word,
tussen 0 en 0.22 sal voorkom?
Antwoord:
Die eerste stap sal wees om hierdie spesifieke area op ’n skets van die normaalverdeling
aan te dui. Onthou: om ’n waarskynlikheid te bereken moet ons altyd die normaalverdeling
se skets teken. Dit maak die berekening soveel makliker:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 155
Om die waarskynlikheid dat ’n waarde tussen 0 en 0.22 lê te vind, moet ons die oppervlakte
van die deel van die grafiek tussen 0 en 0.22 vind. Dit is die deel wat met vraagtekens
aangedui is. Maar hoe bereken ons hierdie oppervlakte?
Om die oppervlakte van ’n reghoek te bereken is maklik (oppervlakte = lengte x breedte).
Om ’n sirkel se oppervlakte te bereken is ook nie so moeilik nie (oppervlakte = Πr2). Maar
om die oppervlakte van die area tussen 0 en 0.22 te bereken (die deel wat met die
vraagtekens aangedui is) is ’n uitdaging.
Om hierdie rede sal daar nie van jou verwag word om self, met ’n formule, hierdie
oppervlakte te bereken nie. Aan die einde van hierdie gids word ’n tabel verskaf – al die
moontlike oppervlaktes vir ’n groot verskeidenheid waardes op die x-as word verskaf.
Bereken ’n oppervlakte met behulp van ’n z-tabel
Om die oppervlakte te bereken is dit altyd nuttig om eers die normaalverdeling te skets –
soos wat ons hierbo gedoen het. Onthou dat die oppervlaktes wat verskaf word, vir alle
waardes tussen 0 en getalle groter as 0 verskaf word. Die tabel verskaf nie oppervlaktes vir
waardes soos byvoorbeeld die volgende nie:
• tussen 0.22 en 0.33
• tussen 0 en -0.41
• groter as 0.22
• kleiner as 0.22
• tussen -0.22 en -0.33
Vir hierdie berekeninge sal ons ons begrip van ’n normaalverdeling se eienskappe moet
inspan om daardie oppervlaktes (en dus waarskynlikhede) te vind. Die waarskynlikheid dat
’n waarde tussen 0 en 0.22 sal voorkom, kan egter net so van die tabel afgelees word.
0 0.22
???
Elementêre Kwantitatiewe Metodes
156 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
0.22 staan bekend as die z-waarde. Om ’n oppervlakte (en dus waarskynlikheid) op ’n
normaalverdeling te vind, benodig ons hierdie z-waarde.
Die tabel bestaan uit ’n aantal rye en kolomme. Die struktuur van die tabel lyk soos volg:
Die eerste kolom stel die eerste twee syfers van die z-waarde voor. In ons voorbeeld se
geval sal dit die 0.2 van 0.22 wees. Die eerste ry stel die tweede desimaal van die z-waarde
voor. In ons geval sal dit die 0.02 van ons 0.22 wees. Die middelste deel van die tabel
verskaf al die verskillende oppervlaktes, gebaseer op die z-waardes. Ons vind dus die
oppervlakte (en dus die antwoord vir ons vraag) op die plek waar die 0.2-ry en 0.02-kolom
mekaar kruis.
Alle oppervlaktes vir waardes tussen 0 en 4.09 word in die z-tabel aangetref. Jy sal ook sien
dat, hoe groter die z-waarde word, hoe nader die oppervlakte (en waarskynlikheid) aan 0.5
kom. Hoe groter die spasie tussen 0 en die z-waarde word, hoe groter word die oppervlakte.
Die totale oppervlakte aan die regterkant van die normaalverdeling is 0.5 en daarom sal die
oppervlakte tussen 0 en ’n ander waarde nooit 0.5 oorskry nie.
0.087
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 157
Probeer dit self
Vraag:
Deur van die z-tabel gebruik te maak, vind die waarskynlikhede vir die volgende:
1. P(0 < z < 1.54)
2. P(0 < z < 1.96)
3. P(0 < z < 0.99)
Antwoord:
1. Die vraag benodig die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 0 en
1.54 sal lê. Die grafiek sal soos volg lyk:
Ons benodig die oppervlakte tussen 0 en 1.54. Op die z-tabel gaan soek ons die ry waar 1.5
voorkom, asook die kolom waar 0.04 voorkom (want 1.54 = 1.5 + 0.04). Waar hierdie ry en
kolom kruis, vind ons die waarde 0.4382. Hierdie is die oppervlakte wat deur die
vraagtekens in die skets voorgestel word. Die waarskynlikheid dat ’n ewekansig-gekose
waarde tussen 0 en 1.54 sal voorkom, is dus 0.4382. Belangrik: onthou dat ons in hierdie
geval aanneem dat die data normaal verspreid is, met ’n gemiddeld van 0 en
standaardafwyking van 1.
Vraag 2 en 3 word op dieselfde wyse bereken. Kyk of jy die volgende antwoorde kry:
2. P(0 < z < 1.96) = 0.475
3. P(0 < z < 0.99) = 0.3389
0 1.54
???
Elementêre Kwantitatiewe Metodes
158 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Bereken waarskynlikhede wat nie tussen 0 en z voorkom nie.
In al die bogenoemde gevalle was die oppervlakte tussen 0 en een of ander z-waarde. Dit is
egter nie altyd die geval nie. Soms is die oppervlak wat ons wil bereken in ’n ander deel van
die normaalkurwe (grafiek). ’n Paar moontlike gevalle sal hieronder bespreek word.
Geval 1:
Bereken die waarskynlikheid dat ’n ewekansig-gekose waarde groter as 1.54 is.
Antwoord:
Deur die normaalverdeling te teken kan ons duidelik sien watter waarskynlikheid (en dus
oppervlakte) ons moet bereken:
Ons wil dus die oppervlakte regs van 1.54 bereken: P (1.54 < z < ∞). Ons kan nie hierdie
waarde direk van die tabel aflees nie omdat die tabel slegs vir ons die waardes tussen 0 en
die z-waarde (in hierdie geval 1.54) verskaf. In hierdie geval soek ons die z-waarde tussen
1.54 en ∞. Ons gebruik dus nou ons kennis van die normaalverdeling om die probleem op te
los:
• Die totale oppervlak van ’n normaalverdeling is 1. Omdat die normaalverdeling egter
simmetries is aan weerskante van die gemiddeld, weet ons dus dat die oppervlakte
van die regterkant 0.5 is.
• Ons kan die oppervlakte van die gedeelte tussen 0 en 1.54 van die tabel aflees. Ons
het dit reeds hierbo gedoen en die oppervlakte 0.4382 gevind (sien skets).
Om dus die oppervlakte van die gedeelte tussen 1.54 en ∞ te vind, kan ons die 0.4382 van
0.5 aftrek. Dus:
P (1.54 < z < ∞) = 0.5 – 0.4382 = 0.0618
0 1.54
???
0.4382
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 159
Geval 2:
Wat is die waarskynlikheid dat ’n ewekansige-gekose waarde tussen 0 en -1.96 voorkom?
Antwoord:
Weereens kan die grafiese voorstelling van die normaalverdeling help om die vraag beter te
verstaan:
Die feit dat die z-waarde negatief is, dui daarop dat die oppervlakte aan die linkerkant van
die gemiddeld (en dus 0) is. Die waarskynlikheid wat ons dus wil bereken is:
P(-1.96 < z < 0)
Die eienskappe van die normaalverdeling kan ons help om hierdie probleem op te los. Ons
weet dat die normaalverdeling se twee helftes simmetries is. As ons dus die oppervlakte
tussen 0 en (positiewe) 1.96 kan bereken, sal hierdie oppervlakte presies dieselfde wees vir
die afstand tussen 0 en (negatiewe) -1.96. Ons het reeds die oppervlakte tussen 0 en 1.96
bereken: P(0 < z < 1.96) was 0.475. Dus sal die waarskynlikheid P(-1.96 < z < 0) ook 0.475
wees.
Geval 3:
Wat is die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 1.54 en 1.96 voorkom?
Antwoord:
Die normaalverdeling sal soos volg lyk:
0 -1.96
???
Elementêre Kwantitatiewe Metodes
160 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Ons is dus weereens nie op soek na ’n oppervlakte tussen 0 en ’n z-waarde nie. Ons is nou
op soek na die oppervlakte tussen twee z-waardes. Om hierdie probleem op te los is
makliker as wat dit lyk:
• Ons kan die oppervlakte tussen 0 en 1.96 van die z-tabel aflees.
• Ons kan die oppervlakte tussen 0 en 1.54 van die z-tabel aflees.
• Die oppervlakte tussen 1.54 en 1.96 is dan die verskil tussen hierdie twee
oppervlaktes.
Dus:
P(1.54 < z < 1.96) = P(0 < z <1.96) – P(0 < z < 1.54)
= 0.475 – 0.4382
= 0.0368
Geval 4:
Bereken die waarskynlikheid dat ’n ewekansig-gekose waarde tussen -1.96 en 1.54 sal val.
Antwoord:
Die normaalverdeling sal soos volg lyk:
0 1.96
???
1.54
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 161
Hier is ons op soek na ’n oppervlakte wat in beide die linker- en regterkant van die
normaalverdeling voorkom. Om hierdie oppervlakte te bereken sal ons die volgende stappe
volg:
• Bereken die oppervlakte tussen 0 en 1.54: Ons kan dit van die tabel aflees.
• Bereken die oppervlakte tussen 0 en -1.96: Omdat die linkerkant en regterkant
simmetries is, kan ons die oppervlakte tussen 0 en 1.96 (positief) van die tabel
aflees. Die oppervlakte tussen 0 en -1.96 sal dieselfde wees.
• Tel nou hierdie twee oppervlaktes bymekaar.
P(-1.96 < z < 1.54) = P (0 < z < 1.54) + P (-1.96 < z < 0)
= 0.4382 + 0.475
= 0.9132
Gebruik die oppervlakte om die z-waarde te bereken
Die z-tabel kan ook gebruik word om die z-waarde te vind as jy die oppervlakte het. Kyk na
die volgende voorbeeld:
Die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 0 en x voorkom, is 0.4505. Wat
is x?
Om hierdie vraag te antwoord kan ons bloot die oppervlakte 0.2088 in die middelste deel
van die z-tabel vind. Sodra ons die sel met die oppervlakte gevind het, kan ons die z-waarde
van die ry en kolom aflees:
0 -1.96
??????
1.54
Elementêre Kwantitatiewe Metodes
162 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Figuur 5.5: Vind van ‘n waarde op die z-tabel
Die oppervlakte van 0.2088 korrespondeer dus met die 0.5 ry en die 0.05 kolom. Die z-
waarde is dus 0.55.
Berekening van waarskynlikhede van niestandaard-normaalverdelings
In praktyk sal ons tipies nie standaard-normaalverdelings kry nie. Dink daaraan: as ons vir
respondente vra wat hul salaris is, is dit heel onwaarskynlik dat die gemiddeld R0.00 is. (As
daar een persoon is wat ’n salaris verdien, moet daar ten minste een persoon wees wat
minder as R0.00 as ’n salaris verdien!) En die standaardafwyking sal ook nie in normale
omstandighede R1.00 wees nie.
Kyk na die volgende voorbeeld:
’n Navorser het data oor ’n groep respondente se ouderdomme versamel. Hierdie data is
normaal verdeeld. Die navorser vind ’n gemiddelde ouderdom van 18 met ’n
standaardafwyking van 8 jaar. Wat is die waarskynlikheid dat ’n ewekansig-gekose
respondent tussen 18 en 32 jaar oud sal wees?
Die normaalverdeling vir hierdie geval sal soos volg lyk:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 163
Hoe nou gemaak? Daar is nie ’n z-waarde van 32 op die z-tabel nie! Die rede hiervoor is die
feit dat ons nie met ’n standaard-normaalverspreiding werk nie. Die gemiddeld is nie 0 nie,
die standaardafwyking is nie 1 nie, en dus is die 32 nie ’n z-waarde nie. Hoe bereken ons
dan die oppervlakte?
Om die oppervlakte tussen 18 en 32 te bereken, het ons ’n z-waarde nodig. 32 is nie ’n
geldige z-waarde nie, omdat die gemiddeld nie 0 is nie en die standaardafwyking nie 1 is
nie. Daar is egter ’n formule wat ons bestaande normaalverdeling kan “transformeer” na ’n
standaard-normaalverdeling en vir ons ’n z-waarde kan gee. Die formule is:
z = ��67
waar:
• x die waarde is wat na ’n z-waarde verander moet word (dus 32)
• μ die gemiddeld van ons normaalverdeling is (dus 18)
• σ die standaardafwyking voorstel (dus 8)
Die z-waarde kan dus nou soos volg bereken word:
z = ��67
= 8���33
= 1.75
Die z-waarde is dus 1.75. Ons kan nou bloot die z-waarde gebruik om die oppervlakte op die
z-tabel te vind.
P(0 < z < 1.75) = 0.4599
Daar is dus ’n waarskynlikheid van 0.4599 dat ’n ewekansig-gekose respondent se
ouderdom tussen 18 en 32 sal wees.
18 32
???
Elementêre Kwantitatiewe Metodes
164 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Probeer self
Die salarisse van ’n groot groep werknemers is normaal verdeeld, met ’n gemiddeld van
R18 500 en standaardafwyking van R1 200.
Vraag 1:
Wat is die waarskynlikheid dat ’n ewekansig-gekose werknemer se salaris tussen R18 000
en R20 000 sal wees?
Vraag 2:
Wat is die waarskynlikheid dat ’n werknemer wat ewekansig gekies word, se salaris groter
as R20 000 sal wees?
Antwoord 1:
Die eerste stap sal altyd die skets van ’n normaalverdeling insluit:
Omdat hierdie nie ’n standaard-normaalverdeling is nie, moet ons die z-waarde bereken.
z = 9�:;
= �� �����3 <��� ���
= 1.25
Ons kan nou die z-waarde van 1.25 gebruik en die waarskynlikheid van die z-tabel aflees.
P(0 < z < 1.25) = 0.3944
Daar is dus ’n waarskynlikheid van 0.3944 dat ’n ewekansig-gekose werknemer se salaris
tussen R18 500 en R20 000 sal voorkom.
R18 500 R20 000
???
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 165
Vraag 2:
Die normaalverdeling sal soos volg lyk:
Hierdie berekening behoort nie moeilik te wees nie omdat ons soortgelyke probleme met ’n
standaard-normaalverdeling hanteer het. Die berekening van die z-waarde is ook dieselfde.
Die z-waarde is 1.25. Om die oppervlakte tussen R20 000 en ∞ te bereken kan ons bloot die
oppervlakte tussen R18 500 en R20 000 van 0.5 aftrek.
Met die z-waarde van 1.25 wat ons bereken het, sal die berekening soos volg lyk:
P(1.25 < z < ∞) = 0.5 – P(0 < z < 1.25)
= 0.5 – 0.3944
= 0.1056
Onthou: sodra jy die z-waarde bereken het, word die oppervlakte op presies dieselfde wyse
bereken as wat die geval met ’n standaard-normaalverdeling sou wees.
In die res van hierdie studie gaan ons gereeld na die normaalverdeling verwys. Die
normaalverdeling word dikwels in navorsing gebruik om hipoteses (stellings) te toets. Is
voltydse studente meer suksesvol as deeltydse studente? Maak ouer bestuurders minder
ongelukke as jonger bestuurders? Was die ekstra klasse wat aan studente gebied is werklik
suksesvol? Hierdie tipe vrae kan deur navorsing en statistiese analises beantwoord word.
Voordat ons egter data kan analiseer, moet daardie data versamel word. Ons het reeds
verwys na populasies en steekproewe, maar die volgende hoofstuk gaan ’n bietjie uitbrei op
steekproewe en hoe hierdie steekproewe geneem gaan word. Die volgende hoofstuk is kort,
maar vorm ’n baie belangrike grondslag vir enige navorsing wat gedoen word.
R18 500 R20 000
???
Elementêre Kwantitatiewe Metodes
166 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)
Notas
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 6: Steekproewe 167
HHOOOOFFSSTTUUKK 66:: SSTTEEEEKKPPRROOEEWWEE
Onderwerpe
6.1 Steekproefneming
6.2 Ewekansige steekproefmetodes
Eenvoudige ewekansige steekproefneming
Sistematiese steekproefneming
Gestratifiseerde steekproefneming
Trossteekproefneming
6.3 Nie-ewekansige steekproefneming
Geriefsteekproefneming
Oordeelsteekproefneming
Kwota-steekproefneming
Sneeubalsteekproefneming
6.4 Waarom is steekproefneming belangrik?
Elementêre Kwantitatiewe Metodes
168 Hoofstuk 6: Steekproewe | ©akademia (MSW)
Gevallestudie, vervolg…
“Enige nuus oor die oorsese vakansie?”
Michael en Sonja drink ’n koppie koffie by StatInc se koffiewinkel. Vanessa het ’n
vergadering aangevra en dit duidelik gemaak dat beide Michael en Sonja die vergadering
moet bywoon. Vanessa, wat feitlik nooit laat is nie, is deur ’n groot verkeersknoop vertraag.
Michael en Sonja het solank koffie bestel.
Sonja skud haar kop. “Die kompetisie sluit eers oor ’n week. Dan gaan hulle al die
inskrywings analiseer en ’n wenner kies.”
“Ek hou duim vas. Ek is klaar besig om my verlof op te gaar.”
Sonja lag. “Jy is ’n kontrakwerker – jy het nie verlof nie.”
“Onbetaalde verlof,” sê Michael ongestoord. “As jy die kompetisie met my lande wen, gaan
ek saam.”
Sonja verander die onderwerp. “Waaroor wil Vanessa ons sien?”
“Sy het nie gesê nie. Ek is seker dit het iets met statistiek te doen.”
Sonja sluk benoud. “Weet sy hoe voel ek oor syfers?”
Michael wil net antwoord as Vanessa vervaard instorm.
“Jammer ek is laat! Die verkeer is ’n nagmerrie. Ek kort ’n groot cappuccino,” sê sy in een
asem terwyl sy die kelner nader wink. Sy bestel koffie en verduidelik aan die kelner hoe
belangrik dit is, vir haar eie gesondheid, maar ook vir syne, dat sy sou gou as moontlik
kafeïen moet inkry. Die kelner het haar ernstig opgeneem en oomblikke later sit Michael,
Sonja en Vanessa (met ’n groot cappuccino) en gesels oor Vanessa se nuwe projek.
“Ons is baie nuuskierig om te hoor waaroor jy met ons wil praat. Sonja is bang dat ons van
haar gaan verwag om standaardafwykings te bereken.” Michael lag as Sonja se oë rek.
“Dit sal nie nodig wees nie, “ stel Vanessa haar gerus. “Ek wil met julle gesels oor nuwe
sagteware wat ons wil aankoop.”
Sonja is nie gerusgestel nie. “Dis nog erger. Ek is nog minder gemaklik met programmering
as met statistiek.”
“Ontspan. Al wat ons van jou nodig het, is jou kennis in bemarking.” Vanessa maak ’n
gebruikershandleiding oop. “SamplingSoft is spesialisprogrammatuur wat geskep is om
steekproewe te vind. Dit het nuttige funksies wat ons kan help om ’n verskeidenheid
ewekansige steekproefmetodes te gebruik. Dit help selfs met nie-ewekansige
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 6: Steekproewe 169
steekproefmetodes.”
Michael sien die verwarde uitdrukking op Sonja se gesig en verduidelik: “Met ewekansige
steekproefneming benodig jy ’n steekproefraamwerk. As jy byvoorbeeld ’n steekproef wil trek
uit al die werknemers van StatInc, benodig jy die name van al die werknemers in StatInc.
Sodoende het elke werknemer dieselfde kans om vir die steekproef gekies te word.”
Vanessa kyk na Sonja. “Julle werk blykbaar aan ’n nuwe marknavorsingsprojek?”
Sonja knik. “Ons kyk na sakeondernemings wat by die plaaslike sakekamer geregistreer is.
Ons wil kyk hoeveel van die ondernemings navorsing doen en van StatInc se dienste
gebruik sal kan maak.”
“Wat is die populasie?”
“Daar is meer as wat ek gedink het. Daar is sowat drie-en-’n-half-duisend ondernemings.”
“Julle sal dus nie 'n sensus kan gebruik nie,” sê Michael.
“Nee, ons sal ’n steekproef moet trek. Maar dit is moeilik om te besluit wie ons in die
steekproef wil insluit.”
“Wonderlik,” sê Vanessa, “ons kan verskillende opsies met SampleSoft probeer. Drie-en-’n-
half-duisend is klein genoeg om die programmatuur uit te toets. Vasvat Versekeraars se
miljoen kliënte bied nie die ideale omstandighede om nuwe programmatuur te toets nie.”
“Ek’s in,” sê Sonja opgewonde. “Wat het julle van my nodig?”
“Sal jy ’n lys kan kry van al die ondernemings wat by die sakekamer geregistreer is?”
Sonja knik en maak ’n nota in haar dagboek. “Dit is openbare inligting. Dit behoort nie
moeilik te wees om dit in die hande te kry nie. In watter formaat het julle dit nodig?”
“Dit maak nie saak nie – ons sal dit omskakel in die regte formaat. Maar as jy dit in ’n
sigblad-formaat kan kry, sal dit help.”
Sonja knik opgewonde. Sy sien daarna uit om saam met Vanessa en Michael te werk.
6.1 Steekproefneming
Steekproefneming is nie ’n onbekende begrip nie. Ons doen dit gereeld. Kyk na die
volgende voorbeelde:
• ’n Sekretaresse vra tien van die personeellede wat hulle tydens die jaareindfunksie
wil doen. Wat die tien personeellede kies, word dan gedoen.
Elementêre Kwantitatiewe Metodes
170 Hoofstuk 6: Steekproewe | ©akademia (MSW)
• ’n Restaurant handig vraelyste aan kliënte uit om die diens te evalueer. Slegs sowat
10% van alle kliënte voltooi die vraelyste.
• ’n Onderwyser vra leerders in een van sy klasse wat hul opinie van die skool se
nuwe sportvelde is.
Al drie hierdie gevalle is voorbeelde van steekproefneming. In elke geval is daar ’n populasie
(alle personeellede, alle kliënte van die restaurant en alle leerders by die skool) en word
daar ’n kleiner steekproef uit hierdie populasie getrek (tien werknemers, 10% van die
restaurant se kliënte en die leerders in een klas). As dit dan so maklik is, waarom word ’n
hele hoofstuk aan steekproefneming gewy?
Die realiteit is dat steekproefneming nie so eenvoudig is nie. Die belangrikste doel van ’n
steekproef is om ’n gevolgtrekking oor die populasie te maak. Indien die steekproef nie
verteenwoordigend van die populasie is nie, sal hierdie gevolgtrekkings verkeerd wees.
Beskou die volgende geval:
Voorbeeld
’n Universiteit wil weet of daar ’n behoefte bestaan aan ’n ondersteuningsentrum vir studente
wat hul eie sakeondernemings wil begin. Die universiteit besluit dat, indien daar meer as
20% van alle studente is wat hul eie sakeondernemings wil begin, die sentrum geopen sal
word.
’n Dosent doen navorsing om te bepaal of studente belangstel om hul eie ondernemings te
begin. Die dosent verkry ’n steekproef onder studente wat op ’n spesifieke dag in die
kafeteria is. Wat die dosent nie weet nie, is dat al die studente wat Sakebestuur studeer, op
daardie spesifieke dag ’n uitstappie na ’n maatskappy onderneem het. Die Sakebestuur-
studente is dus nie by die steekproef ingesluit nie.
Die dosent vind dat 16% van die studente in die steekproef wel ’n onderneming wil begin. Hy
maak ook die gevolgtrekking dat hierdie getal dieselfde sal wees vir die groter populasie,
met ander woorde, al die studente by die universiteit. Die universiteit besluit dat daar te min
belangstelling is om met die ondersteuningsentrum voort te gaan.
Wat is die probleem met die bogenoemde steekproef? Daar is twee belangrike probleme:
• Die steekproef was nie verteenwoordigend van die populasie nie. Die populasie het
’n groot hoeveelheid Sakebestuur-studente gehad. Die steekproef nie.
• Die dosent het gevolgtrekkings ten opsigte van die populasie gemaak wat nie deur
die steekproef ondersteun is nie.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 6: Steekproewe 171
Laasgenoemde is die grootste gevaar van foutiewe steekproewe: die feit dat gevolgtrekkings
ten opsigte van die populasie op die steekproef gebaseer word. As die steekproef nie
dieselfde “lyk” as die populasie nie, kan daar nie met sekerheid gevolgtrekkings oor die
populasie op die steekproef gebaseer word nie. Hierdie hoofstuk sal ’n aantal
steekproefmetodes bespreek.
Wegner (2013) som agt belangrike steekproefmetodes soos volg op:
Ewekansige steekproefneming
Elke lid van die populasie het ʼn ewe groot
kans om deel van die steekproef uit te maak.
Nie-ewekansige steekproefneming
Elke lid van die populasie het nie dieselfde
kans om deel van die steekproef uit te maak
nie.
Eenvoudige ewekansige steekproefneming
(Simple random sampling)
Geriefsteekproefneming (Convenience
sampling)
Sistematiese steekproefneming (Systematic
random sampling)
Oordeelsteekproefneming (Judgement
Sampling)
Gestratifiseerde steekproefneming (Stratified
random sampling)
Kwota-steekproefneming (Quota sampling)
Trossteekproefneming (Cluster random
sampling)
Sneeubalsteekproefneming (Snowball
sampling)
6.2 Ewekansige steekproefmetodes
Die ewekansige steekproefmetodes sal deur middel van Sonja, Michael en Vanessa se
ervaring met die SampleSoft-programmatuur verduidelik word.
Voorbeeld
Vanessa, Sonja en Michael sit by Vanessa se tafel en kyk na haar rekenaarskerm.
Die skerm lyk soos volg:
Elementêre Kwantitatiewe Metodes
172 Hoofstuk 6: Steekproewe | ©akademia (MSW)
“Die steekproefraamwerk is opgelaai. Ons kan nou kies watter steekproefmetode ons wil
gebruik,” kondig Vanessa trots aan.
“Is dit net vir ewekansige steekproefmetodes waar ons die steekproefraamwerk nodig het?”
vra Sonja.
“Ja. Vir nie-ewekansige steekproefmetodes kan ’n mens aanneem dat die navorser nie
daardie inligting beskikbaar gehad het nie,” antwoord Vanessa. “Sal ons die eenvoudige
steekproef probeer?”
“Ek kan nie wag nie,” sê Michael en Vanessa kies die opsie wat sê Simple Random
Sampling. Nadat sy op die create sample list-knoppie geklik het, word die volgende skerm
vertoon:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 6: Steekproewe 173
“Hoeveel vraelyste wil julle uitstuur?” vra Michael vir Sonja.
“Ten minste tien persent van die populasiegrootte. Kom ons speel veilig en maak dit
vyfhonderd.”
Vanessa sleutel 500 in die spasie en klik op Continue >>. Oomblikke later word ’n lys met
name gegenereer. Sy druk die lys uit en gee dit vir Sonja.
Sonja lees vir ’n oomblik deur die lys. “Dit is heeltemal random,” sê sy. “Ek sien geen
patroon nie. Hoe het die program die name gekies?”
Michael lag. “Heeltemal random.”
Vanessa verduidelik: “Met enige vorm van ewekansige steekproefneming moet elke element
in die populasie ’n ewe groot kans hê om gekies te word. Met eenvoudige ewekansige
steekproefneming of simple random sampling in Engels, kies die rekenaarprogram
vyfhonderd name. Daar is geen patroon of volgorde nie. Dit is die punt.”
“Dit kan werk,” sê Sonja. “Wat behels die ander opsies?”
“Dit sal interessant wees om te sien hoe die steekproef wat deur die ander metodes
gegenereer word met mekaar vergelyk,” voeg Michael by.
Vanessa kies die opsie Systematic sampling. Sy sleutel weer die waarde 500 in en sien die
volgende terugvoer:
Sonja kyk verras na die skerm. “Hoekom word elke sewende element gekies?”
“Dit is hoe sistematiese steekproefneming werk. Drieduisend-vyfhonderd gedeel deur
Elementêre Kwantitatiewe Metodes
174 Hoofstuk 6: Steekproewe | ©akademia (MSW)
vyfhonderd, is sewe. Daarom word elke sewende element gekies.”
“Dis wonderlik!”
“Nie altyd nie,” waarsku Michael. “As jy ’n steekproef trek van die daaglikse omset van ’n
maatskappy, sal elke sewende element op dieselfde dag val.”
“En dan sal jou steekproef nie verteenwoordigend van die populasie wees nie,” voeg
Vanessa by.
“Ek sien,” antwoord Sonja. “Wat is stratified sampling?”
“Gestratifiseerde steekproefneming trek ’n steekproef op dieselfde wyse as eenvoudige
ewekansige steekproefneming. Die verskil hier is dat jou populasie eers in kleiner dele
volgens sekere velde, of eienskappe, verdeel word.”
“’skuus, jy het my verloor,” sê Sonja aan Vanessa.
“Kom ons kyk na hoe die program dit doen,” stel Michael voor. Vanessa klik op Stratified
sampling en sien die volgende skerm:
“Om jou steekproef meer verteenwoordigend te maak, kan jy die populasie opdeel in kleiner
groepe volgens sekere kriteria, byvoorbeeld die grootte van die maatskappy,” verduidelik
Vanessa.
“Wat sal gebeur as ek company size kies?”
“Dan sal die drieduisend-vyfhonderd ondernemings in drie groepe opgedeel word: klein,
medium en groot. En die program sal dan ’n derde van die totale steekproef uit elke groep
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 6: Steekproewe 175
trek.”
“Elke groep word dan ’n stratum genoem,” voeg Michael by.
“Goed,” antwoord Sonja, “kom ons kies company size.”
Vanessa klik op die skerm, sleutel 500 in die spasie en klik op Continue >>. ’n Lys met 500
name word weer gegenereer. Aan die bokant van die lys verskyn die volgende woorde:
Sonja verstaan. “So die program het outomaties, op ’n ewekansige wyse, ewe veel groot,
medium en klein besighede vir die steekproef gekies. Maar in totaal is dit nog steeds
vyfhonderd.”
“Presies,” bevestig Vanessa. “Die verskil tussen gestratifiseerde steekproefneming en
eenvoudige ewekansige steekproefneming is die feit dat ons nou seker gemaak het dat elke
grootte onderneming eweveel verteenwoordig is. Met ons eerste steekproef wat ons geneem
het, was dit nie noodwendig die geval nie.”
“Hoe verskil dit van cluster sampling?”
Michael het ’n antwoord gereed. “Trossteekproefneming, soos dit in Afrikaans bekend staan,
deel ook jou populasie in groepe op. Maar in hierdie geval is die groepe soortgelyk aan
mekaar, en die elemente binne-in elke steekproef verskil van mekaar.”
“Kan ons dit probeer?” vra Sonja. “Ek verstaan beter as ek sien hoe dit gedoen word.”
Vanessa klik op Cluster sampling en kry die volgende skerm:
Elementêre Kwantitatiewe Metodes
176 Hoofstuk 6: Steekproewe | ©akademia (MSW)
Sonja kyk na die skerm. Michael trek ’n stuk papier nader en teken die volgende diagram om
vir Sonja te verduidelik:
“Gestel ons kies slegs die maatskappy-grootte,” verduidelik hy. “Die program verdeel nou jou
hele populasie volgens die kriteria wat jy verskaf het. Dan, deur middel van eenvoudige
ewekansige steekproefneming, kies die program ’n aantal van die trosse – of clusters – wat
in jou steekproef ingesluit sal word.”
Noorde van die stad
10 x klein maatskappye
10 x mediumgrootte
maatskappye
5 x groot maatskappye
Suide van die stad
11 x klein maatskappye
12 x mediumgrootte
maatskappye
6 x groot maatskappye
Weste van die stad
11 x klein maatskappye
13 x mediumgrootte
maatskappye
4 x groot maatskappye
Ooste van die stad
12 x klein maatskappye
10 x mediumgrootte
maatskappye
4 x groot maatskappye
Sentraal
10 x klein maatskappye
10 x mediumgrootte
maatskappye
5 x groot maatskappye
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 6: Steekproewe 177
“Die verskillende trosse kan miskien geografies ingedeel word soos wat Michael in sy skets
aangedui het,” sê Vanessa. “Hoewel elke tros in ’n ander gebied voorkom, is die groepe
soortgelyk wanneer hulle met mekaar vergelyk word.”
“So, die program sal miskien die maatskappy in die Noorde en in die Ooste kies as
steekproef? En omdat die res van die maatskappy soortgelyk is aan dié in die Ooste en
Noorde, sluit ons hulle nie by die steekproef in nie?” vra Sonja.
“Presies,” sê Michael. “So, die verskil tussen gestratifiseerde steekproefneming en
trossteekproefneming is...”
“Die elemente in strata is soortgelyk. Dus trek ek my dele van my steekproef uit al die
strata. Die data in trosse is verskillend: elke tros is verteenwoordigend van die populasie.
Daarom kan ek een of meer trosse kies vir my steekproef.”
“Jy leer vinnig,” glimlag Michael.
� Opsomming van ewekansige steekproefneming
Die ewekansige steekproefmetodes is deur middel van die StatInc-gevallestudie en ’n
rekenaarprogram verduidelik. In kort kan die verskillende steekproefmetodes soos volg
opgesom word.
Daar bestaan vier ewekansige steekproefmetodes. Met ’n ewekansige steekproefmetode:
• moet elke element in die populasie ’n gelyke kans hê om in die steekproef opgeneem
te word; en
• word ’n steekproefraamwerk (sampling frame) benodig.
Met eenvoudige ewekansige steekproefneming word die steekproefraamwerk (alle
elemente in die populasie) gebruik en word elemente vir die steekproef op ’n ewekansige
wyse verkry. Dit kan vergelyk word met die praktyk om ’n klomp name in ’n hoed te gooi en
dan name uit die hoed te trek. Die nasionale lotery se wennommers word op hierdie manier
verkry.
Sistematiese steekproefneming kies elke k’de element in die populasie. Om ’n steekproef
van 500 uit ’n populasie van 3 500 te verkry, sal elke sewende element uit die populasie vir
die steekproef gekies word. Dit is egter belangrik om seker te maak dat hierdie 7 (of k) nie ’n
spesifieke betekenis het nie. Elemente wat volgens dae van die week ingedeel is, sal
problematies wees as ’n k van 7 gebruik word, omdat al die elemente in die steekproef dan
op dieselfde dag sal val.
Elementêre Kwantitatiewe Metodes
178 Hoofstuk 6: Steekproewe | ©akademia (MSW)
Met gestratifiseerde steekproefneming word die hele populasie in verskillende homogene
groepe of strata ingedeel (byvoorbeeld, volgens geslag). Die groepe of strata verskil van
mekaar, maar elemente binne-in elke groep is soortgelyk. Dan word eenvoudige ewekansige
steekproefneming gebruik om ’n deel van die steekproef uit elke groep (of stratum) te verkry.
Trossteekproefneming verdeel die populasie in groepe waarvan elke groep min of meer
verteenwoordigend van die populasie is. Eenvoudige ewekansige steekproefneming word
dan gebruik om ’n aantal groepe of trosse in hul geheel by die steekproef in te sluit. Die
elemente in die trosse verskil van mekaar en is verteenwoordigend van die populasie, maar
die groepe self is soortgelyk aan mekaar.
6.3 Nie-ewekansige steekproefneming
Een van die vereistes vir ewekansige steekproefneming is die beskikbaarheid van ’n
steekproefraamwerk of sampling frame. Dit is egter nie altyd beskikbaar nie. Dit is dus nie
altyd moontlik om van ewekansige steekproefneming gebruik te maak nie. As ’n reël is
steekproewe wat met ewekansige steekproefneming geskep is, meer verteenwoordigend
van die populasie. Daar is egter ’n aantal metodes wat gebruik kan word indien ewekansige
steekproefneming nie beskikbaar is nie.
� Geriefsteekproefneming
Hierdie wyse van steekproefneming (convenience sampling in Engels) behels die verkryging
van ’n steekproef op ’n wyse wat die maklikste en gerieflikste vir die navorser is. Enige
element van die populasie wat op ’n spesifieke tydstip beskikbaar is, word by die steekproef
ingesluit, byvoorbeeld:
• ’n Restaurant eienaar wil navorsing oor ’n spesifieke item op die spyskaart doen. Die
eienaar vra vir elke kliënt wat op ’n spesifieke dag die item bestel wat hul opinie van
die produk is.
• ’n Hoërskoolleerder wil navorsing doen oor gunsteling televisieprogramme van
volwassenes. Sy vra elke onderwyseres in haar skool om ’n vraelys in te vul. (In
hierdie geval is die populasie alle volwassenes in ’n sekere area, maar die steekproef
sluit slegs onderwysers by ’n spesifieke skool in. Die steekproef is dus glad nie
verteenwoordigend nie).
Die grootste nadeel van geriefsteekproefneming is dat dit geen meganismes bevat wat die
verteenwoordigheid van die steekproef kan verbeter nie.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 6: Steekproewe 179
� Oordeelsteekproefneming
In hierdie geval word daar van die kundigheid van die navorser gebruik gemaak om te
besluit wie in die steekproef ingesluit moet word. ’n Navorser wat wil bepaal of studente
belangstel om hul eie sakeondernemings te begin, kan besluit om slegs studente wat
Ondernemingsbestuur studeer, in te sluit. Die navorser sal dan natuurlik sy/haar eie redes
hê waarom hierdie besluit geneem word.
Deur op die oordeel van ’n navorser staat te maak verseker nie dat die steekproef
verteenwoordigend is nie, maar dit kan wel in ’n mate bydra om elemente in die steekproef
wat nie verteenwoordigend is nie, te verminder.
� Kwota-steekproefneming
Nog ’n stap om seker te maak dat ’n steekproef sover as moontlik verteenwoordigend van
die populasie is, is om sekere eienskappe van die populasie te identifiseer. Die navorser sal
dan seker maak dat die steekproef elemente met hierdie eienskappe bevat.
Gestel daar was nie ’n steekproefraamwerk vir die sakeondernemings beskikbaar nie
(verwys na die StatInc-gevallestudie). Sonja sou wel geweet het dat daar onderskei kon
word tussen klein, medium en groot sakeondernemings. Sy sou kwotas kon saamstel vir
haar steekproef, byvoorbeeld: ten minste 200 klein sakeonderneming, ten minste 150
mediumgrootte ondernemings en ten minste 150 groot sakeondernemings. Hierdie
steekproef sal baie meer verteenwoordigend van die populasie wees as wat die geval met
gewone geriefsteekproefneming sou wees.
� Sneeubalsteekproefneming
Met sneeubalsteekproefneming sal ’n navorser ’n aantal respondente identifiseer. Wanneer
die respondente die vraelys of onderhoud voltooi het, sal die navorser vir verwysings vra.
Die respondent sal dan vriende of familie kan verwys wat dan by die steekproef ingesluit
word. Die steekproef word dus nie saamgestel voordat die navorsing gedoen word nie, maar
groei soos wat die navorser besig is totdat die nodige steekproef bereik is.
6.4 Waarom is steekproefneming belangrik?
Ons weet reeds dat dit belangrik is dat ’n steekproef verteenwoordigend van die populasie
moet wees. Die realiteit is egter dat geen steekproef altyd eenhonderd persent
verteenwoordigend van die populasie sal wees nie. Ons kan hierdie probleem op twee
wyses hanteer:
Elementêre Kwantitatiewe Metodes
180 Hoofstuk 6: Steekproewe | ©akademia (MSW)
• Ons kan verseker dat ons steekproef so verteenwoordigend as moontlik is. Hoewel
ons nie verseker kan wees dat die steekproef eenhonderd persent
verteenwoordigend van die populasie is nie, kan ons stappe neem om
verteenwoordigheid te verbeter. Dit kan gedoen word deur behoorlike
steekproefneming.
• Ons kan ook die probleem benader deur met omsigtigheid gevolgtrekkings te maak.
In die res van hierdie gids sal ons sekere statistieke met steekproefdata bereken, en
dan gevolgtrekkings ten opsigte van die populasie maak. Ons sal egter hierdie
gevolgtrekkings kwalifiseer deur aan te dui hoe seker ons kan wees dat die
gevolgtrekking wel op die populasie van toepassing is. In plaas daarvan om ’n
stelling soos “die populasie se gemiddelde ouderdom is 18.75 jaar” te maak, sal ons
eerder sê: “Ons kan met 95% sekerheid sê dat die populasie se ouderdom 18.75 is.”
Hierdie sekerheid word in praktyk deur die steekproefmetode beïnvloed, maar ten
opsigte van ons berekeninge sal die standaardafwyking en grootte van die
steekproef ’n groot rol speel.
Hoofstuk 7 gaan hierop uitbrei. Ons gaan ’n steekproefgemiddeld bereken en ’n interval vir
die populasie se gemiddeld daarmee beraam. In Hoofstuk 8 tot 11 gaan ons sekere stellings
met steekproefdata toets en dan bepaal of dieselfde bevinding vir ons populasie sal waar
wees.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 181
HHOOOOFFSSTTUUKK 77:: VVEERRTTRROOUUEENNSSIINNTTEERRVVAALLLLEE
Onderwerpe
7.1 Om ‘n gevolgtrekking oor die populasie te maak
7.2 Wat is ‘n vertrouensinterval?
Bereken ‘n vertrouensinterval
Bereken ’n vertrouensinterval as σ onbekend is
Elementêre Kwantitatiewe Metodes
182 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
Gevallestudie, vervolg…
“Hier is iets interessant.”
Michael kyk op. Vanessa trek ’n stoel nader en gaan sit by sy lessenaar. Vandat Michael se
kontrak by StatInc verleng is, het hy by Vanessa se kantoor ingetrek. Haar kantoor is so
groot dat vier ekstra lessenaars daar kan inpas sonder om die plek beknop te laat voel.
“Hierdie artikel is ook interessant,” sê hy. “Hulle het ’n korrelasie gevind tussen die wyse
waarop mense...” Michael bly stil as Vanessa hom glimlaggend aanstaar.
“Nie so interessant soos wat ek hier het nie.”
Michael se belangstelling is dadelik geprikkel. Hy neem die dokument wat Vanessa na hom
uithou en kyk vlugtig na die inhoud. Daar is ’n verskeidenheid grafieke en iets wat soos
beskrywende statistiek lyk.
Vanessa verduidelik: “Ons is nie die eerste onderneming wat Vasvat Versekeraars genader
het nie. ’n Jaar of wat gelede het hulle hierdie verslag ontvang. Hulle het hul besluite daarop
baseer en miljoene verloor.” Michael kyk na die dokument en sien ’n aanbeveling.
Aanbeveling: Bemarkingsaksies moet gefokus word op persone wat sestig jaar oud is. Dit is
die gemiddelde ouderdom van die populasie in die omgewing.
Michael kyk vraend na Vanessa. “Dit klink na ’n geldige aanbeveling.”
Vanessa se glimlag word groter. Michael vermoed onraad. “Mits die statistiese berekeninge
korrek was.”
Vanessa knik.
“En dit is nie die geval nie?”
“Ek sal graag jou objektiewe opinie wil hoor,” sê Vanessa. Dit is duidelik dat daar een of
ander groot tekortkoming in die navorsing is. Sy wil egter hê dat Michael dit self moet
ontdek.
Michael dink vir ’n oomblik. “Goed. Ek neem aan hulle het ’n steekproef geneem. Die
steekproef was verteenwoordigend van die populasie. Hulle het toe, met die nodige
statistiese omsigtigheid, die steekproefgemiddeld op die populasiegemiddeld van toepassing
gemaak.”
“Jy is halfpad reg. ‘Statistiese omsigtigheid’ is nie ’n woord wat by my opgekom het toe ek
hierdie verslag gelees het nie.”
Michael sug. “Ek wens ek het die rou data van die navorsingsprojek gehad.”
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 183
“Pasop waarvoor jy wens,” sê Vanessa met ’n ondeunde lag. “Aanhangsel A.”
Michael blaai vinnig na die agterkant van die dokument. Hy vind Aanhangsel A. Wat hy sien
laat hom na sy asem snak.
“Tien?”
“Jip.” Dit is duidelik dat Vanessa dieselfde reaksie gehad het toe sy die verslag gelees het.
Sy geniet egter Michael se skok en verontwaardiging.
“Net tien?”
“Net tien.”
“Hoe maak jy ’n gevolgtrekking oor ’n populasie van duisende met ’n steekproef van tien?”
“Dis nog net die begin. Kyk ’n bietjie na die tien waardes wat versamel is.”
Michael kyk na die individuele waardes en sien die volgende:
“Al die respondente was tussen vyftig en sestig jaar oud. Behalwe Respondent ses en sewe.
Enige persoon kan dadelik sien dat die gemiddelde kliënt tussen vyftig en sestig jaar oud is.”
“Nie enige persoon nie. Om een of ander rede het niemand in Vasvat die moeite gedoen om
na die berekeninge te kyk nie. Hulle sou twee keer gedink het voordat hulle die
bemarkingsveldtog geloods het.”
“En die statistikus? Het die vertrouensintervalle nie ’n groot rooi lig laat flikker nie?”
Vanessa bars uit van die lag. Michael verstar.
“Daar is geen vertrouensintervalle nie,” besef hy.
“En geen standaardafwykings nie. Daar is niks. ’n Steekproefgemiddeld van sestig en ’n half
Elementêre Kwantitatiewe Metodes
184 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
jaar en ’n steekproefgrootte van tien. Die ‘statistikus’ was ’n vriend van ’n vriend van ’n
vriend wat by Vasvat gewerk het.”
“En niemand het sy kwalifikasies nagegaan nie?”
“Die persoon wat dit moes doen, is intussen onder verdagte omstandighede by die
onderneming weg. Die statistikus het soos mis voor die son verdwyn nadat hy sy geld gekry
het. Vasvat het hierdie as ’n duur les afgeskryf en besluit om in die toekoms deskundiges te
gebruik.”
“En dit is waar jy in die prentjie pas,” sê Michael glimlaggend. Hoewel Vanessa baie beskeie
is, het sy ’n reputasie as ’n formidabele navorser – plaaslik, maar ook in die internasionale
arena. Hy kan steeds nie sy geluk glo dat Vanessa sy mentor is nie.
“Ons,” antwoord Vanessa. Beskeie, soos gewoonlik. “Kom ons maak eers seker dat ons
presies verstaan wat die vorige statistikus verkeerd gedoen het. Hoewel sommige van sy
foute gruwelik nalatig was, is dit nie unieke foute nie. Dit is foute wat amateur statistici
steeds kan maak en, as ons nie versigtig is nie, kan ons in dieselfde slaggat trap.”
Michael het sy bedenkinge oor Vanessa se geneigdheid om in enige slaggate te trap, maar
laat dit daar. Hy kyk weer na die dokument. “Reg, kom ons aanvaar dat hierdie piepklein
steekproef wel verteenwoordigend van die populasie is – en ek wil dit duidelik maak dat ek
nie vir een oomblik dink dit was nie.”
“Dit was nie. Die statistikus het ’n groep vriende by ’n rugby-reünie gevra. Al die mense wat
dit bygewoon het, was mans wat in dieselfde rugbyspan gespeel het. Die twee ouer mense
was die destydse klubbestuurder en -sekretaris.”
Michael hap na lug – hy kan sy ore nie glo nie.
Vanessa onderbreek haarself: “Maar kom ons veronderstel vir ’n oomblik die steekproef was
verteenwoordigend.”
“Die eerste ding waarna die statistikus moes kyk, is die rou data. Dit is duidelik dat die
meeste respondente tussen vyftig en nege-en-vyftig jaar oud was. Die twee ouer
respondente is dus uitskieters.”
“Dit is maklik om te doen met ’n klein steekproef,” merk Vanessa op.
“Met ’n groter steekproef is dit ook maklik. Deur bloot ’n standaardafwyking te bereken, sou
dit duidelik wees hoe vêr die gemiddelde respondent se ouderdom van die gemiddeld af is.
Is hierdie gemiddeld darem korrek?” wil Michael weet.
“Dit is die enigste korrekte statistiek in die verslag.”
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 185
"Goed. Dan bereken ons gou ’n standaardafwyking.” Michael gryp ’n pen en papier en voeg
daad by die woord terwyl Vanessa geamuseerd toekyk.
Oomblikke later oorhandig hy die papier aan Vanessa. “Nes ek gedink het,” sê hy
triomfantlik, “meer as sewentien jaar.”
“Mooi,” antwoord sy, “ons weet dus dat die respondente oor die algemeen baie vêr van die
gemiddeld af is.”
“Enige Statistiekstudent behoort dit te weet. Dit is hoofstuk een in enige Statistiekhandboek.”
“Maar as die steekproef ten volle verteenwoordigend van die populasie is, sal die populasie
ook so ’n groot standaardafwyking hê,” sê Vanessa.
“Ja, maar dit beteken dat die standaardafwyking êrens in berekening gebring moet word
wanneer ons gevolgtrekkings oor die populasie se gemiddeld wil maak.”
“Verduidelik.”
“Ons weet nie wat die populasie se gemiddeld is nie,” verduidelik Michael. “Ons moet raai
wat die populasie se gemiddeld is. Die beste manier om dit te raai, is deur ’n goeie
steekproef te trek en dan al die nodige statistieke met die steekproef te doen.”
“En dit is presies wat hierdie statistikus gedoen het.”
“Nee, dit is nie. Hierdie statistikus,” sê Michael terwyl hy met sy vinger op die gewraakte
verslag tik, “het sonder om te blik of te bloos aangeneem dat die steekproef se gemiddeld
outomaties ook die populasie se gemiddeld is.”
“En hy kan dit nie doen nie, want...?”
“Want hy het geen versekering dat die populasie en steekproef identies is nie. Hy moet
sekere verskille in ag neem. Veral moontlike foute wat hy kon maak toe hy die steekproef
geneem het.”
“En hoe doen hy dit?” wil Vanessa weet.
“Hipotesetoetse. Vertrouensintervalle. Om net twee moontlikhede te noem.”
“Aha! Kom ons begin by vertrouensintervalle. Sal jy ’n vertrouensinterval vir die
populasiegemiddeld kan bereken?”
“Is die hemel blou?” glimlag Michael.
Elementêre Kwantitatiewe Metodes
186 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
7.1 Om ’n gevolgtrekking oor die populasie te maak
Een van die grootste uitdagings waarmee ’n statistikus gekonfronteer word, is die
onsekerheid wat die populasie bied. Ons weet nie hoe die populasie lyk nie. Ons weet nie
wat die gemiddelde ouderdom van ’n populasie is nie. Ons weet nie wat die
standaardafwyking betrokke by daardie gemiddeld is nie. Ons weet letterlik niks.
Die beste wat ons kan doen, is om te raai. En hoewel dit altyd ’n raaiskoot sal bly, bied
statistiek vir ons ’n aantal metodes wat die waarskynlikheid dat ons reg sal raai, vergroot.
Een van hierdie metodes is ewekansige steekproefneming. Deur ’n verteenwoordigende
steekproef te neem, het ons data tot ons beskikking. Ons kan dan hierdie data gebruik om
statistieke te bereken. Op grond van hierdie statistieke kan ons dan meer akkurate
aannames oor die populasie maak. Die belangrikste om te onthou is egter:
Ons kan nooit 100% seker wees dat ’n aanname wat ons oor die populasie maak,
korrek is nie.
Die enigste uitsondering tot hierdie stelling is as ons al die data van die hele populasie
beskikbaar het en die statistiese berekeninge met die populasie se data doen. As ons egter
’n steekproef moet gebruik omdat die populasie se data te veel is of as dit nie beskikbaar is
nie, kan ons nooit hierdie aannames met 100% sekerheid maak nie.
Beteken dit dat ons niks oor die populasie kan sê nie? Nee, glad nie. Deur van die regte
statistiese metodes gebruik te maak, kan ons die vlak van sekerheid waarmee ons
gevolgtrekkings maak, verhoog. Vertrouensintervalle is so ’n tegniek.
Om vertrouensintervalle te verstaan is dit belangrik om net weer na ’n tipiese
navorsingprojek te kyk. In enige navorsingsprojek sal die navorsing begin deur sekondêre
navorsing te doen. Hier sal die navorser na die bevindinge van vorige navorsingsprojekte
kyk. Daarna sal die navorser met die primêre navorsing begin. Dit is hier waar Statistiek
belangrik is. ’n Tipiese primêre navorsingsproses sal soos volg lyk:
• Identifiseer die populasie en die statistieke (of inligting) wat oor die populasie
benodig word.
• Onttrek ’n steekproef uit hierdie populasie. Hoe meer verteenwoordigend die
steekproef van die populasie is, hoe meer akkuraat is die gevolgtrekkings wat ons
oor die populasie maak. Ewekansige steekproefneming bied gewoonlik meer
verteenwoordigende steekproewe.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 187
• Bereken die nodige statistieke (byvoorbeeld die gemiddeld) met die data wat in die
steekproef voorkom. (Onthou dat hierdie statistieke nie sonder meer op die populasie
van toepassing gemaak kan word nie.)
• Bepaal met watter vlak van sekerheid jy die gevolgtrekkings oor die populasie wil
maak. Hoe seker wil jy wees dat jy nie ’n fout maak as jy ’n gevolgtrekking maak nie?
Wil jy 99% seker wees? 95%? 90%? Hoewel 100% ideaal sou wees, is dit nie
moontlik nie.
• Doen nou ’n hipotesetoets (later bespreek) of ’n vertrouensinterval en baseer die
gevolgtrekkings van die populasie daarop.
Kom ons kyk vir ’n oomblik waar die onbevoegde navorser by Vasvat foute gemaak het:
Stap in die navorsingsproses Wat die onbevoegde navorser gedoen het
Identifiseer die populasie en die
statistieke.
Ons kan aanneem dat die amateur statistikus ’n idee
gehad het wie die populasie was. Hy het ook geweet
dat die gemiddelde ouderdom vir die statistiek van
belang was.
Onttrek ’n steekproef uit hierdie
populasie.
Hier het die amateur statistikus reusefoute gemaak.
Daar is geen manier dat hierdie steekproef
verteenwoordigend van die populasie was nie. Die
steekproef is in die eerste plek te klein. Tweedens het
die (lui) amateur statistikus die eerste geleentheid wat
opgeduik het, gebruik om ’n steekproef te versamel.
Logika moes dit duidelik gemaak het dat die hele
populasie nie uit mans tussen 50 en 60, wat deel van
’n rugbyspan gevorm het, sou bestaan nie.
Hierdie is ’n eerste groot struikelblok in ons poging om
gevolgtrekkings oor die populasie te maak. Die tipe
gevolgtrekking wat die amateur statistikus gemaak het,
is soortgelyk aan ’n stelling soos “omdat ’n groep van
21-jarige studente daarvan hou om ’n sportmotor te
bestuur, sal driejarige kleuters ook daarvan hou.”
Bereken die nodige statistieke met
die data wat in die steekproef
voorkom.
Hierdie deel het die amateur statistikus reg gedoen. Hy
het ’n gemiddeld van 60.5 gevind. Dit was egter nie
genoeg nie. Enige gemiddeld moet met sorg
Elementêre Kwantitatiewe Metodes
188 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
geïnterpreteer word. Sonder ’n standaardafwyking is
dit nie moontlik nie.
Bepaal met watter vlak van
sekerheid jy die gevolgtrekkings
oor die populasie wil maak.
Die amateur statistikus het aangeneem dat sy vlak van
sekerheid 100% is. Dit was ’n reusefout.
Doen nou ’n hipotesetoets of ’n
vertrouensinterval.
Die statistikus het hierdie stap geïgnoreer (of was nie
bewus van die stap nie).
Die amateur statistikus se gevolgtrekking is verkeerd en waardeloos. Vasvat het
verkeerdelik na die raad geluister en hul bemarkingsveldtog op 60-jariges gefokus. Daar was
geen 60-jariges in die steekproef nie!
7.2 Wat is ’n vertrouensinterval?
’n Statistikus moet vrede maak met die feit dat hy of sy nie met 100% sekerheid ’n stelling
oor die populasie kan maak nie. Dit beteken nie dat ons geen stellings oor die populasie kan
maak nie. Deur middel van ’n vertrouensinterval kan dit wel gedoen word.
Gestel ons het ’n steekproef van 200 respondente (n = 200) met ’n gemiddelde ouderdom
van 34.5 jaar en ’n standaardafwyking 11.5. Ons het ’n steekproef geneem en alles in ons
vermoë gedoen om die steekproef so verteenwoordigend as moontlik te maak. Die amateur
statistikus sou die volgende gesê het: Omdat die steekproefgemiddeld 34.5 is, kan ons
aanneem dat die populasiegemiddeld ook 34.5 is.
Hierdie stelling is nie noodwendig waar nie. Beskou die volgende, versigtiger stelling:
Ons kan met 95% sekerheid sê dat die populasiegemiddeld tussen 32.91 en 36.09 jaar is.
Hierdie stelling dui op ’n benadering van ’n populasiegemiddeld, gebaseer op die
steekproefgemiddeld. Daar is ’n paar aspekte wat in hierdie stelling na vore kom:
• Die vlak van sekerheid: Die navorser wat hierdie stelling maak, het besluit dat hy/sy
95% seker wil wees dat die interval wat hy/sy gestel het (vir die populasiegemiddeld)
wel korrek is. Dit is ’n subjektiewe keuse en word bepaal deur die aard van die
navorsing (en die gevolge van ’n foutiewe aanname).
• Die waardes 32.91 en 36.09: Hierdie waardes word met ’n formule bereken (en word
hieronder bespreek). Die steekproef se gemiddeld, die vlak van sekerheid, die
standaardafwyking en die steekproefgemiddeld is hiervoor gebruik.
Die verskil tussen die twee stellings – die ‘verkeerde’ en ‘korrekte’ stellings – kan dus grafies
soos volg voorgestel word:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 189
VERKEERD REG
Hierdie is my steekproefgemiddeld. Daarom
is dit ook my populasiegemiddeld:
My steekproefgemiddeld is 34.5. Ek kan met
95% sekerheid sê dat my
populasiegemiddeld hier êrens lê:
Figuur 7.1: Gebruik ‘n steekproef om ‘n gevolgtrekking oor ‘n populasie te maak
� Bereken ’n vertrouensinterval
Die formule vir die onderste en boonste grens van ’n vertrouensinterval is:
μ = x ± z7√�
’n Ander wyse om hierdie formule voor te stel (as ’n interval) is:
x – z7√� ≤ μ ≥ x + z
7√�
waar:
μ = die populasie se gemiddeld
x = die steekproef se gemiddeld
z = die z-waarde wat ons in die z-tabel vind (ons benodig die vlak van sekerheid hiervoor)
σ = die populasie se standaardafwyking (meer hieroor later)
n = die steekproefgrootte
Om die z-tabel en die z-statistiek te kan gebruik benodig ons die populasie se
standaardafwyking (σ). As ons nie die populasie se standaardafwyking tot ons beskikking
het nie, moet ons die steekproef se standaardafwyking(s) gebruik. Ons kan dan ook nie die
z-statistiek en z-tabel gebruik nie, maar moet die t-statistiek en t-tabel gebruik. Ons sal wel
’n voorbeeld van beide gevalle doen.
| | | | | |
33.5 34 34.5 35 35.5 36
| | | | | | | |
32.9 33 33.5 34 34.5 35 35.5 36.09
Elementêre Kwantitatiewe Metodes
190 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
Voorbeeld
’n Navorser wil bepaal wat die gemiddelde ouderdom van ’n sekere populasie is. Hy onttrek
’n ewekansige steekproef en doen alles in sy vermoë om die steekproef so
verteenwoordigend van die populasie as moontlik te maak. Die navorser vind die volgende:
• Steekproefgemiddeld: 21.8 jaar
• Steekproefgrootte: 144 respondente
Die navorser wil bepaal wat die populasiegemiddeld is. Hy wil 95% seker wees van hierdie
gevolgtrekking. Bereken ’n vertrouensinterval vir die populasiegemiddeld. Jy kan aanneem
dat die populasie se standaardafwyking 5.9 jaar is.
Antwoord:
Die formule vir die vertrouensinterval is:
x – z7√� ≤ μ ≥ x + z
7√�
waar:
μ = die populasie se gemiddeld
x = 21.8
z = die z-waarde wat ons in die z-tabel vind
σ = die populasie se standaardafwyking = 5.9
n = 144
Stap 1: Bereken eers die z-waarde
Ons het in Hoofstuk 5 gesien hoe ’n z-waarde bereken word as ons die oppervlakte (en dus
waarskynlikheid) het. Beskou die volgende normaalverdeling:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 191
Hierdie diagram dui aan hoe ons ’n gevolgtrekking oor die populasiegemiddeld gaan maak,
gebaseer op die steekproefgemiddeld, en hoe akkuraat hierdie gevolgtrekking moet wees.
As ons 95% seker wil wees dat die vertrouensinterval wat ons gaan skep, korrek is, is daar
’n 5% (0.05) kans dat ons aanname verkeerd gaan wees. Ons grense kan te hoog wees,
maar dit kan ook te laag wees. Ons fout kan dus aan die linkerkant of regterkant van die
verdeling plaasvind. Daarom verdeel ons die 5% tussen die twee kante van die
normaalverdeling. Hierdie sal altyd die geval vir vertrouensintervalle wees.
Ons vind dus die z-waardes wat op die grense tussen ’n korrekte en foutiewe aanname is.
Verwys weer na Hoofstuk 5 oor hoe ons hierdie z-waardes bereken:
• Die normaalverdeling is simmetries. As ons dus die z-waarde aan die regterkant
bereken, sal die z-waarde aan die linkerkant identies, maar negatief wees.
• Ons weet dat die totale oppervlakte van die normaalverdeling 1 (dus 100%) is.
Omdat die normaalverdeling simmetries is, is die oppervlakte aan die linkerkant en
regterkant beide 50% (of 0.5). Die regterkantste deel van die verdeling sonder die
2.5% (of 0.025), is dus 0.5 – 0.025 = 0.475.
• Ons vind nou die oppervlakte van 0.475 in die middel van die z-tabel. Die ry en
kolom wat kruis by 0.475, verskaf dan aan ons die z-waarde. In hierdie geval kruis
die ry by 1.9 en die kolom by 0.06 by die oppervlakte van 0.475. Dus is die z-waarde
1.96. Die z-waarde aan die linkerkant is dus -1.96. Dit sal soos volg op die
bogenoemde grafiek aangedui word.
0 z
95%
Waarskynlikheid dat die
aanname korrek is
Waarskynlikheid van ’n
foutiewe aanname
2.5%
Waarskynlikheid van ’n
foutiewe aanname
2.5%
z
Elementêre Kwantitatiewe Metodes
192 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
Stap 2: Bereken die vertrouensinterval
Ons kan nou die vertrouensinterval met die formule bereken:
x – z7√� ≤ μ ≥ x + z
7√�
21.8 – 1.96<.=√�44 ≤ μ ≥ 21.8 + 1.96
<.=√�44
21.8 – 0.964 ≤ μ ≥ 21.8 + 0.964
20.836 ≤ μ ≥ 22.764
Die steekproefgemiddeld was 21.8 jaar. Ons kan met 95% sekerheid sê dat die
populasiegemiddeld tussen 20.836 en 22.764 lê.
Vlak van sekerheid en alfa(αααα)-waarde
Die vlak van sekerheid dui aan hoe seker ons oor ons gevolgtrekking oor die populasie wil
wees. Dit sal dus gewoonlik 90%, 95% of 99% wees. Dit kan ook voorgestel word as
waarskynlikhede van 0.9, 0.95 of 0.99.
Die alfawaarde (voorgestel deur die simbool αααα) kan soms in plaas van die vlak van
sekerheid gebruik word. Hierdie is die waarskynlikheid dat ons verkeerd gaan wees, met
ander woorde die waarskynlikheid dat ons ’n fout sal maak. Hierdie waarde word as ’n
waarskynlikheid verskaf en word bereken deur die vlak van sekerheid van 1 af te trek. Dus:
0 1.96
95%
Waarskynlikheid dat die
aanname korrek is
Waarskynlikheid van ’n
foutiewe aanname
2.5%
Waarskynlikheid van ’n
foutiewe aanname
2.5%
-1.96
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 193
Vlak van sekerheid αααα
99% (of 0.99) 0.01
95% (of 0.95) 0.05
90% (of 0.90) 0.1
Probeer dit self
’n Navorser wil die gemiddelde salaris van ’n groep werknemers in ’n sekere beroep bepaal.
Die navorser onttrek ’n steekproef van 225 werknemers en doen alles in haar vermoë om die
steekproef so verteenwoordigend as moontlik te maak. Uit hierdie steekproef vind sy ’n
gemiddelde salaris van R28 950. Jy kan aanneem dat die populasie se standaardafwyking
R2 500 is.
Bereken ’n vertrouensinterval vir die populasiegemiddeld deur ’n α-waarde van 0.05 te
gebruik.
Antwoord:
Stap 1: Bepaal die z-waarde
Die vlak van sekerheid is 95% (want die alfawaarde is 0.05). Ons het reeds die z-waarde in
die vorige voorbeeld bereken – dit was ±1.96.
Stap 2: Bereken die vertrouensinterval
Die formule vir die vertrouensinterval is
x – z;√/ ≤ μ ≥ x + z
;√/
waar:
μ = die populasie se gemiddeld
x = 28 950
z = 1.96
σ = die populasie se standaardafwyking = 2 500
n = 225
Dus:
Elementêre Kwantitatiewe Metodes
194 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
28 950 – 1.96� <��√��< ≤ μ ≥ 28 950 + 1.96
� <��√��<
28 950 – 326.67 ≤ μ ≥ 28 950 + 326.67
R28 623.33 ≤ μ ≥ R29 276.67
Ons kan dus met 95% sekerheid sê dat die populasie se gemiddeld tussen R28 623.33 en
R29 276.67 lê.
Hoe beïnvloed die verskillende veranderlikes die vertrouensinterval?
Die steekproefgemiddeld:
Die steekproefgemiddeld (byvoorbeeld R28 950 in die voorbeeld hierbo) sal altyd presies in
die middel van die vertrouensinterval lê. Dit maak sin omdat ons presies dieselfde waarde
(z;√/) by die steekproefgemiddeld tel en van die steekproefgemiddeld aftrek om die twee
grense van die vertrouensinterval te vind. Die steekproefgemiddeld beïnvloed dus nie die
grootte van die vertrouensinterval nie, maar dui aan waar die middelpunt van hierdie interval
sal wees.
Die vlak van sekerheid:
Hoe groter ons vlak van sekerheid is, hoe meer moontlike waardes sal ons in die
vertrouensinterval moet insluit om seker te maak dat ons nie ’n verkeerde afleiding maak
nie. ’n Verhoging in die vlak van sekerheid sal dus ’n vergroting in die
vertrouensinterval tot gevolg hê.
Kyk na die volgende vertrouensintervalle. Elk is bereken met ’n gemiddeld van 10, ’n
standaardafwyking van 1 en ’n steekproefgrootte (n) van 144. Die vlakke van sekerheid
verskil egter vir elk:
Vlak van
sekerheid
Vertrouensinterval:
onderste grens
Vertrouensinterval:
bogrens
Grootte van interval
(bogrens –
ondergrens)
90% 9.86 10.14 0.28
95% 9.84 10.16 0.32
99% 9.79 10.21 0.42
Dit is dus duidelik dat die vertrouensinterval vergroot het soos wat die vlak van sekerheid
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 195
verhoog is.
Standaardafwyking:
Die standaardafwyking het ook ’n invloed op die grootte van die vertrouensinterval. Onthou:
die standaardafwyking is ’n aanduiding van hoe die waardes rondom die gemiddeld versprei
is. Met ’n klein standaardafwyking is die verskillende waardes naby aan die gemiddeld
versprei. Met ’n groot standaardafwyking is die waardes verder van die gemiddeld af. Dit
maak dus sin dat, as die data wyd verspreid is ten opsigte van die gemiddeld, die
vertrouensinterval ook ’n groter area sal moet dek.
Om hierdie punt statisties te demonstreer, beskou die volgende vertrouensintervalle. Die
steekproefgemiddeld van 10 is gebruik, met ’n steekproefgrootte van n = 144. Die vlak van
sekerheid is op 95% gehou. Die standaardafwyking is telkens verander.
Standaardafwyking Vertrouensinterval:
onderste grens
Vertrouensinterval:
bogrens
Grootte van
interval (bogrens –
ondergrens)
2 9.67 10.33 0.66
4 9.35 10.65 1.3
6 9.02 10.98 1.94
12 8.04 11.96 3.92
Die steekproefgrootte:
Groter steekproewe is dikwels meer verteenwoordigend van die populasie omdat dit meer
moontlike elemente wat in die populasie voorkom, bevat. Om hierdie rede sal ’n groter
steekproef die risiko van ’n verkeerde afleiding verminder. En omdat die kans vir ’n fout
kleiner is, sal ’n groter steekproef ook die afleidings ten opsigte van die populasie meer
akkuraat maak. Soos wat die steekproef groter raak, sal die vertrouensinterval dus kleiner
word.
Beskou die volgende vertrouensintervalle. Die steekproefgemiddeld is 10, die
standaardafwyking is 1, die vlak van sekerheid is 95%. Die steekproefgrootte verander
telkens.
Steekproefgrootte
(n)
Vertrouensinterval:
onderste grens
Vertrouensinterval:
bogrens
Grootte van interval
(bogrens –
ondergrens)
10 9.38 10.62 1.24
Elementêre Kwantitatiewe Metodes
196 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
100 9.8 10.2 0.4
1 000 9.94 10.06 0.12
1 000 000 9.998 10.002 0.004
� Bereken ’n vertrouensinterval as σ onbekend is
Al die probleme wat ons hierbo opgelos het, aanvaar dat die populasie se
standaardafwyking bekend is. Dit is natuurlik selde die geval in ’n navorsingsprojek. Soos
wat die steekproef se gemiddeld gebruik moet word om die populasie se gemiddeld te
benader, sal ons ook in die meeste gevalle die steekproef se standaardafwyking bereken.
As ons egter nie die populasie se standaardafwyking gebruik nie, kan ons nie die z-toets
gebruik nie. Ons sal dus die alternatief, die t-waarde, moet bereken.
Die t-tabel werk op ’n soortgelyke wyse as die z-tabel. Ons benodig egter die volgende om ’n
t-waarde te bereken:
• Die grade van vryheid (df). Die grade van vryheid word bereken as n – 1. Vir 'n
steekproef van 20 respondente sal die grade van vryheid dus 20 – 1 = 19 wees. Let
daarop dat daar verskillende gevalle is waar die t-toets gebruik moet word. Dit is
soms moontlik dat ’n ander formule vir die grade van vryheid sal bestaan,
afhangende van waarvoor die toets gebruik word. Vir die doel van ’n
vertrouensinterval sal die grade van vryheid altyd een minder as die
steekproefgrootte, of n, wees.
• Die α-waarde. Soos reeds genoem, word α verkry deur 1 minus die vlak van
sekerheid. Vir 95% sekerheid sal α 0.05 wees. Ons sal egter steeds die α-waarde
deur twee deel omdat ’n fout by ons vertrouensinterval aan beide kante van die
normaalverdeling kan voorkom.
Die t-tabel lyk ook anders as die z-tabel. Waar die z-tabel die verskillende oppervlaktes in
die middel gehad het, het die t-tabel slegs die α-waardes van 0.1, 0.05, 0.025, 0.01, 0.005
en 0.0025. Hierdie waardes word as kolom-opskrifte gebruik (en is dus nie in die binnekant
van die tabel nie). Onthou dat ’n vertrouensinterval tweekantig is. Soos wat ons die
alfawaarde in twee gedeel het met die berekening van die z-waarde, sal ons ook die
alfawaarde in twee deel met die vind van ’n t-waarde.
Die rye stel elk ’n verskillende graad van vryheid voor. Die binnekant van die tabel bevat al
die t-waardes. Dit is die waarde waarna ons op soek is. Om die t-waarde te vind, doen die
volgende:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 197
• Maak seker dat jy die korrekte α-waarde het. Vir vertrouensintervalle word hierdie
waarde deur twee gedeel omdat ’n vertrouensinterval tweekantig is. Dus sal 95%
sekerheid ’n α-waarde van 0.05 gee, maar ons sal dit deur twee deel vir die vind van
ons t-waarde: dus α = 0.025.
• Vind nou die kolom wat deur hierdie α-waarde voorgestel word.
• Bereken nou die grade van vryheid. Gestel ons het ’n steekproefgrootte van n = 25,
dan sal die grade van vryheid 25 – 1 = 24 wees.
• Vind nou die ry wat deur die grade van vryheid voorgestel word, dus die df = 24 ry.
• Waar hierdie ry (df = 24) en kolom (α = 0.025) kruis, word die t-waarde gevind (in
hierdie geval t = 2.064).
Voorbeeld
’n Navorser wil bepaal wat die ouderdom van ’n sekere populasie is. Die navorser
identifiseer ’n ewekansige steekproef en bereken die volgende:
• Steekproefgemiddeld: 21.8
• Steekproef-standaardafwyking: 5.9
• Steekproefgrootte (n): 40
Bereken, teen ’n 95% vlak van sekerheid, ’n vertrouensinterval vir die populasiegemiddeld.
Antwoord:
Ons het nie die populasie-standaardafwyking (σ) nie, wat beteken dat ons die t-waarde gaan
moet bereken (en nie die z-waarde nie). Die formule vir die vertrouensinterval moet nou
aangepas word om die steekproef-standaardafwyking en die t-waarde te reflekteer. Die
beginsels bly egter dieselfde:
x – t*√� ≤ μ ≥ x + t
*√�
waar:
μ = die populasie se gemiddeld
x = die steekproef se gemiddeld
t = die t-waarde wat ons in die t-tabel vind
s = die steekproef se standaardafwyking
n = die steekproefgrootte
Elementêre Kwantitatiewe Metodes
198 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
Stap 1: Vind die t-waarde
Soos hierbo verduidelik, benodig ons die α-waarde en die steekproefgrootte (n) om die t-
waarde te bereken:
• α = 0.05. Omdat ons ’n vertrouensinterval bereken (wat tweekantig is) moet ons die
α deur 2 deel: 0.05 / 2 = 0.025.
• Die steekproefgrootte is 40. Die grade van vryheid is: df = n – 1 = 40 – 1 = 39
Ons gaan soek nou die kolom waar α = 0.025 en die ry waar df = 39. Waar hierdie ry en
kolom kruis, vind ons die t-waarde. Die t-waarde is 2.023.
Stap 2: Vind die vertrouensinterval
Ons vervang nou die waardes in die formule van die vertrouensinterval.
x – t*√� ≤ μ ≥ x + t
*√�
21.8 – 2.2023<.=√4� ≤ μ ≥ 21.8 + 2.2023
<.=√4�
21.8 – 2.054 ≤ μ ≥ 21.8 + 2.054
19.746 ≤ μ ≥ 23.854
Ons kan dus met 95% sekerheid sê dat die populasiegemiddeld tussen 19.746 en 23.854 lê.
Probeer dit self
’n Navorser wil bepaal hoeveel geld kliënte op ’n maandelikse basis by ’n sekere winkel
spandeer. Die populasie is natuurlik baie groot en die begroting vir die navorsingsprojek is
klein. Die navorser besluit dus om ’n steekproef van 36 kliënte te neem. Hy vind ’n
gemiddelde bedrag van R510 met ’n steekproef-standaardafwyking van R120.
Bereken, teen ’n 90% vlak van sekerheid ’n vertrouensinterval vir die populasiegemiddeld.
Antwoord:
Omdat ons nie die populasie se standaardafwyking het nie, sal ons die t-waarde en dus die
t-toets moet gebruik.
Stap 1: Vind die t-waarde
Die vlak van sekerheid is 90%. Dit beteken ’n α-waarde van 0.1. Omdat ons egter ’n
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 199
vertrouensinterval (wat tweekantig is) wil bereken, moet ons die α-waarde in twee deel. Die
α-waarde wat ons gaan gebruik om die t-waarde te vind, is dus 0.1 / 2 = 0.05.
Die steekproefgrootte is 36. Die grade van vryheid is dus:
df = n – 1
= 36 – 1
= 35
Die t-waarde op die plek waar die α = 0.05 kolom en die df = 35 kruis, is: 1.690
Stap 2: Vind die vertrouensinterval
Die formule vir die vertrouensinterval wat t-waardes gebruik is:
x – t*√� ≤ μ ≥ x + t
*√�
510 – 1.690���√85 ≤ μ ≥ 510 + 1.690
���√85
510 – 33.8 ≤ μ ≥ 510 + 33.8
476.20 ≤ μ ≥ 543.80
Ons kan dus met 90% sekerheid sê dat die gemiddelde kliënt in die populasie tussen
R476.20 en R543.80 per maand by die spesifieke winkel spandeer.
Probeer self
’n Navorser wil bepaal hoeveel boeke hoërskoolleerders per jaar lees. Hy vind ’n steekproef
van die populasie. Hy vra vir elk van die leerders in die steekproef om aan te dui hoeveel
boeke hulle in die laaste jaar gelees het. Hy vind die volgende resultate:
RESPONDENT HOEVEEL BOEKE RESPONDENT HOEVEEL
BOEKE
Respondent 1 7 Respondent 13 6
Respondent 2 8 Respondent 14 3
Respondent 3 20 Respondent 15 3
Respondent 4 13 Respondent 16 5
Respondent 5 11 Respondent 17 8
Elementêre Kwantitatiewe Metodes
200 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
Respondent 6 4 Respondent 18 4
Respondent 7 7 Respondent 19 2
Respondent 8 3 Respondent 20 21
Respondent 9 8 Respondent 21 3
Respondent 10 4 Respondent 22 4
Respondent 11 7 Respondent 23 2
Respondent 12 9 Respondent 24 19
Respondent 25 7
Bereken, teen ’n 90% vlak van sekerheid, ’n vertrouensinterval vir die gemiddelde
hoeveelheid boeke wat die populasie in die laaste jaar gelees het.
Antwoord:
Hierdie vraag mag intimiderend voorkom, maar dit hoef nie die geval te wees nie. Die
enigste opsig waarin hierdie vraag van die vorige vraag verskil, is die feit dat jy self die
waardes wat ons vir die formule benodig, moet bereken. Die waardes wat ons benodig, word
in die volgende tabel opgesom:
Waarde benodig Waar vind ons dit?
Steekproefgemiddeld Kan bereken word met data
Steekproef-standaardafwyking Kan bereken word met data
Steekproefgrootte Kan bereken word met data
t-waarde Kan bereken word met α, n en df
α Kan van vlak van sekerheid afgelei word
df Kan bereken word met steekproefgrootte
Steekproefgemiddeld:
Soos reeds aan die begin van hierdie hoofstuk bespreek is, word die steekproefgemiddeld
bereken deur al die waardes bymekaar te tel en te deel deur n (in hierdie geval 25 omdat
daar 25 waardes in die steekproef is). Jy behoort ’n antwoord van 8 boeke te vind.
x = 8
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 201
Steekproef-standaardafwyking:
Deur die formule vir ’n standaardafwyking (verwys na Hoofstuk 3) te gebruik, word ’n
steekproef-standaardafwyking van 5.463 gevind.
s = 5.463
Steekproefgrootte:
Die steekproefgrootte word gevind deur bloot die hoeveel respondente te tel. In hierdie geval
is dit 25.
n = 25
t-waarde:
Om die t-waarde te bereken benodig ons eerstens die grade van vryheid:
df = n – 1
= 25 – 1
= 24
Ons benodig ook die α-waarde. Hierdie waarde kan van die vlak van sekerheid afgelei word.
Die vlak van sekerheid is 90% (of 0.9), dus is die α-waarde 0.1. ’n Vertrouensinterval neem
egter moontlik foute aan beide kante van die normaalverdeling in ag, daarom sal ons die α-
waarde deur twee deel om een kant se t-waarde te vind. In die tabel sal ons dus die α-
waarde van 0.05 gebruik.
Die plek in die t-tabel waar die 0.05-kolom en die 24-ry kruis, gee aan ons ’n t-waarde van
1.711.
t = 1.711
Ons kan nou die formule van die vertrouensinterval hier toepas:
x – t*√� ≤ μ ≥ x + t
*√�
8 – 1.711<.458√�< ≤ μ ≥ 8 + 1.711
<.458√�<
6.131 ≤ μ ≥ 9.869
Elementêre Kwantitatiewe Metodes
202 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)
7.3 Ten slotte
’n Vertrouensinterval is ’n nuttige statistiese hulpmiddel wat ons kan gebruik om die
omgewing van die populasiegemiddeld te skat. Hierdie hulpmiddel het natuurlik sekere
beperkings. In die eerste plek word die akkuraatheid van die vertrouensinterval direk
beïnvloed deur hoe verteenwoordigend die steekproef van die populasie is. As die regte
stappe om verteenwoordiging te verseker nie gevolg word nie, sal selfs ’n vertrouensinterval
van 90% steeds nie die nodige akkuraatheid verskaf nie.
In die tweede plek word die vertrouensinterval beïnvloed deur die arbitrêre keuse van ’n vlak
van sekerheid. Die vertrouensinterval sal die onder- en bogrense verskaf, maar dit is steeds
die verantwoordelikheid van die navorser om te bepaal met watter vlak van sekerheid hierdie
vertrouensinterval bereken moet word. Dit kan ’n moeilike keuse wees. Gestel ’n
vertrouensinterval se grense is 10 en 20 teen ’n 99% vlak van sekerheid. Hoewel daar slegs
’n 5% kans is dat die werklike populasiegemiddeld buite hierdie grense sal val, is dit steeds
’n moontlikheid. Die navorser moet dus bepaal wat ’n foutiewe vertrouensinterval (ongeag
van hoe hoog die vlak van sekerheid is) se gevolge sal wees.
Die volgende hoofstukke fokus op hipotesetoetse. Elk van die hipotesetoetse wat in die
volgende vyf hoofstukke bespreek gaan word, sal dieselfde vyf stappe volg. Elk van die
hipotesetoetse sal egter vir ’n ander scenario gebruik word. Maak seker dat jy verstaan in
watter situasie watter hipotesetoets gebruik word. ’n Hipotesetoets is anders as ’n
vertrouensinterval, omdat dit ’n spesifieke stelling toets. Kyk na die verskil tussen die twee
maatstawwe:
Voorbeelde van vrae wat elk beantwoord:
Vertrouensinterval: Wat is die grense waarin ek die populasie se gemiddeld sal aantref
indien ek 95% seker wil wees dat ek nie ’n fout maak nie?
Hipotesetoets: Kan ek met 95% sekerheid sê dat die populasie se gemiddeld groter as 20
is?
Voorbeelde van antwoorde wat deur elk verskaf word:
Vertrouensinterval: Die populasiegemiddeld sal tussen 10.55 en 15.98 voorkom. Ek kan
hierdie stelling met 95% sekerheid maak.
Hipotesetoets: Daar is voldoende bewyse om, teen ’n 95% vlak van sekerheid, te aanvaar
dat die populasiegemiddeld groter is as 20.
Hoofstuk 8 sal hipotesetoetsing beskryf.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 203
HHOOOOFFSSTTUUKK 88:: HHIIPPOOTTEESSEETTOOEETTSSIINNGG VVAANN EEEENN VVEERRAANNDDEERRLLIIKKEE
Onderwerpe
8.1 Wat is ‘n hipotesetoets?
8.2 ‘n Hipotesetoets vir een veranderlike
8.3 Hipotesetoets vir een veranderlike; populasie-
standaardafwyking bekend
8.4 Hipotesetoets vir een veranderlike; populasie-
standaardafwyking onbekend
8.5 Sonja se hipotese
Elementêre Kwantitatiewe Metodes
204 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Gevallestudie…
Sonja se kantoor is uniek. Vir ’n buitestaander sal dit soos absolute chaos lyk. Haar kollegas
word egter nie deur die hope papier, lêers en ornamente om die bos gelei nie. Sonja weet
presies wat en waar alles is. Sy word ook deur haar kollegas gerespekteer as iemand wat
weet wat sy doen.
Michael is egter nie een van daardie kollegas nie. Hy staan ’n oomblik in die deur en kyk na
die chaos. Sonja is op die foon besig met iemand wat soos ’n voornemende kliënt klink. Die
kantoor is betreklik klein, met meer stoele as wat raadsaam is. Nie dat dit saak maak nie.
Twee van die stoele is weggesteek onder ’n berg van promosie-artikels.
Sonja beduie vir Michael om te sit en hy kan nie help om te lag nie. Met die uitsondering van
die vloer in die hoekie naby die deur, is daar geen plek vir hom om te sit nie.
“Ja, ons kan dit in die kontrak insluit,” sê Sonja. “Dis geen probleem nie. Ek e-pos die
kontrak sommer dadelik.” Sy luister terwyl sy vinnig iets op die rekenaar tik. “Ja, dit sal ook
ingesluit wees. Die e-pos behoort binne ’n minuut of wat by julle te wees. Reg so. Totsiens.”
“Klink soos ’n suksesvolle transaksie,” sê Michael.
“Net so oor die driehonderdduisend rand,” antwoord sy. “En dit is een van die kleintjies.”
Michael se oë rek. “Hoeveel geld maak die maatskappy.”
“Vertroulike inligting. Maar glo my, dit is genoeg. As ek nie kommissie gekry het nie, sou ek
vir ’n verhoging gevra het.”
“Ek hoop jy het my laat kom oor die vakansie.” Sonja se oproep aan Michael was baie kort
en die boodskap kripties.
“Ongelukkig nie. Ek het jou raad nodig.”
Michael probeer sy teleurstelling verberg. Hy sou ’n oorsese vakansie geniet het. Sonja kom
niks agter nie en pluk ’n lêer behendig onder ’n groot stapel uit. Dat die hoop lêers nie omval
nie, is ’n wonderwerk.
“Ons het ons eie stukkie navorsing gedoen. En ek...” Sy stop as sy sien dat Michael effe
verlore in die middel van die vertrek staan. Sy spring op en haal ’n pak pamflette van een
van die stoele af. “Ekskuus, ons het ’n groot ekspo en ek wil nie hierdie goed in ’n
stoorkamer gaan bêre nie.” Sy wag ’n oomblik tot Michael gaan sit het en verduidelik verder.
“Ons wou kyk hoeveel die gemiddelde maatskappy op navorsing spandeer. Na aanleiding
van ons gesprek oor steekproewe het ons alles in ons vermoë probeer doen om ’n
verteenwoordigende steekproef te kry.”
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 205
“Wie was julle populasie en wie was die steekproef?” Michael is dadelik geïnteresseerd.
“Die populasie is alle medium en groot maatskappye in die hoofstede van die nege
provinsies wat by die stad se mees prominente handelskamer geregistreer is.”
“Steekproefraamwerk?”
“Ons was gelukkig. Al die handelskamers het vir ons ’n lys van hul lede gestuur. Die lyste
mag dalk ’n maand of ses verouderd wees, maar dit is oor die algemeen redelik akkuraat –
as ons die handelskamers mag glo.”
“Hoe groot was die finale steekproef?”
“Ons het sewehonderd maatskappye genader. Tweehonderd-en-een maatskappye het ons
vrae beantwoord.”
“Het hulle sonder meer hul finansiële state aan julle beskikbaar gestel?” vra Michael in
ongeloof.
“Nee, ons het nie ’n spesifieke bedrag gevra nie,” antwoord Sonja. “Ons wou net weet watter
persentasie van hul totale uitgawes aan navorsing spandeer word. En die meeste
maatskappye het nie ’n probleem gehad om daardie inligting te verskaf nie.”
“Interessant. Ek sou dink dat hulle baie meer geheimsinnig sou wees. Wat was die
resultate?” wil hy weet
“Ek het gewag vir daardie vraag. Dit is waar ons jou hulp nodig het.” Sy oorhandig ’n
dokument aan Michael. “Hierdie is ons steekproefdata.”
Michael sien die volgende:
Steekproefgrootte(n): 201
Steekproefgemiddeld: 4.874
Steekproef-standaardafwyking: 1.25
Sonja verduidelik: “Ek het 'n artikel gelees waar soortgelyke navorsing gedoen is. Die
navorsers het na ’n aantal ontwikkelende lande gekyk en gevind dat die medium en groot
sakeondernemings in daardie lande minder as vyf persent van hul jaarlikse uitgawes aan
navorsing toeken. Ek wou kyk of ons dieselfde resultate in Suid-Afrika sou vind.”
“Ek sien,” antwoord Michael. “En jy wou nie sonder meer aanneem dat jou resultate die
vorige navorsing ondersteun nie?”
“Die standaardafwyking is redelik groot as dit met die gemiddeld vergelyk word. Ek is ook nie
gemaklik met die relatief klein steekproef nie. My steekproefgemiddeld is kleiner as vyf,
Elementêre Kwantitatiewe Metodes
206 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
maar nie soveel kleiner dat ek sonder meer my resultaat op die populasiegemiddeld van
toepassing kan maak nie. Sê nou my gemiddeld is net kleiner as vyf as gevolg van my
steekproefneming?”
“Dit is ’n baie geldige vraag. En dit is die vraag wat ’n statistikus van ’n amateur skei. Die
amateur sou na die steekproefgemiddeld gekyk het en sonder meer besluit het dat die
populasiegemiddeld ook minder as vyf persent is. Die statistikus sal eers ’n hipotesetoets
doen.”
“Wat?”
“Hipotesetoetsing. Kom ek wys jou.” Michael trek ’n vel papier nader en begin verduidelik.
8.1 Wat is ’n hipotesetoets?
’n Hipotese is ’n stelling wat waar of vals kan wees. Hierdie hipotese is gewoonlik iets wat
van belang is vir die navorser en wat deur ’n statistiese berekening getoets kan word.
Voorbeeld van hipoteses sluit in:
• By Hoërskool X is die gemiddelde punt in Wiskunde laer as die gemiddelde punt in
Wetenskap.
• Die gemiddelde ouderdom van ’n universiteitstudent is laer as 25.
• Daar is geen verskil tussen die gemiddelde ouderdom van manlike en vroulike
direkteure van openbare maatskappye nie.
’n Goeie hipotese sal slegs een aspek toets. ’n Hipotese wat stel dat “die gemiddelde
ouderdom van students sal hoër as 25 wees en nie dieselfde as die gemiddelde ouderdom
van skoliere wees nie”, toets inderwaarheid meer as een aspek en is nie ’n goeie hipotese
nie. Onthou: die hipotese in sy totaliteit gaan waar of vals wees.
’n Hipotesetoets bepaal of die hipotese aanvaar kan word al dan nie. Om ’n hipotesetoets te
doen word die volgende veranderlikes vereis:
• Vlak van sekerheid (en α-waarde). Die navorser moet besluit hoe seker hy/sy wil
wees dat, as die hipotese aanvaar word, hierdie aanname korrek sal wees. Soos ons
reeds vroeër genoem het, kan ons nooit 100% seker wees dat ’n aanname wat ons
oor die populasie maak, korrek sal wees nie. Tipiese vlakke van sekerheid is 0.99,
0.95 en 0.90 (of 99%, 95%, en 90%). Die α-waarde word weereens verkry deur die
vlak van sekerheid van 1 af te trek. Dus sal 0.99, 0.95 en 0.90 α-waardes van 0.01,
0.05 en 0.1 respektiewelik hê.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 207
• ’n Kritiese waarde. Die kritiese waarde maak gebruik van die tabelle (byvoorbeeld die
t-tabel en z-tabel), asook die vlak van sekerheid (of α-waarde). Die doel van die
kritiese waarde word hieronder bespreek.
• ’n Toetsstatistiek: Afhangende van die tipe toets, kan hierdie ’n z-statistiek, t-
statistiek, F-statistiek of χ-statistiek wees. Elke toetsstatistiek het ’n formule wat
bepaal word deur die aard van die hipotesetoets. In hierdie hoofstuk sal ons slegs die
z-statistiek en die t-statistiek gebruik.
Die hipotesetoets sal dan die toetsstatistiek met die kritiese waarde vergelyk en op grond
van hierdie vergelyking die hipotese verwerp of aanvaar.
8.2 ’n Hipotesetoets vir een veranderlike
In hierdie hoofstuk (en in Sonja se probleem wat hierbo bespreek word), het ons te doen met
’n hipotesetoets wat ’n enkele veranderlike met ’n spesifieke getal vergelyk. Hierdie
veranderlike is ’n steekproefgemiddeld. Die tipe hipotese wat hier ter sprake is, toets die
stelling dat ’n populasiegemiddeld groter as, gelyk aan, of kleiner as ’n sekere getal is.
Voorbeelde van hipoteses, in hierdie geval, sluit in:
• Die populasiegemiddeld is kleiner as 50
• Die populasiegemiddeld is groter as 76
• Die populasiegemiddeld is gelyk aan 100
Omdat ons nie weet wat die populasiegemiddeld is nie, en ons slegs die
steekproefgemiddeld het om die populasiegemiddeld te benader, moet ’n hipotesetoets
gedoen word.
’n Hipotesetoets bestaan uit die volgende stappe:
• Stap 1: Definieer die nul- en alternatiewe hipotese
• Stap 2: Vind die kritiese waarde en area van aanvaarding
• Stap 3: Vind die toetsstatistiek
• Stap 4: Besluit of nulhipotese verwerp kan word
• Stap 5: Maak ’n gevolgtrekking
Belangrik:
Die stappe wat hierbo gevolg word, geld vir elke hipotesetoets wat ons in hierdie gids doen.
Die inhoud van elke stap sal verskil, afhangende van die aard van die toets.
Elementêre Kwantitatiewe Metodes
208 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Elke stap word in meer besonderhede hieronder bespreek:
Stap 1: Definieer die nul- en alternatiewe hipotese
Om ’n stelling statisties te toets, moet die stelling in twee hipoteses opgedeel word, die
nulhipotese en die alternatiewe hipotese. Die nulhipotese verteenwoordig die status quo,
tipies die stelling wat sal aanvaar word as ons navorsing “niks” gevind het nie. Om dit meer
eenvoudig te stel:
• Die alternatiewe hipotese sal die besigheidsprobleem (dit was ons wil toets) bevat.
• Die nulhipotese sal die teenoorgestelde van die alternatiewe hipotese wees.
• Die enigste uitsondering in hierdie geval is waar ’n =-teken in ’n hipotese voorkom.
Die nulhipotese sal altyd die =-teken bevat.
Voorbeeld
Vraag 1:
’n Navorser vermoed dat die gemiddelde ouderdom van kliënte van ’n maatskappy groter as
50 sal wees. Stel die nul- en alternatiewe hipotese.
Antwoord 1:
Die alternatiewe hipotese sal die besigheidsprobleem bevat. In hierdie geval is die navorser
se stelling (of besigheidsprobleem): “Die gemiddelde ouderdom van die populasie is ouer as
50.” Die nul- en alternatiewe hipotese (voorgestel deur H0 en H1 onderskeidelik), sal soos
volg wees:
H0: μ ≤ 50
H1: μ > 50
Let daarop dat die nul- en alternatiewe hipoteses alle moontlike opsies bevat. Die
waarskynlikheid dat die H0 of H1 waar is, is dus 1 (of 100%). Jy sal ook sien dat die
nulhipotese (H0) die =-teken bevat. (μ ≤ 50 beteken dieselfde as “μ < 50 of μ = 50”.)
Vraag 2:
’n Navorser vermoed dat die gemiddelde salaris van ’n sekere populasie kleiner is as
R10 000 per maand. Stel die nul- en alternatiewe hipotese.
Antwoord 2:
Die besigheidsprobleem (wat die navorser vermoed) is dat die populasie se gemiddeld
kleiner is as R10 000. Dit is dus die alternatiewe hipotese.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 209
H0: μ ≥ 10 000
H1: μ < 10 000
Weereens is die alternatiewe hipotese en nulhipotese die presiese teenoorgesteldes van
mekaar.
Vraag 3:
’n Navorser vermoed dat die gemiddelde punt wat studente vir ’n toets behaal het, 65 is. Stel
die nul- en alternatiewe hipoteses.
Antwoord 3:
Hierdie vraag verskil van die vorige twee omdat daar ’n =-teken in die besigheidsprobleem
voorkom: Die navorser vermoed dat μ = 65. Hierdie is ’n uitsondering op die reël dat die
besigheidsprobleem die alternatiewe hipotese vorm, omdat die nulhipotese altyd die =-teken
sal bevat. In hierdie geval sal die hipoteses soos volg lyk:
H0: μ = 65
H1: μ ≠ 65
Die doel van die hipotesetoets is om te kyk of daar voldoende statistiese bewys is om die
nulhipotese te verwerp. Die uitslag van ’n hipotesetoets sal dus altyd een van die volgende
wees:
• Daar is voldoende statistiese bewys (statistical support) om die nulhipotese te
verwerp ten gunste van die alternatiewe hipotese.
• Daar is nie voldoende bewys om die nulhipotese te verwerp nie.
Ons sê dus nie “ek aanvaar die alternatiewe hipotese” nie. Hierdie bewoording sal in meer
besonderhede tydens Stap 4 en Stap 5 bespreek word.
� Linkskantige, regskantige en tweekantige hipoteses
’n Hipotese kan linkskantig, regskantig of tweekantig wees. Hierdie onderskeid is belangrik,
omdat dit die kritiese waarde wat ons in Stap 2 bereken, beïnvloed. Die alternatiewe
hipotese bied vir ons ’n aanduiding of ’n hipotese linkskantig, regskantig of tweekantig is.
Die volgende voorbeelde dui aan wanneer ’n hipotesetoets linkskantig, regskantig of
tweekantig is. Moenie bekommerd wees as jy nie die notas op die grafiek verstaan nie – dit
word meer breedvoerig in Stap 2 tot Stap 5 bespreek.
Elementêre Kwantitatiewe Metodes
210 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Regskantig
H1 = μ > 50
Hierdie is ’n regskantige hipotese. Die toets kan grafies soos volg voorgestel word (meer
inligting hieroor tydens Stap 2):
Figuur 8.1: Grafiese voorstelling van ’n regskantige hipotesetoets
Linkskantig
H1 = μ < 50
Hierdie is ’n linkskantige hipotesetoets. Die toets kan grafies soos volg voorgestel word:
Figuur 8.2: Grafiese voorstelling van ’n linkskantige hipotesetoets
As die z-stat hier val,
word my H0 nie verwerp
nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
As die z-stat hier val,
word my H0 nie verwerp
nie. As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 211
Tweekantig
H1 = μ ≠ 50
Figuur 8.3: Grafiese voorstelling van ’n tweekantige hipotesetoets
Stap 2: Vind die kritiese waarde en area van aanvaarding
Vir die toets van ’n hipotesetoets met een veranderlike, sal ons die t-toets of z-toets gebruik.
Hiervoor sal ons dus die z-tabel of t-tabel gebruik:
• Indien die populasie-standaardafwyking bekend is, sal ons kritiese waarde ’n z-
waarde wees. Hierdie kritiese waarde word kortliks as z-crit voorgestel.
• Indien die populasie-standaardafwyking nie bekend is nie, sal ons kritiese waarde ’n
t-waarde wees. Hierdie kritiese waarde word kortliks as t-crit voorgestel.
Vir die doel van hierdie verduideliking van die stappe van ’n hipotesetoets sal ons slegs na
die z-toets verwys. Met die voorbeelde wat daarop volg, sal beide die z-toets en t-toets egter
in meer besonderhede bespreek word.
Voorbeeld 1: Bepaal ’n kritiese waarde (z-crit)
Beskou die volgende hipoteses:
H0: μ ≤ 50
H1: μ > 50
As die z-stat hier val,
word my H0 nie verwerp
nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
Elementêre Kwantitatiewe Metodes
212 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Die navorser wil die hipotese toets teen ’n 95% vlak van sekerheid.
Om die kritiese waarde te bereken benodig ons die vlak van sekerheid. Ons moet ook weet
of dit ’n eenkantige of tweekantige hipotesetoets is. Uit die alternatiewe hipotese kan ons
sien dat dit wel ’n eenkantige hipotesetoets is. Die hipotesetoets sal dus grafies voorgestel
kan word as:
Ons moet nou bepaal wat die z-crit is. Hoe sal ons dit doen? Ons weet die volgende van die
bogenoemde normaalverdeling:
• Die hele normaalverdeling se oppervlakte is 1.
• Ons wil 95% seker wees dat ons nie die nulhipotese verkeerdelik verwerp nie.
Daarom is die groot area (area van aanvaarding) 0.95. Die kleiner area stel dus die
oorblywende 0.05 van die area voor.
• Ons het reeds geleer hoe om die z-waarde te bepaal as ons die oppervlakte het. Ons
sal slegs die regterkant van die normaalverdeling gebruik. Omdat die
normaalverdeling simmetries is, is die regterkant van die verdeling 0.5. Ons weet dat
die deel regs van z-crit 0.05 is. Dus is die oppervlakte tussen die gemiddeld en die
z-crit 0.45. Deur hierdie oppervlakte in die z-tabel op te soek, vind ons ’n z-waarde
van 1.645.
Die normaalverdeling hierbo kan nou soos volg aangepas word:
As die z-stat hier val,
word my H0 nie verwerp
nie. As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
95% 5%
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 213
Voorbeeld 2:
Beskou nou die volgende hipotesetoets:
H0: μ ≥ 50
H1: μ < 50
Die navorser wil die hipotese toets teen ’n 95% vlak van sekerheid.
Weereens moet ons bepaal of dit ’n eenkantige of tweekantige hipotesetoets is. Die
alternatiewe hipotese gee vir ons ’n aanduiding. Die <teken is ’n aanduiding dat hierdie ’n
eenkantige hipotesetoets is – meer spesifiek, die hipotese is linkskantig. Die
normaalverdeling wat ons vir die hipotesetoets gaan gebruik, lyk dus soos volg.
As die z-stat hier val,
word my H0 nie verwerp
nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
95% 5%
As die z-stat hier val, word
my H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
1.645
95% 5%
Elementêre Kwantitatiewe Metodes
214 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Omdat ’n normaalverdeling simmetries is en die waardes wat ons gebruik presies dieselfde
is as die eerste voorbeeld hierbo, is dit nie eens nodig om die z-crit te bereken nie. Ons weet
dat die z-crit vir ’n regskantige toets teen ’n 0.95 vlak van sekerheid 1.645 is. Dus sal ’n
linkskantige toets met dieselfde waardes -1.645 wees. Die normaalverdeling sal dus soos
volg aangepas word vir die hipotesetoets:
Voorbeeld 3: Vind ’n z-crit vir ’n tweekantige hipotese
Beskou die volgende hipotesetoets:
H0: μ = 50
H1: μ ≠ 50
Die navorser wil die hipotese toets teen ’n 95% vlak van sekerheid.
Die 95% is dieselfde as die vorige twee voorbeelde. Wat wel verskil, is die feit dat hierdie
hipotese tweekantig is. Die hipotese kan dus deur die volgende normaalverdeling
voorgestel word:
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
-1.645
95% 5%
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 215
Die totale oppervlakte van aanvaarding van die nulhipotese bly 0.95 (of 95%). Maar, soos in
die geval van die vertrouensintervalle, moet die oorblywende 0.05 (of 5%) tussen die linker-
en regterkante verdeel word. Die oppervlaktes is dus 0.95 in die middel en 0.025 aan die
twee kante.
Om die z-crit te bereken werk ons dus nou met 0.475 en 0.025 aan elke kant van die
verdeling (want 0.475 + 0.025 = 0.5). Die z-crit sal dus die z-waarde wees waar 0.475 in die
z-tabel voorkom. z-crit is dus 1.96.
Stap 3: Bepaal die toetsstatistiek
Die toetsstatistiek word met ’n formule bereken. Hierdie formule gebruik ’n aantal
veranderlikes wat uit die steekproef verkry word. Die z-statistiek sal dan met die kritiese
waarde vergelyk word. Hierdie stap sal ’n bietjie later met ’n voorbeeld verduidelik word.
Stap 4: Besluit of die nulhipotese verwerp kan word
Die nulhipotese is meestal die teenoorgestelde van ons besigheidsprobleem. As ons dus die
nulhipotese kan verwerp, kan ons aanvaar dat die alternatiewe hipotese waar is. Hierdie
stap sal ’n bietjie later met behulp van ’n voorbeeld verduidelik word.
Stap 5: Maak ’n gevolgtrekking
Stap 4 behels ’n statistiese besluit wat gemaak word. Jy moet egter die bevinding in die
“taal” van die besigheidsprobleem stel. Waar Stap 4 sal eindig met “Daar is voldoende
bewyse om die nulhipotese te verwerp”, sal Stap 5 eerder soos volg bewoord word: “Die
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit
95% 2.5% 2.5%
Elementêre Kwantitatiewe Metodes
216 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
gemiddelde ouderdom van ’n kliënt is dus wel hoër as 50 jaar.” Hierdie stap sal in meer
besonderhede in die voorbeelde hieronder bespreek word.
8.3 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking bekend
Al die hipotesetoetse in hierdie hoofstuk behels ’n populasiegemiddeld en ’n spesifieke
getal. Die hipotesetoets bepaal dan of die populasiegemiddeld groter as, kleiner as of gelyk
aan daardie spesifieke getal is.
Ons kan egter ook die hipotesetoetse wat ons in hierdie hoofstuk gaan doen, in twee
kategorieë opdeel: gevalle waar die populasie-standaardafwyking bekend is en gevalle waar
die populasie-standaardafwyking nie bekend is nie.
As die populasie-standaardafwyking wel bekend is, kan ons die z-toets gebruik. Ons sal dus
die z-tabel gebruik om ’n z-crit te vind. Ons sal ook die formule vir die z-toets gebruik om die
toetsstatistiek (die z-stat) te bereken.
Die formule vir die z-stat, in hierdie geval, is:
z-stat = �� 67√�
waar:
x = die steekproefgemiddeld
μ = die populasiegemiddeld soos deur die nulhipotese verwag
σ = die populasie-standaardafwyking
n = die steekproefgrootte
Met hierdie formule kan ons nou ons eerste hipotesetoets doen:
Voorbeeld: ’n Hipotesetoets van een veranderlike; σ bekend
Vraag 1:
Beskou die volgende:
’n Navorser vermoed dat die gemiddelde ouderdom van studente by ’n spesifieke universiteit
groter as 21 is. Hy onttrek ’n steekproef van 120 studente en probeer om hierdie steekproef
so verteenwoordigend as moontlik van die populasie te maak. Hy vind ’n
steekproefgemiddeld van 21.5. Jy kan aanneem dat die populasie-standaardafwyking 2.34
jaar is.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 217
Doen ’n hipotesetoets om, teen ’n vlak van sekerheid van 95%, te bepaal of die navorser se
vermoede korrek is.
Antwoord:
Om hierdie vraag te beantwoord sal ons die vyf stappe van 'n hipotesetoets uitvoer.
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ ≤ 21
H1: μ > 21
Hierdie is ’n regskantige (en dus eenkantige) hipotese.
Stap 2: Vind die kritiese waarde
Die vlak van sekerheid is 0.95 en die α-waarde is dus 0.05. Omdat hierdie ’n eenkantige
hipotesetoets is (regskantig), hoef die α-waarde nie in twee gedeel word nie. Ons vind dus
die z-waarde waar die oppervlakte 0.45 is (0.5 – 0.05). Hierdie z-waarde, en dus z-crit, is
1.645.
Hierdie z-crit kan soos volg op die normaalverdeling aangedui word:
Stap 3: Bereken die toetsstatistiek
Die toetsstatistiek, z-stat, se formule is:
z-stat = �� 67√�
waar:
x = die steekproefgemiddeld
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit = 1.645
95% 5%
Elementêre Kwantitatiewe Metodes
218 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
μ = die populasiegemiddeld soos deur die nulhipotese verwag
σ = die populasie-standaardafwyking
n = die steekproefgrootte
Dus:
z-stat = ��.�� ���.��√���
= 2.341
Stap 4: Besluit of die nulhipotese verwerp moet word
Om te besluit of die nulhipotese verwerp moet word, moet die z-stat op die normaalverdeling
geplaas word. Sodoende is dit maklik om met die blote oog te sien of die nulhipotese
verwerp kan word:
Die z-stat is aan die regterkant van die z-crit. Hierdie waarde lê dus in die area van
verwerping soos wat ons in Stap 2 vasgestel het. Die waarskynlikheid dat ons dus H0
verkeerdelik gaan verwerp, is dus kleiner as 0.05. Ons kan dus maar voortgaan en H0
verwerp:
Daar is voldoende statistiese bewys om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Daar is voldoende statistiese bewyse om te kan sê dat die gemiddeld van al die studente by
die betrokke universiteit (die populasie) groter is as 21.
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit = 1.645
95% 5%
z-stat = 2.341
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 219
Vraag 2:
’n Navorser vermoed dat die gemiddelde onderwyser minder as 30 dae per jaar vakansie
neem. Deur informele gesprekke het dit aan die lig gekom dat onderwysers geneig is om
tydens skoolvakansies te werk en agterstallige administrasie in te haal. Die navorser besluit
om hierdie vermoede met ’n hipotesetoets te toets. Sy besluit om eers op die onderwysers in
die Wes-Kaapprovinsie te fokus en dus onderwysers in hierdie provinsie haar populasie te
maak. Sy onttrek ’n steekproef van 340 onderwysers in die Wes-Kaap. Sy vind dat, uit
hierdie populasie, onderwysers gemiddeld 29 dae per jaar ten volle vakansie neem. Jy kan
aanneem dat die populasie-standaardafwyking 5.12 dae is.
Toets die navorser se vermoede met ’n hipotesetoets. Gebruik ’n 90% vlak van sekerheid.
Antwoord 2:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ ≥ 30
H1: μ < 30
Hierdie is ’n linkskantige (en dus eenkantige) hipotese.
Stap 2: Vind die kritiese waarde
Die vlak van sekerheid is 0.90 en die α-waarde is dus 0.1. Omdat hierdie ’n eenkantige
hipotesetoets is (linkskantig), hoef die α-waarde nie in twee gedeel word nie. Ons vind dus
die z-waarde waar die oppervlakte 0.4 is (0.5 – 0.1). Hierdie z-waarde is 1.28. Maar omdat
dit ’n linkskantige toets is, sal die z-waarde aan die linkerkant van die gemiddeld voorkom en
dus negatief wees. Die z-crit is dus -1.28.
Hierdie z-crit kan soos volg op die normaalverdeling aangedui word:
Elementêre Kwantitatiewe Metodes
220 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Stap 3: Bereken die toetsstatistiek
Die toetsstatistiek, z-stat, se formule is:
z-stat = �� 67√�
waar:
x = die steekproefgemiddeld
μ = die populasiegemiddeld soos deur die nulhipotese verwag
σ = die populasie-standaardafwyking
n = die steekproefgrootte
Dus:
z-stat = ��� ���.��√���
= -3.601
Let wel: die antwoord is ’n negatiewe waarde.
Stap 4: Besluit of die nulhipotese verwerp moet word
Om te besluit of die nulhipotese verwerp moet word, moet die z-stat op die normaalverdeling
geplaas word. Sodoende is dit maklik om met die blote oog te sien of die nulhipotese
verwerp kan word:
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit = -1.28
90% 10%
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 221
Dit is duidelik dat -3.601 kleiner is as die z-crit van -1.28 en dus in die area van verwerping
val. Daar is dus voldoende bewyse om H0 te verwerp.
Daar is voldoende bewyse om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Daar is voldoende bewyse om te bevestig dat die gemiddelde onderwyser in die Wes-
Kaapprovinsie minder as 30 dae per jaar op vakansie gaan.
Voorbeeld 3:
’n Navorser vermoed dat die gemiddelde salaris van ’n sekere populasie R25 000 is. Hy
neem ’n steekproef van 140 werknemers en vind ’n gemiddeld van R25 500. Jy kan
aanneem dat die populasie se standaardafwyking R2 500 is.
Toets die navorser se vermoede teen ’n 95% vlak van sekerheid.
Antwoord 3:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ = 25 000
H1: μ ≠ 25 000
Hierdie is ’n tweekantige hipotese.
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit = -1.28
90% 10%
z-stat = -3.601
X
Elementêre Kwantitatiewe Metodes
222 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Stap 2: Vind die kritiese waarde
Die vlak van sekerheid is 0.95 en die α-waarde is dus 0.05. Omdat hierdie ’n tweekantige
hipotesetoets is, moet die α-waarde wel in twee gedeel word. Ons vind dus die z-waarde
waar die oppervlakte 0.475 is (0.5 – 0.025). Hierdie z-waarde, en dus z-crit, is ± 1.96.
Hierdie z-crit kan soos volg op die normaalverdeling voorgestel word:
Stap 3: Bereken die toetsstatistiek
Let wel: die formule en berekening van die z-statistiek word nie beïnvloed deur die feit dat
ons met ’n tweekantige hipotesetoets werk nie.
Die toetsstatistiek, z-stat, se formule is:
z-stat = �� 67√�
waar:
x = die steekproefgemiddeld
μ = die populasiegemiddeld soos deur die nulhipotese verwag
σ = die populasie-standaardafwyking
n = die steekproefgrootte
Dus:
z-stat = �< <����< ���> ?@@√AB@
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
As die z-stat in hierdie
area val, word H0
verwerp.
95% 2.5% 2.5%
z-crit = -1.96 z-crit = 1.96
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 223
= 2.366
Stap 4: Besluit of die nulhipotese verwerp moet word
Om te besluit of die nulhipotese verwerp moet word, moet die z-stat op die normaalverdeling
geplaas word. Sodoende is dit maklik om met die blote oog te sien of die nulhipotese
verwerp kan word:
Die z-stat van 2.366 is duidelik groter as die positiewe z-crit van 1.96. Die z-stat val dus in
die area waar H0 verwerp word.
Daar is voldoende statistiese bewys om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Die navorser se vermoede word nie deur die statistiese data ondersteun nie: Die gemiddelde
salaris is nie gelyk aan R25 000 nie.
Let wel: hierdie hipotesetoets toets slegs of die gemiddelde salaris gelyk is aan R25 000. Dit
is egter gevaarlik om aan te neem dat, omdat die gemiddelde salaris nie R25 000 is nie, die
populasie se gemiddelde salaris groter as R25 500 sal wees. Dit is nie wat ons getoets het
nie. ’n Nuwe, regskantige hipotesetoets sal eers hierdie aanname moet toets voordat dit
aanvaar kan word.
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
As die z-stat in hierdie
area val, word H0
verwerp.
95% 2.5% 2.5%
z-crit = -1.96 z-crit = 1.96
z-stat = 2.366
X
Elementêre Kwantitatiewe Metodes
224 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
8.4 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking onbekend
Soos wat ons reeds met vertrouensintervalle gesien het, sal ons in praktyk dikwels nie die
populasie se standaardafwyking tot ons beskikking hê nie. En aangesien die populasie se
standaardafwyking ’n vereiste is om die z-toets te gebruik, sal ons, wanneer die populasie-
standaardafwyking nie beskikbaar is nie, die t-toets as alternatief moet gebruik.
Die stappe vir die hipotesetoets bly onveranderd in hierdie geval. Al wat aan die toets
verander word, is:
• die kritiese waarde (Stap 2): ons gebruik t-crit in plaas van z-crit; en
• die toetsstatistiek (Stap 3): ons gebruik die t-stat in plaas van die z-stat.
Die formule vir die t-stat, in hierdie geval, is:
t-stat = ��6*√�
waar:
x = steekproefgemiddeld
μ = populasiegemiddeld soos deur die nulhipotese gestel
s = die steekproef-standaardafwyking
n = die steekproefgrootte
Soos met vertrouensintervalle, sal ons ook die grade van vryheid (df) benodig om die t-tabel
te gebruik. Onthou die formule vir grade van vryheid:
df = n – 1
Die volgende voorbeelde illustreer die gebruik van ’n t-toets om ’n hipotese te toets.
Voorbeeld: Hipotesetoets vir een veranderlike indien die populasie-
standaardafwyking nie bekend is nie
Vraag 1:
’n Navorser vermoed dat kliënte van ’n sekere winkel gemiddeld meer as 5 minute per
besoek in die winkel spandeer. Die navorser trek ’n steekproef van 81 kliënte en bepaal hoe
lank elkeen van hierdie kliënte in die winkel spandeer. Die navorser vind ’n gemiddeld van
6.1 minute en ’n steekproef-standaardafwyking van 2.2 minute.
Toets, teen ’n 95% vlak van sekerheid, of die navorser se vermoedens reg was.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 225
Antwoord:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ ≤ 5
H1: μ > 5
Hierdie is ’n eenkantige (regskantige) hipotese.
Stap 2: Vind die kritiese waarde
Om die kritiese waarde te bereken benodig ons twee veranderlikes: α en df
df = n – 1
= 81 – 1
= 80
Uit die vlak van sekerheid van 95% kan ons ’n α van 0.05 aflei. Omdat dit ’n eenkantige
hipotese is wat getoets word, is dit nie nodig om hierdie waarde deur twee te deel nie.
Ons vind nou in die t-tabel die waarde waar die 0.05-kolom en die 80-ry mekaar kruis. Dit is
1.664.
Stap 3: Bereken die toetsstatistiek
t-stat = ��6*√�
waar:
x = steekproefgemiddeld
μ = populasiegemiddeld soos deur die nulhipotese gestel
s = die steekproef-standaardafwyking
n = die steekproefgrootte
Dus:
t-stat = �.����.�√ �
= 4.5
Stap 4: Besluit of die nulhipotese verwerp moet word
Om hierdie besluit te neem is dit altyd nuttig (en nodig) om die normaalverdeling te teken.
Die t-crit en t-stat moet beide op hierdie grafiek aangedui word.
Elementêre Kwantitatiewe Metodes
226 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Uit die bogenoemde skets is dit duidelik dat die t-stat binne die verwerpingsgebied lê omdat
4.5 groter is as 1.664.
Daar is dus voldoende bewyse om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Daar is voldoende bewys om te kan aanneem dat kliënte wel meer as 5 minute per besoek
in die winkel spandeer.
Vraag 2:
’n Navorser vermoed dat ’n tipiese kliënt minder as R100 per besoek aan ’n winkel
spandeer. Die navorser versamel ’n steekproef van 25 kliënte en bepaal hoeveel elkeen by
die winkel spandeer het. Sy vind ’n steekproefgemiddeld van R96. Sy vind ook ’n steekproef-
standaardafwyking van R15. Bepaal, teen ’n 95% vlak van sekerheid, of die navorser se
vermoede bevestig kan word.
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ ≥ 100
H1: μ < 100
Hierdie is ’n eenkantige (linkskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Die α-waarde is weereens 0.05 en, aangesien dit ’n eenkantige hipotesetoets is, hoef hierdie
waarde nie in twee gedeel te word nie. Die grade van vryheid is:
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit =1.664
95% 5%
t-stat =4.5
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 227
df = n – 1
= 25 – 1
= 24
Die t-waarde waar die 24-ry en die 0.05-kolom kruis, is 1.708. Omdat hierdie ’n linkskantige
toets is, sal die t-waarde aan die linkerkant van die normaalverdeling voorkom en dus
negatief wees. Die diagram hieronder verskaf meer duidelikheid:
Die t-crit is dus -1.708.
Stap 3: Bereken die toetsstatistiek
t-stat = ��6*√�
waar:
x = steekproefgemiddeld
μ = populasiegemiddeld soos deur die nulhipotese gestel
s = die steekproef-standaardafwyking
n = die steekproefgrootte
Dus:
t-stat = ��������√��
= -1.333
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit = -1.708
95% 5%
Elementêre Kwantitatiewe Metodes
228 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Stap 4: Besluit of die nulhipotese verwerp moet word
Die t-stat van -1.333 val dus binne die area van aanvaarding.
Daar is nie voldoende bewys om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Daar is nie voldoende statistiese bewys om te kan sê dat die gemiddelde kliënt minder as
R100 per besoek spandeer nie.
Vraag 3:
’n Navorser lees ’n akademiese artikel oor demografiese kenmerke van personeel wat in ’n
spesifieke bedryf in Amerika werksaam is. Hierdie artikel beweer dat die gemiddelde
ouderdom van finansiële adviseurs in Amerika 49 jaar is. Sy wil bepaal of die Suid-
Afrikaanse finansiële bedryf soortgelyke resultate sal lewer. Sy onttrek dus ’n steekproef van
36 uit al die finansiële adviseurs in die land en vind ’n gemiddelde ouderdom van 46 jaar,
met ’n steekproef-standaardafwyking van 9.4 jaar.
Toets, teen ’n 95% vlak van sekerheid, of die populasiegemiddeld wel 49 is.
Antwoord:
Hierdie vraag demonstreer waarom ’n hipotesetoets altyd gedoen moet word wanneer ’n
gevolgtrekking oor die populasie op die steekproef van toepassing gemaak word. ’n Mens se
eerste instink is om na die 46 te kyk en onmiddellik tot die gevolgtrekking te kom dat die
populasiegemiddeld nie 49 is nie. Dit is egter ’n gevaarlike gevolgtrekking as dit sonder die
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit = -1.708
95% 5%
t-stat = -1.333
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 229
nodige hipotesetoets gedoen word, omdat die invloed van die steekproefmetode, die hoë
standaardafwyking en die klein steekproefgrootte nie in ag geneem word nie.
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ = 49
H1: μ ≠ 49
Hierdie is ’n tweekantige hipotese.
Stap 2: Vind die kritiese waarde
Die grade van vryheid is:
df = n – 1
= 36 – 1
= 35
Die α-waarde is 0.05, maar omdat dit ’n tweekantige hipotesetoets is, moet hierdie waarde
in twee gedeel word. Ons gebruik dus ’n α-waarde van 0.025 om die t-crit te bereken. Die
plek in die t-tabel waar die 0.025-kolom en die 35-ry kruis, bevat ’n t-waarde van 2.030.
Omdat dit ’n tweekantige toets is, is die t-waarde ± 2.030. Die diagram hieronder stel dit
grafies voor.
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
As die t-stat in hierdie
area val, word H0
verwerp.
95% 2.5% 2.5%
t-crit = -2.030 t-crit = 2.030
Elementêre Kwantitatiewe Metodes
230 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Stap 3: Bereken die toetsstatistiek
t-stat = ��6*√�
waar:
x = steekproefgemiddeld
μ = populasiegemiddeld soos deur die nulhipotese gestel
s = die steekproef-standaardafwyking
n = die steekproefgrootte
Dus:
t-stat = ������.�√��
= -1.915
Stap 4: Besluit of die nulhipotese verwerp moet word
Om hierdie stap te voltooi is dit nodig om die t-stat met die t-crit te vergelyk. Die beste wyse
om dit te doen is op die normaalverdeling:
Die t-stat lê dus binne die aanvaardingsgebied.
Daar is nie voldoende bewyse om H0 te verwerp nie.
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
As die t-stat in hierdie
area val, word H0
verwerp.
95% 2.5% 2.5%
t-crit = -2.030 t-crit = 2.030
t-stat = -1.915
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 231
Stap 5: Gevolgtrekking
Die gemiddelde ouderdom van Suid-Afrikaanse finansiële adviseurs is 49 jaar.
Hierdie gevolgtrekking mag as ’n verrassing kom. Die steekproef se gemiddeld was dan nie
49 nie! Wat hier gebeur het, is dat ons nie voldoende statistiese ondersteuning gevind het
om die nulhipotese te verwerp nie. Hoewel daar steeds ’n moontlikheid is dat
populasiegemiddeld nie 49 is nie, is hierdie moontlikheid nie 95% of groter nie. Ons sal
egter eerder veilig speel en by die nulhipotese bly. Hierdie ingesteldheid word later in hierdie
hoofstuk bespreek.
8.5 Terug by Sonja se hipotese
Aan die begin van hierdie hoofstuk het Sonja vir Michael gevra om ’n hipotesetoets te doen.
Kyk of jy die hipotesetoets self kan doen voordat jy na die oplossing hieronder kyk! (Jy kan
’n 95% vlak van sekerheid hiervoor gebruik.)
Michael se antwoord:
Kyk weer na die waardes wat Michael tot sy beskikking gehad het:
Steekproefgrootte(n): 201
Steekproefgemiddeld: 4.874
Steekproef-standaardafwyking: 1.25
Die hipotese kan afgelei word uit iets wat Sonja oor vorige navorsing gesê het: “Die
navorsers het na ’n aantal ontwikkelende lande gekyk en gevind dat die medium en groot
sakeondernemings in daardie lande, minder as vyf persent van hul jaarlikse uitgawes aan
navorsing toeken. Ek wou kyk of ons dieselfde resultate in Suid-Afrika sou vind.” Wat ons
dus wil toets is of die Suid-Afrikaanse populasie van ondernemings ook ’n gemiddeld van
minder as 5% van hul uitgawes aan navorsing spandeer.
Sonja het nie aangedui teen watter vlak van sekerheid sy haar hipotese wou toets nie. Ons
gaan vir die doel van hierdie bespreking ’n 95% vlak van sekerheid gebruik.
Ons kan nou die vyf stappe van hipotesetoetsing op Sonja se probleem van toepassing
maak:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ ≥ 5
H1: μ < 5
Elementêre Kwantitatiewe Metodes
232 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
Hierdie is ’n eenkantige (linkskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Ons moet die t-tabel gebruik omdat die populasie se standaardafwyking nie bekend is nie.
Ons benodig die grade van vryheid en die α-waarde hiervoor.
df = n – 1
= 201 – 1
= 200
α = 0.05 en, omdat ons met ’n eenkantige hipotesetoets werk, hoef ons nie die 0.05 in twee
te deel nie.
Die plek waar die 0.05-kolom en die 200-ry kruis, is by ’n t-waarde van 1.653. Hierdie is
egter ’n linkskantige hipotesetoets, wat beteken dat die t-crit negatief moet wees:
t-crit = -1.653
Stap 3: Bereken die toetsstatistiek
t-stat = ��6*√�
waar:
x = steekproefgemiddeld
μ = populasiegemiddeld soos deur die nulhipotese gestel
s = die steekproef-standaardafwyking
n = die steekproefgrootte
Dus:
t-stat = �. �����.��√���
= -1.429
Stap 4: Besluit of die nulhipotese verwerp moet word
Die t-crit en t-stat kan soos volg op die normaalverdeling aangedui word:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 233
Die t-stat lê dus nie binne die verwerpingsarea nie.
Daar is nie voldoende bewyse om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Die populasiegemiddeld is nie minder as 5% nie.
Dus, hoewel Sonja se steekproefgemiddeld wel minder as 5 was, was die verskil nie groot
genoeg om vir moontlike foutiewe aannames voorsiening te maak nie.
’n Hipotesetoets: Die hofsaak
’n Maklike manier om na ’n hipotesetoets te verwys is om dit met ’n hofsaak te vergelyk. Jy
sal oplet dat ons nooit sê “die alternatiewe hipotese word aanvaar” nie. Die rede hiervoor is
omdat ons streng gesproke nooit die alternatiewe hipotese direk toets nie. Ons kyk na die
moontlikheid dat die nulhipotese nie waar is nie – die waarskynlikheid dat dit verwerp kan
word. En as ons die nulhipotese verwerp (en dit dus vals is), is daar geen alternatief
behalwe die feit dat die alternatiewe hipotese waar is nie.
Gestel jy is ’n regter. Die hipotesetoets is ’n hofsaak. Die wet wat jy gebruik is die kritiese
waarde (z-crit of t-crit). Die beskuldigde is die nulhipotese. Die nulhipotese word daarvan
beskuldig dat hy vals is. Indien die nulhipotese skuldig bevind word, word hy verwerp (na ’n
donker tronksel vir die res van sy lewe gestuur). Omdat die straf baie swaar is, wil ons egter
voldoende bewyse hê voordat ons besluit dat die nulhipotese verwerp word. Elke hofsaak is
anders: sommige hofsake vereis ’n 95% sekerheid, ander 99% en ander 90%.
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit = -1.653
95% 5%
t-stat = -1.429
X
Elementêre Kwantitatiewe Metodes
234 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)
As jy besluit om die nulhipotese te verwerp (en in ’n donker tronksel se sit), los jy ’n gaping
in die plek waar hierdie nulhipotese eens was (voordat hy weggeneem is na die tronksel
toe). Die enigste beskikbare persoon om hierdie gaping te vul, is die alternatiewe hipotese.
Die rede waarom ons die alternatiewe hipotese as die waarheid aanvaar, is dus nie omdat
ons die alternatiewe hipotese getoets het nie. Dit is omdat die nulhipotese net eenvoudig nie
kan waar wees nie en die alternatiewe hipotese die enigste ander moontlike antwoord is.
8.6 Ten slotte
’n Hipotesetoets is baie nuttig om meer akkurate gevolgtrekkings ten opsigte van ’n
populasie te maak. Hierdie hoofstuk het slegs na een tipe hipotesetoets gekyk: een
veranderlike (’n gemiddeld) en een steekproef. Daar is egter ’n verskeidenheid van
hipotesetoetse. Die res van hierdie gids word toegewy aan hipotesetoetse. Dit is belangrik
dat jy hierdie hoofstuk onder die knie het voordat jy na ander hipotesetoetse gaan kyk. Al die
toetse volg dieselfde stappe, maar elkeen het ’n ander benadering.
Hoofstuk 9 gaan jou bekendstel aan ’n hipotesetoets vir twee steekproewe (en dus twee
populasies). Daar gaan steeds slegs een veranderlike (’n gemiddeld) wees, maar ons gaan
na die volgende kyk:
• Die verskil tussen die gemiddelde van twee populasies: Hier sal ons weer onderskei
tussen ’n t-toets en z-toets, afhangende van of die populasie se standaardafwyking
bekend is. Ons gaan toets of een populasie se gemiddeld groter as, kleiner as of
gelyk aan die gemiddeld van ’n ander populasie is.
• Die verandering van ’n veranderlike, gemeet by dieselfde populasie op twee
verskillende tye.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 235
HHOOOOFFSSTTUUKK 99:: HHIIPPOOTTEESSEETTOOEETTSS VVIIRR TTWWEEEE SSTTEEEEKKPPRROOEEWWEE
Onderwerpe
9.1 Hipotesetoets vir een veranderlike, twee populasies;
populasie-standaardafwyking is bekend
9.2 Hipotesetoets vir twee steekproewe indien σ nie
bekend is nie
9.3 Die gepaarde t-toets (matched pair t-test)
Elementêre Kwantitatiewe Metodes
236 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Gevallestudie…
“Ek hoor die Bemarkingsdepartement is baie beïndruk met hulle nuwe statistikus.”
Michael frons. Hy is nie bewus van enige iemand van hul departement wat by Bemarking
werk nie. “Wie is dit?”
Vanessa knip nie ’n oog nie. “Ek weet nie. Ek hoor net hy het hulle van totale ondergang
gered deur vir Sonja te leer hoe om ’n hipotesetoets te doen.”
Dan besef Michael dat Vanessa besig is om sy been te trek. Hy speel saam.
“Ek hoop dat die statistikus genooi is om op ’n Europese vakansie te gaan, sou ’n sekere
persoon in die Bemarkingsdepartement die kompetisie wen. Anders sal hy hulle moet
faktureer en ek hoor sy fooie is onbekostigbaar.”
Vanessa lag. “Ek het gehoop om dieselfde statistikus te gebruik vir ’n nuwe uitdaging.”
“Fooie is onderhandelbaar,” sê Michael vinnig.
“Mooi. Want ons het ’n paar hipotesetoetse om uit te voer.”
“Kan nie wag nie.” Michael maak ’n plek op die tafel skoon en Vanessa haal ’n paar
dokumente uit haar tas.
“Vasvat Versekeraars is steeds besig met ’n profiel van hul kliënte. Ongelukkig is daar nie
voldoende data beskikbaar om sommige van hul vrae te beantwoord nie. Ons sal self hierdie
data moet versamel en dit sal slegs deur ’n steekproef kan gebeur.”
“Wat wil hulle weet?”
“Vraag een: Hoe gereeld koop kliënte motors?”
“Dit is ’n eenvoudige toets,” sê Michael. “Waarmee wil hulle dit vergelyk?”
“Dit is die uitdaging. Vasvat wil kyk na verskillende profiele van kliënte en kyk of daar ’n
verskil is tussen die frekwensies waarteen hulle motors koop.”
“Watter tipe vraag sal ons vir die kliënte vra? Hoeveel motors het jy al gekoop?”
“Daardie vraag sal problematies wees as ons kliënte van verskillende ouderdomme vra. Ek
het gedink om te vra: ‘Hoeveel motors het jy in die laaste vyf jaar gekoop?’ En ons vra dit
slegs vir kliënte wat vir vyf jaar of langer oud genoeg is om te bestuur.”
“Ek stem saam,” antwoord Michael. “Wie is die verskillende groepe wat vergelyk moet
word?”
“Wel, terwyl jy die Bemarkingsdepartement van ondergang gered het, het ons veldwerkers
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 237
reeds inligting versamel vir ’n ander projek. Hulle het hierdie vraelys gestuur aan kliënte wat
vir die Vat-dit-Kalm- en die Pasgemaakte pakkette ingeskryf is.”
Michael kyk na die vraelys en sien, onder andere, die volgende vrae:
“Op die volgende bladsy is vrae oor die kliënt se pakket en inkomste,” beduie Vanessa. “Ek
het die rou data aangevra en ’n paar beskrywende statistieke verkry.” Sy oorhandig nog ’n
vel papier vir Michael. Hy sien die volgende:
Vat-dit-kalm Pasgemaak
Gemiddelde motorkoop-
frekwensie (motors per 5
jaar)
1.32 1.89
Standaardafwyking (s) 0.45 0.76
Steekproefgrootte (n) 46 36
Elementêre Kwantitatiewe Metodes
238 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Michael kyk vir ’n oomblik na die statistieke. “Ons kan ’n twee-steekproef t-toets doen om te
kyk of daar ’n verskil tussen die gemiddelde is. Dit hang natuurlik af wat Vasvat wil weet. Wil
hulle weet of daar ’n verskil is?”
“Hulle glo dat Pasgemaak-kliënte meer gereeld motors koop as die Vat-dit-kalm-kliënte. Ek
dink dus ons sal ’n regskantige hipotesetoets doen.”
“Tjop-tjop,” sê Michael selfversekerd. “Wat is die tweede vraag?”
“Vasvat het ’n opleidingsprogram vir hul bemarkingspersoneel aangebied. Hulle wil weet of
dit suksesvol was.”
“En hoe meet hulle sukses?”
“Maklik. Hulle kyk of die personeel se verkope toegeneem het. In randwaarde.”
“En het hulle daardie data beskikbaar? Dit sal makliker wees as ons nie ’n steekproef hoef te
doen nie, maar al die data kan gebruik.”
“Ongelukkig nie.” Vanessa het duidelik ook aan hierdie moontlikheid gedink. “Ons sal ’n
steekproef moet neem. Die goeie nuus is dat al die personeel wat die opleiding bygewoon
het, ’n bewys van hul laaste ses maande se verkope moes saambring. Ons het dus daardie
inligting beskikbaar. Ons sal ’n steekproef neem van almal wat die kursus bygewoon het en
hul laaste paar maande se verkoopsyfers aanvra.”
“En dan kan ons die verkoopsyfers voor die opleiding en die verkoopsyfers ná die opleiding
met mekaar vergelyk.”
“Korrek.”
Michael kyk weer na die inligting oor die frekwensie van motor-aankope. “Kan ek solank
hiermee begin?”
“Natuurlik,” antwoord Vanessa.
Om die vrae wat Vasvat Versekeraars hierbo vra te beantwoord, sal ons twee tipes
hipotesetoetse nodig hê. Die eerste vraag vergelyk bloot die gemiddelde van twee
populasies en bepaal of die een gemiddeld groter as die ander is. Die tweede vraag vergelyk
’n spesifieke veranderlike (verkope) by dieselfde populasie, maar die steekproef word twee
keer (oor ’n spesifieke tydperk) geneem.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 239
9.1 Hipotesetoets vir een veranderlike, twee populasies; populasie-standaardafwyking is bekend
Soos wat die geval met vorige hipotesetoetse was, kan ons ’n z-toets en t-toets gebruik om
die verskil tussen twee populasiegemiddelde te bepaal. Ons gebruik die t-toets as ons slegs
die steekproef se standaardafwyking het en die populasie se standaardafwyking onbekend
is. As die populasie se standaardafwyking bekend is, kan ons egter die z-toets gebruik.
In laasgenoemde geval word die z-crit op presies dieselfde wyse bereken as wat ons met
Hoofstuk 8 se hipotesetoetse gedoen het. Die z-stat se formule is egter anders:
z-stat = ���� ��� � �6�� 6��
C7���� D 7����
waar:
x1 = die eerste steekproef se gemiddeld
x2 = die tweede steekproef se gemiddeld
x1 – x2 = die verskil tussen die steekproefgemiddelde
μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag. (Dit
behoort dus die meeste van die tyd 0 te wees omdat die nulhipotese verwag dat daar geen
verskil tussen die twee populasies se gemiddelde is nie. Die alternatiewe hipotese sal die
verskil aandui.)
σ1 en σ2 = die populasie-standaardafwykings van die twee populasies
n1 en n2 = die steekproefgroottes van die twee steekproewe
Die normaalverdeling word steeds gebruik om die z-stat met die z-crit te vergelyk. Die
volgende voorbeelde sal hierdie tipe hipotesetoets verduidelik:
Voorbeeld: Hipotesetoets vir twee populasies; σ bekend
Vraag 1:
’n Navorser vermoed dat ervare akteurs meer geld verdien as beginner-akteurs. Hy trek
twee steekproewe: 81 ervare akteurs en 121 beginner-akteurs. Die gemiddelde inkomste
van die ervare akteurs is R1 850 vir ’n dag se werk, terwyl die beginner-akteurs gemiddeld
R1 650 per dag verdien. Jy kan aanneem dat die populasie-standaardafwykings vir ervare
akteurs se vergoeding R255 is en dat die populasie-standaardafwyking vir beginner-akteurs
se vergoeding R280 is.
Elementêre Kwantitatiewe Metodes
240 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Bepaal, teen ’n 95% vlak van sekerheid, of ervare akteurs wel meer as beginner-akteurs
verdien het.
Antwoord:
Die verskillende veranderlikes en ooreenkomstige waardes mag verwarrend voorkom as dit
in paragraaf-formaat verskaf word. Daarom is dit belangrik om eers die waardes op te som:
Veranderlike Steekproef/populasie 1
(Ervare akteurs)
Steekproef/populasie 2
(Beginner-akteurs)
Steekproefgemiddeld (x) R1 850 R1 650
Populasie-
standaardafwyking (σ) R255 R280
Steekproefgrootte (n) 81 121
Nou kan ons dieselfde stappe volg wat ons in Hoofstuk 8 se hipotesetoetse gevolg het:
Stap 1: Vind die nul- en alternatiewe hipotese
Die nulhipotese sal beweer dat daar geen verskil tussen die twee populasiegemiddelde is
nie. Die alternatiewe hipotese sal die besigheidsprobleem – dit wat die navorser vermoed –
toets:
H0: μ1 – μ2 ≤ 0
H1: μ1 – μ2 > 0
Die alternatiewe hipotese beweer dat daar wel ’n verskil is en dat die ervare akteurs
(populasie 1) se gemiddelde inkomste hoër sal wees as dié van beginner-akteurs.
Hierdie is ’n eenkantige (regskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Omdat die populasie se standaardafwyking bekend is, kan ons die z-tabel gebruik. Ons
gebruik dieselfde metode as wat ons in Hoofstuk 8 gebruik het. Die vlak van sekerheid is
95%, wat beteken dat ons α-waarde 0.05 is. Omdat dit ’n eenkantige hipotesetoets is, hoef
die 0.05 nie in twee gedeel te word nie. Die z-crit is dus 1.645. Die z-crit word weereens
soos volg op die normaalverdeling aangedui:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 241
Stap 3: Bereken die toetsstatistiek
Die formule vir die z-stat is anders as wat die geval van een populasie was. Die formule vir
die z-stat is:
z-stat = ���� ��� � �6�� 6��
C7���� D 7����
waar:
x1 = die eerste steekproef se gemiddeld
x2 = die tweede steekproef se gemiddeld
μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag
σ1 en σ2 = die populasie-standaardafwykings van die twee populasies
n1 en n2 = die steekproefgroottes van die twee steekproewe
Ons kan nou die waardes in die formule invervang:
z-stat = �� �������� � �
&���� � D � ��
���
= 5.251
Stap 4: Besluit of die nulhipotese verwerp moet word
Om hierdie besluit te neem word die z-stat weer met die z-crit vergelyk. Onthou om altyd ’n
normaalverdeling te teken voordat hierdie vergelyking gedoen word:
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit =1.645
95% 5%
Elementêre Kwantitatiewe Metodes
242 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Die z-stat val binne die verwerpingsgebied. Dus:
Daar is voldoende statistiese ondersteuning om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Ervare akteurs verdien inderdaad ’n hoër inkomste per dag as beginner-akteurs.
Vraag 2:
’n Navorser is geïnteresseerd in die hoeveelheid aanhangers wat sepiesterre op hul
Facebook-blaaie het. Die navorser kyk na twee gewilde sepies, wat vir die doel van hierdie
navorsing slegs Sepie 1 en Sepie 2 genoem sal word. Gebaseer op die kykergetalle van die
sepies, het die navorser rede om te glo dat akteurs wat in Sepie 1 speel, gemiddeld minder
Facebook-aanhangers sal hê as akteurs wat in Sepie 2 speel.
Die navorser trek twee steekproewe van alle akteurs wat in die laaste vyf jaar op die sepie
verskyn het en vind die volgende data:
Veranderlike Steekproef/populasie 1
(Sepie 1)
Steekproef/populasie 2
(Sepie 2)
Steekproefgemiddeld (x) 41 600 aanhangers 43 100 aanhangers
Populasie-
standaardafwyking (σ) 11 000 8 500
Steekproefgrootte (n) 80 90
Toets die navorser se vermoede (dat die gemiddelde hoeveelheid aanhangers van ’n Sepie
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit =1.645
95% 5%
z-stat =5.251
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 243
1-akteur minder sal wees as die gemiddelde hoeveelheid aanhangers van ’n Sepie 2-akteur)
teen ’n 95% vlak van sekerheid.
Antwoord:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ1 – μ2 ≥ 0
H1: μ1 – μ2 < 0
Hierdie is ’n eenkantige (linkskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Die kritiese waarde is gebaseer op die α van 0.05. Omdat dit ’n eenkantige hipotesetoets is,
hoef hierdie waarde nie deur twee gedeel te word nie. Ons weet uit die vorige vraag die
ooreenkomstige z-waarde vir α = 0.05 is 1.645. Omdat hierdie egter ’n linkskantige
hipotesetoets is, sal die z-waarde negatief wees. Dus:
z-crit = -1.645
Stap 3: Bereken die toetsstatistiek
Dieselfde formule word vir die z-stat gebruik:
z-stat = ���� ��� � �6�� 6��
C7���� D 7����
waar:
x1 = die eerste steekproef se gemiddeld
x2 = die tweede steekproef se gemiddeld
μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag
σ1 en σ2 = die populasie-standaardafwykings van die twee populasies
n1 en n2 = die steekproefgroottes van die twee steekproewe
Ons kan nou die waardes in die formule invervang:
z-stat = $�� ��� � �� ���% � �
&�� ���� � D ����
��
= -0.986
Elementêre Kwantitatiewe Metodes
244 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Stap 4: Besluit of die nulhipotese verwerp moet word
Die z-stat word met die z-crit vergelyk. Die normaalverdeling word weereens hiervoor
gebruik:
Die z-stat is nie binne die verwerpingsgebied nie. Dus:
Daar is nie voldoende bewyse om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Die gemiddelde Sepie 1-akteur het nie minder aanhangers as die gemiddelde Sepie 2-
akteur nie.
Vraag 3:
’n Vervaardiger van ’n sepie wil seker maak dat daar nie teen akteurs gediskrimineer word
op grond van geslag nie. Die produksiemaatskappy het reeds ’n baie regverdige
vergoedingstelsel ontwikkel. Daar is egter sommige akteurs wat beweer dat daar nie
gelykheid is ten opsigte van die hoeveelheid woorde wat manlike en vroulike akteurs moet
leer nie. Die vervaardiger verskil van hierdie akteurs: hy glo dat die hoeveelheid woorde wat
manlike en vroulike akteurs moet leer, gelyk is.
Hy neem ’n steekproef van 100 tekste en tel die hoeveelheid woorde wat manlike en vroulike
akteurs moet sê. Hy vind die volgende:
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
z-crit = -1.645
95% 5%
z-stat = -0.986
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 245
Veranderlike Steekproef/populasie 1
(Manlike akteurs)
Steekproef/populasie 2
(Vroulike akteurs)
Steekproefgemiddeld (x) 2 205 woorde 2 295 woorde
Populasie-
standaardafwyking (σ)
450 510
Steekproefgrootte (n) 100 100
Toets die vervaardiger se aanname – dat manlike akteurs en vroulike akteurs dieselfde
hoeveelheid woorde moet leer – teen ’n 95% vlak van sekerheid.
Antwoord:
Stap 1: Vind die nul- en alternatiewe hipotese
Die nulhipotese sal die =-teken bevat:
H0: μ1 – μ2 = 0
H1: μ1 – μ2 ≠ 0
Hierdie is ’n tweekantige hipotesetoets.
Stap 2: Vind die kritiese waarde
Die α-waarde is 0.05. Omdat ons egter ’n tweekantige hipotese toets, moet hierdie 0.05 in
twee gedeel word. Die z-waarde vir ’n α-waarde van 0.025 (dus 0.05 gedeel deur twee) is
±1.96.
Stap 3: Bereken die toetsstatistiek
Die toetsstatistiek se berekening word nie deur die aard van die hipotese beïnvloed nie. Ons
gebruik dus dieselfde formule:
z-stat = ���� ��� � �6�� 6��
C7���� D 7����
waar:
x1 = die eerste steekproef se gemiddeld
x2 = die tweede steekproef se gemiddeld
μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag
σ1 en σ2 = die populasie-standaardafwykings van die twee populasies
Elementêre Kwantitatiewe Metodes
246 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
n1 en n2 = die steekproefgroottes van die twee steekproewe
z-stat = $� ��� � � ���% � �
&������� D ����
���
= -1.323
Stap 4: Besluit of die nulhipotese verwerp moet word
Om hierdie besluit te neem moet die z-stat met die z-crit vergelyk word:
Die z-stat val dus nie in die gebied van verwerping nie:
Daar is nie voldoende bewyse om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Daar is geen verskil tussen die gemiddelde hoeveelheid woorde wat manlike en vroulike
akteurs moet leer nie.
9.2 Hipotesetoets vir twee steekproewe indien σ nie bekend is nie
Wanneer die populasie se standaardafwyking nie bekend is nie, kan ons nie die z-crit en
z-stat gebruik nie. In hierdie geval moet ons ’n t-toets (met ’n t-crit en t-stat) gebruik. Die
As die z-stat hier val,
word H0 nie verwerp nie.
As die z-stat in hierdie
area val, word H0
verwerp.
As die z-stat in hierdie
area val, word H0
verwerp.
95% 2.5% 2.5%
z-crit = -1.96 z-crit = 1.96
z-stat = -1.323
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 247
t-toets vir twee steekproewe werk op dieselfde beginsel as vir een steekproef, maar die
volgende veranderings word aangetref:
• Die grade van vryheid wat vir die berekening van die t-crit benodig word, verskil van
dié van een steekproef.
• Die t-stat se formule verskil redelik baie van die z-stat wanneer ’n hipotesetoets vir
twee steekproewe gedoen word.
Grade van vryheid:
Die grade van vryheid vir een steekproef is maklik om te bereken. Ons gebruik die formule:
df = n – 1
In hierdie geval werk ons egter nie met slegs een steekproef nie, en die grade van vryheid
benodig ’n formule wat beide steekproewe in ag neem. Die formule vir die grade van vryheid
in hierdie geval is:
df = n1 + n2 – 2
Formule vir t-stat:
Die formule vir die t-stat lyk soos volg:
t-stat = ��� � ��� � �6� � 6��
&EF�� ��� D ����
waar:
x1 = die gemiddeld van die eerste steekproef
x2 = die gemiddeld van die tweede steekproef
μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag
(hierdie sal in al die voorbeelde in hierdie hoofstuk 0 wees)
n1 = die steekproefgrootte van die eerste steekproef
n2 = die steekproefgrootte van die tweede steekproef
Sp2: Hierdie veranderlike is ’n gesamentlike standaardafwyking wat bereken moet word. Sp
2
het ’n aparte formule:
Sp2 =
���� ��*�� D ��� � ��*����D �� � �
waar:
n1 = die steekproefgrootte van Steekproef 1
Elementêre Kwantitatiewe Metodes
248 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
n2 = die steekproefgrootte van Steekproef 2
s1 = die standaardafwyking van Steekproef 1
s2 = die standaardafwyking van Steekproef 2
Wenk:
Die formule(s) vir die t-stat in hierdie geval mag intimiderend voorkom. Hierdie formule is
egter niks om voor bang te wees nie. Wanneer jy ’n hipotesetoets soos hierdie doen,
bereken eers met Sp2. As jy hierdie waarde in die t-stat se formule invervang, is die t-stat
formule selfs minder gekompliseerd as die z-stat!
Die volgende voorbeelde sal gebruik word om 'n t-toets te demonstreer:
Voorbeeld: Hipotesetoets vir twee steekproewe as σ onbekend is
Vraag 1:
Die bestuurder van ’n oproepsentrum bied ’n werkswinkel in produktiwiteit aan personeel wat
by die oproepsentrum werk. Die werkswinkel is nie verpligtend nie en daar is ’n groot
hoeveelheid personeel wat nie die werkswinkel bywoon nie. Die bestuurder vermoed egter
dat personeel wat die werkswinkel bygewoon het, gemiddeld meer kliënte per dag help as
personeel wat nie die werkswinkel bygewoon het nie. Die bestuurder trek ’n steekproef uit
elk van die twee populasies en vind die volgende:
Veranderlike
Steekproef/populasie 1
(Personeel wat die
werkswinkel bygewoon het)
Steekproef/populasie 2
(Personeel wat nie die
werkswinkel bygewoon het
nie)
Steekproefgemiddeld (x) 16.7 kliënte per dag gehelp 14.5 kliënte per dag gehelp
Steekproef-
standaardafwyking (s)
2.1 3.3
Steekproefgrootte (n) 40 32
Bepaal, teen ’n 95% vlak van sekerheid, of die bestuurder se vermoede – dat personeel wat
die werkswinkel bygewoon het meer kliënte op ’n dag help as dié wat nie die werkswinkel
bygewoon het nie – waar is.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 249
Antwoord:
Ons volg dieselfde stappe vir die toets van ’n hipotese:
Stap 1: Vind die nul- en alternatiewe hipotese
Die hipotesestellings verskil nie van die voorbeelde wat ons vroeër in hierdie hoofstuk
gedoen het nie.
H0: μ1 – μ2 ≤ 0
H1: μ1 – μ2 > 0
Hierdie is ’n eenkantige (regskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Om die kritiese waarde te bereken benodig ons die vlak van sekerheid en die grade van
vryheid. Ons gaan die t-tabel hiervoor gebruik.
Die vlak van sekerheid is 95%, wat vir ons ’n α-waarde van 0.05 gee. Omdat dit ’n
eenkantige hipotesetoets is, hoef die 0.05 nie in twee gedeel te word nie.
Die grade van vryheid vir twee steekproewe se formule is:
df = n1 + n2 – 2
Waar n1 en n2 die groottes van die twee steekproewe voorstel, dus:
df = 40 + 32 – 2
= 70
Ons kan dus nou die t-tabel gebruik. Die plek waar die 0.05-kolom en die 70-ry kruis, verskaf
’n t-waarde van 1.667. Dus:
t-crit = 1.667
Stap 3: Bereken die toetsstatistiek
Om die toetsstatistiek (t-stat) te bereken benodig ons eerstens Sp2. Die formule is:
Sp2 =
��� � ��*� � D ��� � ��*����D �� � �
waar:
n1 = die steekproefgrootte van Steekproef 1
n2 = die steekproefgrootte van Steekproef 2
s1 = die standaardafwyking van Steekproef 1
Elementêre Kwantitatiewe Metodes
250 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
s2 = die standaardafwyking van Steekproef 2
Dus:
Sp2 =
��� � ���.��D ��� � ���.���� D �� � �
= 7.2979
Sodra ons hierdie waarde het, kan ons die t-stat bereken. Die formule vir die t-stat is:
t-stat = ��� � ��� � �6�� 6��
&EF�� ��� D � ���
waar:
x1 = die gemiddeld van die eerste steekproef
x2 = die gemiddeld van die tweede steekproef
μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag
n1 = die steekproefgrootte van die eerste steekproef
n2 = die steekproefgrootte van die tweede steekproef
Dus:
t-stat = ���.� � ��.�� � �&�.����� ��� D ����
= 3.438
Stap 4: Besluit of die nulhipotese verwerp moet word
Die t-crit word met die t-stat vergelyk:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 251
Die t-stat lê dus in die gebied van verwerping. Dus:
Daar is voldoende statistiese bewys om die H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Die bestuurder se vermoede is bevestig: Personeel wat die werkswinkel bygewoon het, help
gemiddeld meer kliënte per dag as personeel wat nie die werkswinkel bygewoon het nie.
Vraag 2:
’n Bestuurder van ’n internasionale 24-uur oproepsentrum glo dat personeel wat in die nag
werk minder kliënte in ’n skof help as personeel wat in die dag werk. Die bestuurder glo dat
nagskofpersoneel dus minder betaal moet word. Die bewering word deur die
nagskofpersoneel bevraagteken en die bestuurder besluit om die stelling te toets. Sy neem
twee steekproewe uit die dagskof- en nagskofpersoneel onderskeidelik en vind die
volgende:
Veranderlike Steekproef/populasie 1
(Nagskofpersoneel)
Steekproef/populasie 2
(Dagskofpersoneel)
Steekproefgemiddeld (x) 13.1 kliënte per skof gehelp 15.2 kliënte per skof gehelp
Steekproef-
standaardafwyking (s)
4.1 5.2
Steekproefgrootte (n) 22 20
Bepaal, teen ’n 95% vlak van sekerheid, of die bestuurder se aanname – dat
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit =1.667
95% 5%
t-stat =3.438
X
Elementêre Kwantitatiewe Metodes
252 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
nagskofpersoneel minder kliënte per skof help as dagskofpersoneel – korrek is.
Antwoord:
Omdat ons nie die populasie se standaardafwyking tot ons beskikking het nie, moet ons die
t-toets gebruik.
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ1 – μ2 ≥ 0
H1: μ2 – μ2 < 0
Hierdie is ’n eenkantige (linkskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Om t-crit te vind benodig ons ’n waarde vir α en die grade van vryheid:
α = 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef die 0.05 nie deur twee gedeel te
word nie.
df = n1 + n2 – 2
= 22 + 20 – 2
= 40
In die t-tabel, op die plek waar die 0.05-kolom en die 40-ry kruis, vind ons 'n waarde van
1.684. Omdat dit egter 'n linkskantige hipotesetoets is, sal die t-crit negatief wees. Dus:
t-crit = -1.684
Stap 3: Bereken die toetsstatistiek
Om die toetsstatistiek te bereken moet ons eers Sp2 bereken:
Sp2 =
���� ��*� � D ��� � ��*����D �� � �
= ��� � ��4.�>D ��� � ��<.�>
�� D �� � �
= 21.6693
Ons kan nou die t-stat bereken:
t-stat = ���� ��� � �6�� 6��
&EF�� ��� D ����
waar:
x1 = die gemiddeld van die eerste steekproef
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 253
x2 = die gemiddeld van die tweede steekproef
μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag
n1 = die steekproefgrootte van die eerste steekproef
n2 = die steekproefgrootte van die tweede steekproef
Dus:
t-stat = ���.� � ��.�� � �
&��.����� ��� D ����
= -1.460
Stap 4: Besluit of die nulhipotese verwerp moet word
Om hierdie besluit te neem moet die t-stat met die t-crit vergelyk word:
Die t-stat val dus nie in die area van verwerping nie. Dus:
Daar is nie voldoende bewyse om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Die bestuurder se aanname is foutief – daar is geen verskil tussen die hoeveelheid kliënte
wat per skof deur die nag- en dagskofpersoneel bedien word nie.
Vraag: Watter steekproef is Steekproef 1?
Hoe weet ’n mens dat die nagskofpersoneel die eerste steekproef moes wees en die
dagskofpersoneel die tweede? Die antwoord is dat dit nie werklik saak maak nie. Indien jy
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit = -1.684
95% 5%
t-stat = -1.460
X
Elementêre Kwantitatiewe Metodes
254 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
sou besluit dat die dagskofpersoneel Steekproef 1 moes wees, sou die hipotese
regskantig gewees het (dagskofpersoneel bedien meer kliënte as nagskofpersoneel), die
t-crit sou positief gewees het, die t-stat sou positief gewees het, maar die nulhipotese sou
steeds nie verwerp word nie.
Dus, ongeag watter steekproef as Steekproef 1 geklassifiseer word, die gevolgtrekking sal
dieselfde bly. Onthou egter: as jy ’n groep as Steekproef 1 geklassifiseer het, moet jy by
daardie klassifisering bly vir die hele hipotesetoets.
Probeer dieselfde voorbeeld hierbo, maar stel Steekproef 1 as die dagskofwerkers en
Steekproef 2 as die nagskofwerkers. Kyk of jy tot dieselfde gevolgtrekking sal kom.
Vraag 3:
Die bestuurder van ’n oproepsentrum wil bepaal of daar ’n verskil is tussen die gemiddelde
ouderdom van nagskof- en dagskofpersoneel. Die bestuurder onttrek ’n steekproef uit die
twee groepe en vind die volgende:
Veranderlike Steekproef/populasie 1
(Nagskofpersoneel)
Steekproef/populasie 2
(Dagskofpersoneel)
Steekproefgemiddeld (x) 26.9 jaar 31.8 jaar
Steekproef-
standaardafwyking (s)
3.1 5.5
Steekproefgrootte (n) 18 22
Bepaal, teen ’n 95% vlak van sekerheid, of daar ’n verskil tussen die gemiddelde ouderdom
van die nagskof- en dagskofpersoneel is.
Antwoord:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ1 – μ2 = 0
H1: μ1 – μ2 ≠ 0
Hierdie is ’n tweekantige hipotesetoets.
Stap 2: Vind die kritiese waarde
Die α-waarde is 0.05. Omdat dit ’n tweekantige hipotesetoets is, moet die α-waarde deur
twee gedeel word. Ons gebruik dus αααα = 0.025.
Die grade van vryheid is:
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 255
df = n1 + n2 – 2
= 18 + 22 – 2
= 38
Die plek in die t-tabel waar die 0.025-kolom en die 38-ry kruis, verskaf ’n t-waarde van
2.024. Omdat dit ’n tweekantige hipotesetoets is, kom die t-crit aan beide kante van die
normaalverdeling voor. Dus:
t-crit = ±2.204
Stap 3: Bereken die toetsstatistiek
Om die toetsstatistiek te bereken moet ons eers Sp2 bereken:
Sp2 =
���� ��*�� D ��� � ��*����D ��� �
= �� � ���.��D ��� � ���.��
� D �� � �
= 21.0163
Nou kan ons die t-stat bereken:
t-stat = ���� ��� � �6�� 6��
&EF�� ��� D ����
= ���.� � ��. � � �
&��.����� �� D ����
= -3.363
Stap 4: Besluit of die nulhipotese verwerp moet word
Om hierdie besluit te neem moet die t-stat met die t-crit vergelyk word:
Elementêre Kwantitatiewe Metodes
256 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Die t-stat val in die verwerpingsgebied. Dus:
Daar is voldoende bewys om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Daar is wel ’n verskil tussen die gemiddelde ouderdom van dagskof- en nagskofpersoneel.
Vraag 4: Vasvat Versekeraars
Kyk weer na die probleem wat Vanessa aan die begin van hierdie hoofstuk met Michael
gedeel het. Tydens ’n steekproef in twee verskillende populasies (Vat-dit-kalm-kliënte en
Pasgemaak-kliënte) is die volgende data gevind:
Vat-dit-kalm Pasgemaak
Gemiddelde motorkoop-
frekwensie (motors per 5
jaar)
1.32 1.89
Standaardafwyking (s) 0.45 0.76
Steekproefgrootte (n) 46 36
Vasvat Versekeraars vermoed dat die Pasgemaak-kliënte meer gereeld motors koop as die
Vat-dit-kalm-kliënte. Toets nou hierdie hipotese teen ’n 95% vlak van sekerheid.
Antwoord:
Jy kan self besluit watter steekproef jy as Steekproef 1 en Steekproef 2 wil klassifiseer. Vir
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
As die t-stat in hierdie
area val, word H0
verwerp.
95% 2.5% 2.5%
t-crit = -2.204 t-crit = 2.204
t-stat = -3.363
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 257
hierdie voorbeeld sal ons Vat-dit-kalm-kliënte in Steekproef 1 plaas, terwyl die Pasgemaak-
kliënte Steekproef 2 sal wees. Die besigheidsvraag sal dan ook aangepas word: Ons wil
toets of die Vat-dit-kalm-kliënte minder gereeld motors koop as die Pasgemaak-kliënte.
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ1 – μ2 ≥ 0
H1: μ1 – μ2 < 0
Hierdie is ’n eenkantige (linkskantige) hipotese.
Stap 2: Vind die kritiese waarde
Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef hierdie waarde nie in
twee gedeel te word nie.
Die grade van vryheid word soos volg bereken:
df = n1 + n2 – 2
= 46 + 36 – 2
= 80
Die plek in die t-tabel waar die 0.05-kolom en 80-ry kruis, verskaf ’n t-waarde van 1.664.
Omdat hierdie ’n linkskantige hipotesetoets is, sal die t-crit negatief wees. Dus:
t-crit = -1.664
Stap 3: Bereken die toetsstatistiek
Om die t-stat te bereken moet ons eers Sp2 bereken:
Sp2 =
���� ��*� � D ��� � ��*����D �� � �
= ��� � ���.���D ��� � ���.���
�� D �� � �
= 0.367
Ons kan nou die t-stat bereken:
t-stat = ���� ��� � �6�� 6��
&EF�� ��� D ����
= ��.�� � �. �� � �&�.���� ��� D � ���
= -4.228
Elementêre Kwantitatiewe Metodes
258 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Stap 4: Besluit of die nulhipotese verwerp moet word
Vergelyk die t-stat met die t-crit:
Die t-stat val in die area van verwerping. Dus:
Daar is voldoende bewyse om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Die Vat-dit-kalm-kliënte koop inderdaad minder gereeld motors as die Pasgemaak-kliënte.
(Hierdie gevolgtrekking kan ook herfraseer word na: Die Pasgemaak-kliënte koop inderdaad
meer gereeld motors as die Vat-dit-kalm-kliënte.)
9.3 Die gepaarde t-toets (matched pair t-test)
’n Tweede vraag wat deur Vasvat versekeraars gevra is, behels die verandering wat ’n
spesifieke populasieverandering oor ’n sekere tydperk ondergaan het. In Vasvat se geval is
dit die gemiddelde ses-maande verkoopsyfers, voor en na die opleiding. Ander vrae wat
deur hierdie spesiale toets beantwoord kan word, is:
• Het studente beter punte behaal na die ekstra klas aangebied is?
• Het pasiënte se witbloedsel-telling toegeneem/afgeneem nadat hulle behandeling
ontvang het?
• Het die voorkoms van padongelukke verminder nadat die bewusmakingsveldtog
geloods is?
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit = -1.664
95% 5%
t-stat = -4.228
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 259
Hierdie hipotesetoets verskil van die vorige toetse in hierdie hoofstuk in die sin dat ons een
populasie twee keer ondersoek om te bepaal of ’n sekere populasiegemiddeld toegeneem,
afgeneem of dieselfde gebly het.
Die stappe vir ’n hipotesetoets bly dieselfde. Hierdie toets word op dieselfde wyse benader
as die t-toets wat ons in Hoofstuk 8 gedoen het. Die enigste verskil is dat ons
steekproefgemiddeld nie x is nie, maar xd. En xd moet eers bereken word voordat ons met
die hipotesetoets kan begin. Sodra xd gevind word, kan die hipotesetoets op dieselfde wyse
as Hoofstuk 8 se t-toets voltooi word.
Belangrik:
Soos jy uit die bogenoemde bespreking kan aflei, is dit belangrik dat jy Hoofstuk 8 onder die
knie het voordat jy met hierdie hipotesetoets kan voortgaan.
Die volgende voorbeelde verduidelik hoe die gepaarde t-toets gedoen word.
Voorbeeld: Die gepaarde t-toets
Vraag 1:
’n Statistiekdosent wil bepaal of Winterskool ’n positiewe effek op studente se punte het. Die
dosent laat studente ’n toets skryf voordat hulle die Winterskool bywoon. Na die Winterskool
laat die dosent die studente ’n soortgelyke toets skryf. Die dosent wil bepaal of die studente
se punte verbeter het na die Winterskool. Hy neem ’n steekproef van 15 studente en vind elk
se punte voor en na die toets. Die punte word hieronder verskaf:
Leerder Toetspunt voor
Winterskool
Toetspunt na
Winterskool
1 75 79
2 70 74
3 50 55
4 40 45
5 66 62
6 67 65
7 65 68
8 68 74
Elementêre Kwantitatiewe Metodes
260 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
9 68 66
10 70 72
11 73 72
12 75 77
13 88 85
14 83 90
15 90 89
Bepaal, teen ’n 95% vlak van sekerheid, of die populasie se punte verbeter het na die
Winterskool.
Antwoord:
Voordat ons met die hipotesetoets kan begin, moet ons eers die nodige steekproefstatistieke
bereken. Hierdie is die gemiddeld en standaardafwyking van die verskil in punte. Om die
gemiddeld en standaardafwyking te bereken moet ons dus eers gaan bepaal wat die verskil
in punte vir elke student is. Ons kan dit in tabelvorm doen:
Studente Toetspunt voor
Winterskool
Toetspunt na
Winterskool
Verskil in
punte (Xd)
1 75 79 -4
2 70 74 -4
3 50 55 -5
4 40 45 -5
5 66 62 4
6 67 65 2
7 65 68 -3
8 68 74 -6
9 68 66 2
10 70 72 -2
11 73 72 1
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 261
12 75 77 -2
13 88 85 3
14 83 90 -7
15 90 89 1
Wanneer die Xd kolom se waardes bereken is, kan ons die oorblywende twee kolomme
(toetspunt voor die Winterskool en toetspunt na die Winterskool) vir die res van die
hipotesetoets ignoreer. Ons berekening word nou slegs met die Xd kolom se waardes
gedoen.
Studente Toetspunt voor
Winterskool
Toetspunt na
Winterskool
Verskil in punte
(Xd)
1 75 79 -4
2 70 74 -4
3 50 55 -5
4 40 45 -5
5 66 62 4
6 67 65 2
7 65 68 -3
8 68 74 -6
9 68 66 2
10 70 72 -2
11 73 72 1
12 75 77 -2
13 88 85 3
14 83 90 -7
15 90 89 1
Gemiddeld van verskil in punte
Hierdie veranderlike word as xd voorgestel. Dit is die gemiddelde verskil in die punte, met
ander woorde, die gemiddeld van die laaste kolom in die tabel hierbo:
Elementêre Kwantitatiewe Metodes
262 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
xd = [(-4) + (-4) + (-5) + (-5) + 4 + 2 + (-3) + (-6) + 2 + (-2) + 1 + (-2) + 3 + (-7) + 1] / 15
= -1.667
Let daarop dat hierdie gemiddeld negatief is, wat beteken die gemiddelde verskil tussen die
toetspunt voor die Winterskool en die toetspunt na die Winterskool, is negatief. Dit beteken
dat, gemiddeld, die toetspunt na die Winterskool groter is as die toetspunt voor die
Winterskool.
Standaardafwyking
Die standaardafwyking word bereken met die formule wat in Hoofstuk 3 verskaf word. Die
waardes wat vir die standaardafwyking gebruik word, is ook slegs die Xd kolom se waardes.
Jy kan self die standaardafwyking bereken. Hou in gedagte dat die gemiddeld ’n negatiewe
waarde is. Byvoorbeeld: die eerste waarde in die Xd kolom is -4. Die gemiddeld is -1.667.
Dus sal (xd – xd)2 vir die eerste waarde soos volg bereken word:
[-4 – (-1.667)]2
= (-4 + 1.667)2
= -2.3332
= 5.443
Jy sal hierdie berekening moet herhaal vir elke waarde in die xd kolom om by die
standaardafwyking uit te kom. Die standaardafwyking is:
sd = 3.559
Ons het nou al die nodige veranderlikes om ’n gewone t-toets uit te voer:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μd ≥ 0
H1: μd < 0
Die alternatiewe hipotese beweer dat die gemiddelde toetspunt meer is na die Winterskool
as voor die Winterskool. Met ander woorde, die gemiddelde verskil (toetspunt voor die
Winterskool minus toetspunt na die Winterskool) is negatief.
Hierdie is ’n eenkantige (linkskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef ons nie die 0.05 in twee
te deel nie.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 263
Die grade van vryheid is:
df = n – 1
= 15 – 1
= 14
Die plek in die t-tabel waar die 0.05-kolom en die 14-ry kruis, gee aan ons ’n t-waarde van
1.761. Omdat dit ’n linkskantige hipotesetoets is, sal hierdie waarde egter negatief wees.
Dus:
t-crit = -1.761
Stap 3: Bereken die toetsstatistiek
Die formule vir ’n gewone t-toets vir een steekproef kan gebruik word:
t-stat = �G � 6G*G√�
waar:
xd = steekproefgemiddeld vir die verskil
μd = populasiegemiddeld vir die verskil soos deur die nulhipotese gestel
sd = die steekproef-standaardafwyking vir die verskil
n = die steekproefgrootte
Dus:
t-stat = ��.����.���√��
= -1.814
Stap 4: Besluit of die nulhipotese verwerp moet word
Die t-stat moet met die t-crit vergelyk word:
Elementêre Kwantitatiewe Metodes
264 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Die t-stat lê in die area van verwerping. Dus:
Daar is voldoende bewyse om H0 te verwerp ten gunste van H1.
Stap 5: Gevolgtrekking
Die verskil tussen die punte is inderdaad kleiner as nul. Dit beteken dat die punte wel
toegeneem het na die Winterskool.
Vraag 2: Terug by Vasvat Versekeraars
Gestel Vanessa en Michael het die navorsing soos aan die begin van hierdie hoofstuk
bespreek, uitgevoer. Onthou dat Vasvat Versekeraars wou weet of die werkswinkel wel
personeel se verkoopsyfers beïnvloed het. Meer spesifiek, hulle wou weet of die personeel
se verkope gemiddeld meer was na die werkswinkel as voor die werkswinkel.
Die dataversamelingsproses het die volgende resultate van 20 werknemers gelewer:
Personeel
Ses maande se verkoopsyfers
Voor die werkswinkel Na die werkswinkel
1 R120 000 R130 000
2 R120 500 R110 000
3 R90 500 R110 000
4 R170 000 R190 000
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit = -1.761
95% 5%
t-stat = -1.814
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 265
5 R220 000 R245 000
6 R77 800 R77 900
7 R230 000 R180 000
8 R330 000 R344 000
9 R176 900 R180 000
10 R580 000 R550 000
11 R150 000 R300 000
12 R160 500 R165 000
13 R155 100 R157 000
14 R322 000 R325 000
15 R221 000 R229 000
16 R276 500 R278 500
17 R113 800 R120 500
18 R167 500 R180 000
19 R340 500 R390 000
20 R75 500 R80 000
Bepaal nou, teen ’n 95% vlak van sekerheid, of die personeel by Vasvat Versekeraars wat
die werkswinkel bygewoon het, se verkoopsyfers wel toegeneem het na die werkswinkel.
Antwoord:
Om die vraag te beantwoord benodig ons weereens die verskil tussen die verkoopsyfers
voor en na die werkswinkel. Dan benodig ons die gemiddeld en die standaardafwyking van
die verskil. Hierdie statistieke word in die onderstaande tabel voorgestel:
Personeel
Ses maande se verskoopsyfers
Voor die werkswinkel Na die werkswinkel xd
1 R120 000 R130 000 -R10 000
2 R120 500 R110 000 R10 500
Elementêre Kwantitatiewe Metodes
266 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
3 R90 500 R110 000 -R19 500
4 R170 000 R190 000 -R20 000
5 R220 000 R245 000 -R25 000
6 R77 800 R77 900 -R100
7 R230 000 R180 000 R50 000
8 R330 000 R344 000 -R14 000
9 R176 900 R180 000 -R3 100
10 R580 000 R550 000 R30 000
11 R150 000 R300 000 -R150 000
12 R160 500 R165 000 -R4 500
13 R155 100 R157 000 -R1 900
14 R322 000 R325 000 -R3 000
15 R221 000 R229 000 -R8 000
16 R276 500 R278 500 -R2 000
17 R113 800 R120 500 -R6 700
18 R167 500 R180 000 -R12 500
19 R340 500 R390 000 -R49 500
20 R75 500 R80 000 -R4 500
Gemiddeld (xd) -R12 190
Standaardafwyking (sd) R38 059.30
Met hierdie waardes tot ons beskikking, kan ons nou die hipotesetoets doen:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μd ≥ 0
H1: μd < 0
Hierdie is ’n eenkantige (linkskantige) hipotesetoets.
Stap 2: Vind die kritiese waarde
Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef ons nie die 0.05 in twee
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 267
te deel nie.
df = n – 1
= 20 – 1
= 19
Die plek in die t-tabel waar die 0.05-kolom en die 19-ry kruis, verskaf ’n t-waarde van 1.729.
Omdat dit ’n linkskantige hipotesetoets is, sal die t-crit ook negatief wees. Dus:
t-crit = -1.729
Stap 3: Bereken die toetsstatistiek
Die formule vir die toetsstatistiek is:
t-stat = �G � 6G*G√�
waar:
xd = steekproefgemiddeld vir die verskil
μd = populasiegemiddeld vir die verskil soos deur die nulhipotese gestel
sd = die steekproef-standaardafwyking vir die verskil
n = die steekproefgrootte
Dus:
t-stat = ��� ���� ���.��√��
= -1.432
Stap 4: Besluit of die nulhipotese verwerp moet word
Die t-stat moet met die t-crit vergelyk word:
Elementêre Kwantitatiewe Metodes
268 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)
Die t-stat lê nie in die area van verwerping nie. Dus:
Daar is nie voldoende bewys om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Daar is geen verskil tussen die verkoopsyfers voor en na die werkswinkel nie.
9.4 Ten slotte
Ons het in hierdie hoofstuk na twee tipes hipotesetoetse gekyk. Die eerste toets of daar ’n
verskil tussen die gemiddelde van ’n spesifieke veranderlike in twee populasies is. Die
tweede toets of daar ’n toename of afname in ’n spesifieke veranderlike in ’n spesifieke
populasie is. Al die hipotesetoetse in hierdie hoofstuk, asook in Hoofstuk 8, het egter net op
een veranderlike gefokus.
Die volgende hoofstuk bespreek ’n baie spesiale hipotesetoets: ’n toets wat bepaal of twee
veranderlikes in een populasie statisties afhanklik is van mekaar. Hierdie is ’n belangrike
toets: wanneer ’n verwantskap tussen twee veranderlikes ontdek word, is dit die eerste stap
om te kan bepaal of een veranderlike ’n invloed op die ander het. Hoofstuk 10 sal hierdie
hipotesetoets in meer besonderhede bespreek.
As die t-stat hier val,
word H0 nie verwerp nie.
As die t-stat in hierdie
area val, word H0
verwerp.
t-crit = -1.729
95% 5%
t-stat = -1.432
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 269
HHOOOOFFSSTTUUKK 1100:: HHIIPPOOTTEESSEETTOOEETTSS VVIIRR SSTTAATTIISSTTIIEESSEE AAFFHHAANNKKLLIIKKHHEEIIDD
Onderwerpe
10.1 Statistiese afhanklikheid
10.2 Die χχχχ2-stat
Elementêre Kwantitatiewe Metodes
270 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
Gevallestudie…
“Michael, ontmoet my suster, Nadia en haar verloofde, Werner. Werner snork.”
Michael staar verward na Sonja. Michael kon aan ’n hele rits redes dink waarom Sonja hom
na StatInc se koffiewinkel genooi het, maar nie een van daardie redes sluit ’n bekendstelling
aan haar familie in nie. En die feit dat Werner snork is ’n stukkie inligting waarop hy nie
voorbereid was nie. Onder normale omstandighede is Michael nie op die bek geval nie,
maar al wat hy nou doen is om skaapagtig na Sonja te sit en staar.
Sonja gaan egter onverpoosd voort. “Dit is ’n belangrike stukkie inligting vir jou, Michael.
Veral omdat jy en Werner ’n kamer sal moet deel.”
“Ek is bevrees jy het my lankal verloor,” is al wat Michael kan uitkry.
“Ek haat dit om ’n kamer te deel met iemand wat snork. Ek het gedink jy sou dit wou weet
voordat jy finaal besluit om saam te gaan.”
“Saamgaan waarheen?”
“Europa toe, natuurlik!”
En dan tref dit Michael.
“Jy’t gewen?”
Sonja is in ekstase. “Natuurlik het ek gewen! En ek is iemand wat my woord hou, so jy is een
van die reisigers wat Nederland, Frankryk en Engeland gaan besoek. Dit is nou as jy nie
omgee om ’n kamer met ’n snorker te deel nie. Vir my sou dit ’n deal breaker wees.”
“Haai,” protesteer Werner. “As jou suster enigsins geglo kan word, is jy ’n kampioen as dit by
balke saag kom.”
Nadia lag. “Werner! Dit is vertroulike inligting. Wat moet Michael van ons dink?”
“Dis fantasties!” Michael sukkel om verhaal te kom.
“Wat is?” skerts Sonja. “Die feit dat Werner dink ek snork of die vakansie?”
“Hierdie is nie een of ander grap nie?” vra Michael.
Werner trek ’n gepynigde gesig. “Ek is bevrees dit is die absolute, reine waarheid. Ek en jy
gaan twee weke in die geselskap van die veeleisendste mense op die planeet deurbring.”
“So ek het reg geraai?”
Sonja knik. “Jy beter jou statistiese vaardighede aanwend om die weer te voorspel. Ek kan
nie vir vier seisoene pak nie. Kom Nadia, ek wil my neus gaan poeier.”
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 271
Sonja en Nadia staan op. “Mens gebruik nie meer daardie uitdrukking nie,” skerts Nadia
terwyl hulle wegstap en vir Werner en Michael alleen los.
“Ek hoor jy is ’n Statistiek-fundi,” sê Werner ’n paar oomblikke later.
Michael bloos. “Ek sou nie so sê nie. Ek is ’n eerstejaarstudent.”
“Volgens wat Sonja my vertel het, is jy een stappie onder Einstein. Dis nou as Einstein
Statistiek kon doen.”
“Ek is seker hy kon en ek het nog baie jare om te gaan voordat ek een stappie onder
Einstein met enigiets sal wees.”
Werner kry ’n idee. “Ek en Nadia stry nou al vir maande oor iets. Miskien kan jy ons help om
finaal vrede te kry.”
“Het dit iets met Statistiek te doen?” Michael is dadelik geïnteresseerd.
“Absoluut,” antwoord Werner. “Wie weet, dalk sal jy ons huwelik red,” voeg hy gemaak-
ernstig by.
“Ek sal my bes probeer. Wat is die probleem?”
“Dit is eintlik eenvoudig,” verduidelik Werner. “Ek glo dat die hoeveelheid geld wat ek op
vakansie spandeer, nie altyd dieselfde is nie.”
“Daar is duisende faktore wat jou uitgawes kan beïnvloed.”
“Ek is geïnteresseerd in een van daardie faktore. Die verskil of jy alleen, of saam met
vriende reis. Ek glo dat reisigers wat saam met hul vriende reis nie dieselfde geld spandeer
as reisigers wat alleen reis nie.”
Michael dink ’n oomblik.
“Jy het ’n navorsingsprojek met ’n eksperimentele ontwerp nodig.”
“Kan jy dit doen?”
“Ongelukkig nie. Dit is baie gekompliseerd. As jy wil seker wees dat jou metgeselle, of die
gebrek daaraan, jou uitgawes beïnvloed, moet jy alle ander moontlike faktore in ag neem.
Dit is ’n komplekse proses.”
Werner knik afgehaal. “Ek sien. Ek het so gehoop dat ek ’n antwoord op hierdie
lewensbelangrike vraag kon kry.”
Michael kry 'n idee. “Wat ek wel kan doen, is om te bepaal of die twee veranderlikes
statisties afhanklik is. Ek kan kyk of reisuitgawes en of jy alleen of met vriende reis, aan
Elementêre Kwantitatiewe Metodes
272 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
mekaar verwant is.”
“Wat is die verskil tussen dit en die eksperimentele ontwerp?”
“’n Eksperimentele ontwerp toets die invloed van een veranderlike op ’n ander een. Een
veranderlike kan nie ’n invloed op ’n ander een hê as die veranderlikes nie statisties
afhanklik is nie.”
“So, as jy vind dat die hoeveelheid geld wat jy op vakansie spandeer wel... uhm... statisties
afhanklik is van of jy alleen of met vriende reis, wat beteken dit?” wil Werner weet.
“Wel, as ons statistiese afhanklikheid vind, is daar ’n moontlikheid dat die een veranderlike
die ander beïnvloed. Dit is egter slegs ’n eerste stap in die toets vir invloed.”
“Maar as ons vind dat die twee veranderlikes nié afhanklik is nie...” huiwer Werner
“...dan kan ons aanneem dat daar geen invloed van die een veranderlike op die ander is
nie,” voltooi Michael die sin.
“Ek sien. So die uitslag sal óf beteken dat Nadia reg is, óf dat ek dalk, dalk miskien reg kan
wees?”
“So iets. Wil jy die kans waag om verkeerd te wees?”
Werner lag en sê dan gemaak-vertroulik: “Ons maak dit ’n geheime navorsingsprojek.”
“Ek begin dadelik,” lag Werner. Hy weet sommer dat die twee weke in Europa ’n vakansie
sal wees wat hy nooit sal vergeet nie.
10.1 Statistiese afhanklikheid
’n Belangrike uitdaging waarmee navorsers gekonfronteer word, is om te bepaal of een
veranderlike ’n invloed op ’n ander veranderlike het. Beïnvloed die wisselkoers Suid-
Afrikaners se besluit om in die buiteland vakansie te hou? Sal maklike krediet veroorsaak
dat ’n kliënt meer geld spandeer? Het die kleur, uitleg en atmosfeer van ’n winkel ’n invloed
op die hoeveelheid geld wat kliënte in die winkel spandeer?
Hierdie vrae is nie maklik om te beantwoord nie. Navorsing wat poog om hierdie vrae te
beantwoord volg ’n eksperimentele ontwerp, iets wat nie binne die raamwerk van hierdie
gids val nie. Wat het hierdie tipe vrae dan met hierdie hoofstuk te doen?
Een van die eerste vereistes (en dus toetse wat uitgevoer word) om te bepaal of een
veranderlike ’n ander beïnvloed, is statistiese afhanklikheid. As daar gevind word dat twee
veranderlikes statisties onafhanklik is, beteken dit dat die veranderlikes mekaar nie
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 273
beïnvloed nie. Die toets vir statistiese afhanklikheid is dus ’n eerste stap om te bepaal of
twee veranderlikes mekaar beïnvloed. Dit is belangrik om op die volgende te let:
• Indien twee veranderlikes statisties afhanklik is, is daar ’n moontlikheid dat een
veranderlike die ander kan beïnvloed. Statistiese afhanklikheid is nie voldoende
bewys dat een veranderlike ’n ander beïnvloed nie.
• Indien twee veranderlikes statisties onafhanklik is, kan ons aanneem dat die een nie
die ander sal beïnvloed nie.
• Statistiese afhanklikheid is ’n vereiste wat nodig is, maar nie voldoende is om die
invloed van een veranderlike op ’n ander te toets nie.
Voorbeeld: Die verskil tussen invloed en statistiese afhanklikheid
’n Navorser versamel die verkoopsyfers van ’n bakkery en ’n apteek op ’n vakansiedorpie by
die see. Die navorser vind dat daar een of ander statistiese afhanklikheid tussen die
verkoopsyfers van die bakkery en die apteek is. Wanneer die bakkery se verkoopsyfers
verhoog, blyk dit dat die apteek se syfers ook verhoog, veral tydens Desember. Die
verkoopsyfers van die bakkery en die apteek is dus statisties afhanklik.
Kan die navorser dus tot die gevolgtrekking kom dat die bakkery se brood die mense siek
maak? Natuurlik nie! Daar is wel ’n afhanklikheid tussen die veranderlikes – iets wat nodig is
om die invloed van die een veranderlike op ’n ander veranderlike toe toets, maar statistiese
afhanklikheid is nie voldoende bewys hiervoor nie. Die navorser moet eers alle ander
moontlike veranderlikes (soos die tyd van die jaar, die hoeveelheid besoekers aan die
vakansiedorpie, of advertensies in dieselfde publikasies) in ag neem voordat sy so ’n invloed
kan vind.
Hierdie hoofstuk sal nie die invloed van een veranderlike op ’n ander toets nie. Dit sal egter
toets of daar een of ander statistiese afhanklikheid tussen die veranderlikes is. Die
toetsstatistiek wat ons in hierdie geval gebruik, is die chi-kwadraatstatistiek of χ2-stat (chi-
squared stat).
10.2 Die χχχχ2-stat
Die berekening van die toetsstatistiek verskil van dié van ander hipotesetoetse. Voordat
hierdie statistiek bereken kan word, moet die rasionaal onderliggend aan die toetsstatistiek
eers verstaan word. Om die rasionaal te verduidelik sal die volgende voorbeeld gebruik
word:
Elementêre Kwantitatiewe Metodes
274 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
’n Navorser wil bepaal of die geslag van ’n kliënt en die kleur motor wat deur daardie kliënt
gekies word, statisties afhanklik is. Die navorser kyk na 350 transaksies en kyk spesifiek na
die geslag van die kliënt en die kleur motor wat gekoop is. Die volgende data word verkry:
Kliënt geslag TOTAAL
Manlik Vroulik
Rooi motor 46 34 80
Silwer motor 90 120 210
Blou motor 33 27 60
TOTAAL 169 181 350
Die nulhipotese van hierdie tipe toets beweer dat daar geen statistiese afhanklikheid is nie.
Dit beteken:
• Daar is ongeveer ewe veel rooi motors deur mans as vroue gekoop.
• Daar is ongeveer ewe veel silwer motors deur mans as vroue gekoop.
• Daar is ongeveer ewe veel blou motors deur mans as vroue gekoop.
Op die oog af lyk dit of die nulhipotese moontlik nie korrek is nie. Daar is veral ’n groot
verskil by die silwer motor se verkope. “Op die oog af” is egter nie ’n akkurate wyse om ’n
hipotese te toets nie. Ons moet steeds ’n toetsstatistiek bereken.
Die χ2 (chi-kwadraat)-toets volg die volgende logika:
• Skep ’n tabel van ’n datastel wat eenhonderd persent statisties onafhanklik is, deur
van die totale in die tabel hierbo gebruik te maak. Hierdie tabel se waardes word
verwagte waardes genoem.
• Vergelyk die data wat ons deur die steekproef verkry het (geobserveerde waardes)
met hierdie verwagte waardes. Indien dit soortgelyk is, is die veranderlikes
onafhanklik. Indien dit drasties verskil, is die veranderlikes afhanklik.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 275
Die skets hieronder poog om hierdie rasionaal grafies voor te stel:
X X X X X X <------- VERGELYK ------>
As hierdie twee dieselfde is,
is die veranderlikes
statisties onafhanklik.
As hierdie twee drasties
verskil, is die veranderlikes
statisties afhanklik.
X X X X X X
X X X X X X X X X X X X
X X X X X X X X X X X X
Hierdie is hoe my
data sou lyk as die
veranderlikes
statisties
ONAFHANKLIK
was.
Ons noem dit die
verwagte waardes.
Jy moet hierdie
waardes self gaan
bereken.
Hierdie is die data
wat ek met my
steekproef
versamel het.
Ons noem dit die
geobserveerde
waardes.
Hierdie waardes
word in die vraag
vir jou gegee.
Figuur 10.1: Grafiese voorstelling van verwagte en geobserveerde waardes
Vir die bogenoemde voorbeeld gaan ons nou die χ2-stat bereken.
Die geobserveerde waardes:
Hierdie waardes is reeds verskaf as deel van die vraag. Dit is die data wat vanaf die
steekproef deur ons dataversameling verkry is. Vir maklike verwysing word hierdie waardes
weer hieronder verskaf:
Kliënt geslag TOTAAL
Manlik Vroulik
Rooi motor 46 34 80
Silwer motor 90 120 210
Blou motor 33 27 60
TOTAAL 169 181 350
Elementêre Kwantitatiewe Metodes
276 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
Verwagte waardes:
Ons moet nou ’n tabel opstel wat gaan aandui hoe die waardes sou lyk as die veranderlikes
statisties onafhanklik sou wees. Om die verwagte waardes te bereken benodig ons die
totale van die geobserveerde waardes (die tabel hierbo):
Kliënt geslag
TOTAAL
Manlik Vroulik
Rooi motor
80
Silwer motor
210
Blou motor
60
TOTAAL 169 181 350
Nou moet ons die verwagte waardes vir elk van die leë selle gaan bereken. Die formule om
hierdie waardes te bereken, kan soos volg beskryf word:
Verwagte waarde = (Rytotaal x Kolomtotaal) / Totaal
Dus, om die verwagte waarde vir die hoeveelheid manlike kliënte wat rooi motors gekoop
het te bereken, neem ons die rytotaal (80 vir rooi motors), vermenigvuldig dit met die
kolomtotaal (169 vir manlike kliënte) en deel die antwoord deur die totale kliënte (350
kliënte):
(80 x 169) / 350 = 38.629
Dus is die verwagte waarde vir manlike kliënte wat rooi motors koop:
Kliënt geslag
TOTAAL
Manlik Vroulik
Rooi motor 38.629
80
Silwer motor
210
Blou motor
60
TOTAAL 169 181 350
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 277
Die verwagte waarde vir manlike kliënte wat silwer motors koop is:
Kliënt geslag TOTAAL
Manlik Vroulik
Rooi motor 80
Silwer motor 101.4 210
Blou motor 60
TOTAAL 169 181 350
of (210 x 169) / 350 = 101.4
Herhaal hierdie proses totdat daar ’n verwagte waarde vir elke leë sel is. Jy kan toets of jy
jou verwagte waardes korrek bereken het deur al die selle se waardes op te tel. Jou ry- en
kolomtotale moet steeds dieselfde wees as die oorspronklike (geobserveerde) waardes. Vir
hierdie voorbeeld sal die verwagte-waardes-tabel soos volg lyk.
Verwagte waardes (indien statisties onafhanklik)
Kliënt geslag TOTAAL
Manlik Vroulik
Rooi motor 38.63 41.37 80
Silwer motor 101.40 108.60 210
Blou motor 28.97 31.03 60
TOTAAL 169 181 350
Die verwagte waardes word deur die simbool fe voorgestel (die “e” staan vir “expected”). Die
geobserveerde waardes sal dan deur fo voorgestel word.
Bereken χ2-stat
Om die verskil tussen die verwagte en geobserveerde waardes te bepaal, gaan die χ2-stat
bereken word. Die formule is:
χχχχ2-stat = ∑ ��H� ����
��
Dit egter makliker om hierdie statistiek met ’n tabel te bereken. Die tabel lyk soos volg:
Elementêre Kwantitatiewe Metodes
278 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
Geslag Kleur fo fe (fo – fe)2 ��H − ����
��
Manlik Rooi motor
Silwer motor
Blou motor
Vroulik Rooi motor
Silwer motor
Blou motor
χχχχ2-stat
Hierdie tabel word dan nou van die linkerkant na die regterkant ingevul. Die eerste twee
kolomme is maklik: ons het reeds die geobserveerde en verwagte waardes bereken. Ons
kan dit net so uit die onderskeie tabelle oorskryf:
Geslag Kleur fo fe (fo – fe)
2 ��H − ����
��
Manlik Rooi motor 46 38.63
Silwer motor 90 101.40
Blou motor 33 28.97
Vroulik Rooi motor 34 41.37
Silwer motor 120 108.60
Blou motor 27 31.03
χχχχ2-stat
Sodra hierdie waardes oorgedra is, kan ons met die berekeninge voortgaan. Om die
berekeninge te vergemaklik word dit in twee kolomme ingedeel:
• (fo – fe)2: Neem elke waarde in die fo-kolom, trek die waarde in die fe-kolom daarvan
af en kwadreer die antwoord.
• ��H� ����
�� : Neem nou die antwoord wat in die (fo – fe)2-kolom verkry is, en deel dit deur
die waarde in die fe-kolom.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 279
• Tel die waardes in die �JK� JL�>
JL -kolom bymekaar. Die antwoord is die χ2-stat.
As ons hierdie berekeninge gedoen het, sal die finale tabel soos volg lyk:
Geslag Kleur fo fe (f0 – fe)2 ��H − ����
��
Manlik Rooi motor 46 38.63 54.33796 1.406678
Silwer motor 90 101.40 129.96 1.281657
Blou motor 33 28.97 16.22939 0.560186
Vroulik Rooi motor 34 41.37 54.33796 1.313418
Silwer motor 120 108.60 129.96 1.196685
Blou motor 27 31.03 16.22939 0.523047
χχχχ2-stat 6.28167
Die χ2-stat is dus 6.282. Dit sal met die χ2-crit vergelyk word om te bepaal of H0 verwerp kan
word.
Die bogenoemde bespreking het slegs op die berekeninge van die χ2-stat gefokus. Die res
van die hoofstuk sal die volledige hipotesetoets behandel. Ter opsomming: om ’n χ2-stat te
bereken moet die volgende gedoen word:
• Die waardes wat deur die steekproefneming verkry word, word die geobserveerde
waardes genoem en deur die simbool fo voorgestel.
• Bereken die verwagte waardes. Die verwagte waardes is ’n beraming van die
waardes wat verkry sou word indien daar geen afhanklikheid tussen die
veranderlikes was nie. Verwagte waardes word met die simbool fe voorgestel.
• In tabelformaat, bereken �JK � JL�>
JL vir elke verwagte en geobserveerde waarde.
• Tel die waardes in die �JK � JL�>
JL -kolom bymekaar. Hierdie totaal is die χ2-stat.
Elementêre Kwantitatiewe Metodes
280 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
Voorbeeld: Hipotesetoets vir statistiese afhanklikheid
Vraag 1:
’n Navorser wil bepaal of Suid-Afrikaners en buitelandse toeriste dieselfde
besienswaardighede in Suid-Afrika besoek. Die navorser verdeel die besienswaardighede in
drie kategorieë:
• Monumente en geboue
• Nasionale parke (om wilde diere te sien)
• Strande
Die navorser vra vir 450 vakansiegangers wat hul gunsteling vakansiebestemming in Suid-
Afrika is. Hy vra ook vir elkeen in watter land hulle gebore is en klassifiseer toeriste as Suid-
Afrikaans of internasionaal (indien hulle nie Suid-Afrikaans is nie).
Die volgende frekwensies word vir elke kategorie verkry:
Geobserveerde waardes
Nasionaliteit TOTAAL
Suid-Afrikaans Internasionaal
Monumente en geboue 55 60 115
Nasionale parke 70 95 165
Strande 90 80 170
TOTAAL 215 235 450
Bepaal, teen ’n 95% vlak van sekerheid, of nasionaliteit en keuse van toeriste-aantreklikheid
statisties afhanklik is.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 281
Antwoord:
Die vyf stappe vir die toets van ’n hipotese word gevolg:
Stap 1: Vind die nul- en alternatiewe hipotese
Soos reeds vroeër genoem, sal die nulhipotese altyd beweer dat daar geen statistiese
afhanklikheid is nie. Die alternatiewe hipotese sal dan beweer dat die twee veranderlikes wel
statisties afhanklik is.
H0: Nasionaliteit en keuse van toeriste-aantreklikheid is statisties onafhanklik
H1: Nasionaliteit en keuse van toeriste-aantreklikheid is statisties afhanklik
Stap 2: Vind die kritiese waarde
Om die kritiese waarde te bereken benodig ons grade van vryheid en ’n α-waarde. Ons
gebruik ook die χ2-tabel (aan die einde van hierdie gids). Hou in gedagte dat ’n χ2-hipotese
altyd eenkantig sal wees.
Gebaseer op ons vlak van sekerheid is die α-waarde 0.05.
Omdat ons met verskillende groeperings van data werk, sal ons grade van vryheid ook
anders bereken word. Vir ’n χ2-toets word die grade van vryheid met die volgende formule
bereken:
df = (hoeveelheid rye – 1) x (hoeveelheid kolomme – 1)
In hierdie geval het ons drie rye (Monumente en geboue, Nasionale parke, en Strande) en
twee kolomme (Suid-Afrikaans en Internasionaal). Daarom is ons grade van vryheid:
df = (3 – 1) x (2 – 1)
= 2 x 1
= 2
Om die χ2-crit te bepaal gebruik ons die χ2-tabel. Ons vind die 0.05-kolom en die 2-ry. Waar
hierdie kolom en ry kruis, vind ons die χ2-crit. Die χ2-crit is positief.
χχχχ2-crit = 5.991
As die χ2-stat groter as 5.991 is, sal die nulhipotese verwerp word. Indien nie, sal die
nulhipotese nie verwerp word nie. Die χ2-grafiek lyk soos volg:
Elementêre Kwantitatiewe Metodes
282 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
Stap 3: Bereken die toetsstatistiek
Hierdie stap is breedvoerig aan die begin van die hoofstuk bespreek. Ons moet eers die
verwagte waardes (vir ’n statisties onafhanklike datastel) bereken. Dit word gedoen deur, vir
elke sel, die kolomtotaal en rytotaal te vermeningvuldig en dan deur die totale
steekproefgrootte te deel. Die volgende tabel sal gevind word:
Verwagte waardes (indien statisties onafhanklik)
Nasionaliteit TOTAAL
Suid-Afrikaans Internasionaal
Monumente en geboue 54.94 60.06 115
Nasionale parke 78.83 86.17 165
Strande 81.22 88.78 170
TOTAAL 215 235 450
Nou kan ons die verwagte waardes en geobserveerde waardes saam in ’n tabel voeg om die
χ2-stat te bereken:
Nasionaliteit Besienswaardighede fo fe (fo – fe)2
��H − ������
Suid-Afrikaans Monumente en geboue 55 54.94 0.003 0.000
Nasionale parke 70 78.83 78.028 0.990
As χ2-stat in hierdie deel
val, sal H0 nie verwerp
word nie.
As χ2-stat in hierdie deel
val, sal H0 verwerp word
95% 5%
χ2-crit = 5.991
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 283
Strande 90 81.22 77.049 0.949
Internasionaal Monumente en geboue 60 60.06 0.003 0.000
Nasionale parke 95 86.17 78.028 0.906
Strande 80 88.78 77.049 0.868
χχχχ2-stat 3.712
Dus: χχχχ2-stat = 3.712
Stap 4: Besluit of die nulhipotese verwerp moet word
Om hierdie besluit te neem moet die χ2-stat met die χ2-crit vergelyk word.
χ2-stat is kleiner as χ2-crit (5.991) en kan dus nie verwerp word nie.
Daar is nie voldoende bewyse om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Nasionaliteit en keuse van toeriste-aantreklikheid is statisties onafhanklik.
Vraag 2: Werner se probleem
Kom ons kyk weer na die vraag wat Werner gevra het. Hy wou weet of die hoeveelheid geld
wat iemand op reis spandeer statisties afhanklik is van die feit dat hy alleen of saam met
vriende reis. Michael het 200 reisigers genader en die volgende vrae gevra:
• Tydens u laaste vakansie, het u (1) alleen of (2) saam met vriende gereis?
• Wat was die gemiddelde bedrag wat u daagliks tydens hierdie vakansie spandeer
As χ2-stat in hierdie deel
val, sal H0 nie verwerp
word nie.
As χ2-stat in hierdie deel
val, sal H0 verwerp word
95% 5%
χχχχ2-crit = 5.991
χχχχ2-stat = 3.712
X
Elementêre Kwantitatiewe Metodes
284 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
het?
Om die antwoorde te vergemaklik, kon respondente uit drie kategorieë kies:
• Minder as R250 per dag
• R250 tot R1 000 per dag
• Meer as R1 000 per dag
Respondente wat nie alleen of saam met vriende gereis het nie, is nie by die steekproef
ingesluit nie. Die resultate wat Michael gevind het, word in die onderstaande tabel verskaf:
Geobserveerde waardes
Metgeselle
TOTAAL Reis alleen
Reis met
vriende
< R250 per dag 30 40 70
R251 - R1000 per dag 29 35 64
Meer as R1000 per
dag 34 32 66
TOTAAL 93 107 200
Bepaal, teen ’n 90% vlak van sekerheid, of die twee veranderlikes statisties afhanklik is.
Antwoord:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: Die hoeveelheid geld spandeer en die feit dat ’n reisiger alleen of saam met vriende
reis, is statisties onafhanklik.
H1: Die hoeveelheid geld spandeer en die feit dat ’n reisiger alleen of saam met vriende
reis, is statisties afhanklik.
Stap 2: Vind die kritiese waarde
Die α-waarde vir ’n 90% vlak van sekerheid is 0.1.
Die grade van vryheid vir drie rye en twee kolomme is:
df = (hoeveelheid rye – 1) x (hoeveelheid kolomme – 1)
= (3 – 1) x (2 – 1)
= 2 x 1
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 285
= 2
Die χ2-crit vir waar die 0.1-kolom en die 2-ry kruis, is 4.605.
χχχχ2-crit = 4.605
Stap 3: Bereken die toetsstatistiek
Ons moet eerstens die verwagte waardes bereken:
Verwagte waardes (indien statisties onafhanklik)
Metgeselle
TOTAAL Reis
alleen
Reis met
vriende
< R250 per dag 32.55 37.45 70
R251 - R1000 per dag 29.76 34.24 64
Meer as R1000 per
dag 30.69 35.31 66
TOTAAL 93 107 200
Nou kan ons ’n tabel skep waarop die χ2-stat bereken gaan word:
Metgeselle Geld spandeer fo fe (f0 – fe)
2 ��H − ����
��
Reis alleen < R250 per dag 30 32.55 6.5025 0.19977
R251 - R1000 per 29 29.76 0.5776 0.019409
As χ2-stat in hierdie deel
val, sal H0 nie verwerp
word nie.
As χ2-stat in hierdie deel
val, sal H0 verwerp word
90% 10%
χ2-crit = 4.605
Elementêre Kwantitatiewe Metodes
286 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
dag
Meer as R1000
per dag 34 30.69 10.9561 0.356993
Reis met vriende < R250 per dag 40 37.45 6.5025 0.173632
R251 - R1000 per
dag 35 34.24 0.5776 0.016869
Meer as R1000
per dag 32 35.31 10.9561 0.310283
χχχχ2-stat 1.076955
χχχχ2-stat = 1.077
Stap 4: Besluit of die nulhipotese verwerp moet word
χ2-stat is kleiner as die χ2-crit van 4.605. Dus:
Daar is nie voldoende bewyse om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Die bedrag wat ’n reisiger spandeer is statisties onafhanklik van die feit dat hy/sy alleen of
met vriende reis. Nadia is dus korrek.
As χ2-stat in hierdie deel
val, sal H0 nie verwerp
word nie.
As χ2-stat in hierdie deel
val, sal H0 verwerp word
90% 10%
χ2-crit = 4.605
χ2-stat = 1.077
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 287
10.3 Ten slotte
Die χ2-toets is in hierdie hoofstuk gebruik om te bepaal of twee veranderlikes statisties
afhanklik is. Hou egter in gedagte dat dit nie die enigste toets is wat met χ2 gedoen kan word
nie. Daar is ander gebruike vir hierdie statistiek wat nie deel van die omvang van hierdie gids
uitmaak nie. Dit sal ’n goeie idee wees om ’n bietjie selfstudie te doen en meer oor χ2 uit te
vind.
Ons het tot op hede die volgende hipotesetoetse gedoen:
• ’n Hipotesetoets vir een steekproef en een veranderlike: Ons het getoets of ’n
populasiegemiddeld groter as, kleiner as of gelyk aan ’n spesifieke getal was.
• ’n Hipotesetoets vir twee steekproewe met een veranderlike: Ons het gekyk of
een populasiegemiddeld groter as, kleiner as of gelyk aan ’n ander
populasiegemiddeld is.
• Die gepaarde t-toets (matched-pair t-test): Hier het ons getoets of ’n sekere
veranderlike verhoog, verlaag of dieselfde gebly het wanneer dit voor en na ’n
spesifieke insident by die populasie gemeet word.
• Die χχχχ2-toets: Hierdie toets bepaal, onder andere, of twee veranderlikes statisties
afhanklik is.
Die volgende hoofstuk gaan die F-toets, of ANOVA-toets bespreek. Hierdie hipotesetoets
kyk na een veranderlike by meer as twee steekproewe en bepaal of daar ’n verskil tussen
die gemiddelde waardes van hierdie veranderlike is.
Elementêre Kwantitatiewe Metodes
288 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)
Notas
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 11: ANOVA 289
HHOOOOFFSSTTUUKK 1111:: AANNOOVVAA
Onderwerpe
11.1 Wat is ANOVA?
Die hipotese
Die F-tabel
Die F-stat
SST
SSE
MST
Elementêre Kwantitatiewe Metodes
290 Hoofstuk 11: ANOVA | ©akademia (MSW)
Gevallestudie…
Daar heers doodse stilte in Vanessa se kantoor. Iemand wat verby die kantoor stap sonder
om in te kyk, mag dink dat die kantoor, soos ’n groot deel van StatInc se gebou, verlate is.
Die maatskappy se jaareindfunksie is twee weke gelede gehou. Kort daarna het die
hoeveelheid personeel op die perseel vinnig begin afneem. Dié wat nie kinders op skool
gehad het nie, het ’n paar dae vroeër op vakansie gegaan om die groot vakansieverkeer te
mis.
Die dag nadat die rapporte by die skole uitgedeel is, het die gebou egter in ’n spookhuis
verander. Die meeste personeel is weg om ’n welverdiende Desembervakansie te geniet.
Hier en daar kan daar nog personeel gesien word wat tot die laaste dag bly, hoofsaaklik om
telefone te beantwoord tot StatInc amptelik vir die vakansie sluit.
Die atmosfeer in die gebou is lui en verveeld. Personeel wat gelukkig genoeg is om nie
alleen ’n hele kantoor te beman nie, probeer die tyd met geselsies met kollegas verwyl. Dié
wat alleen op ’n vloer sit, hou hulself besig met boeklees of kaartspeletjies. Almal wag vir die
laaste uur van die laaste dag van die werkjaar. En daardie dag is vandag.
Iemand wat die moeite doen om wel by Vanessa se kantoor in te loer, sal verras wees.
Anders as die res van die gebou, is Vanessa se kantoor ’n miernes van bedrywighede.
Vanessa, Michael en Sonja sit elk voor ’n skootrekenaar en werk dat dit klap. Min woorde
word gewissel – elkeen weet wat hy of sy moet doen. En hulle moet dit voor die einde van
die dag doen.
StatInc het ’n laat versoek van Vasvat Versekeraars ontvang. ’n E-pos met ’n paar statistiese
vrae is aan Vanessa gestuur. Niemand sou Vanessa kwalik neem indien sy die e-pos
geïgnoreer het en eers die volgende jaar beantwoord het nie. Almal weet dat die einde van
die jaar aangebreek het en dat dienste-ondernemings soos StatInc sluit. Dit is egter nie in
Vanessa se aard om e-posse te ignoreer nie.
Die vrae wat Vasvat gevra het, is nie moeilik om te beantwoord nie. Die data wat daarvoor
versamel moet word, is reeds beskikbaar. Al wat nodig is, is ’n paar statistiese berekeninge.
Vir die meeste mense behoort dit nie ’n probleem te wees nie. Maar die meeste mense moet
nie oor vier ure by die lughawe wees nie!
Michael en Sonja het nie beplan om teen hierdie tyd nog te werk nie. Sonja het haar werk by
die Bemarkingsdepartement afgehandel en vir Michael kom haal. Hulle sou saam met Sonja
se ouers na Michael se huis toe ry om sy bagasie op te laai en dan rustig na die lughawe
vertrek. Sonja het egter net die kantoor binnegekom toe Vanessa brommend op die e-pos
reageer.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 11: ANOVA 291
“Is dit nou die tyd om so ’n e-pos te stuur?” het sy gesê.
“Dit klink nie goed nie.” Michael en Sonja het ’n bekommerde kyk gedeel.
Vanessa het gesug. “Nie doodsake nie. Ek gaan net drie ure langer moet werk vandag.”
Sy het opgekyk en vasgekyk in die gesigte van ’n bekommerde Michael en Sonja. Sy kon
nie help om te lag nie. “Ontspan! Dit is net slegte tydsberekening. Vasvat het vir my ’n lys
met vyf vrae gestuur. Hulle sê dit is nie dringend nie, hoewel dit wonderlik sou wees om die
antwoorde te hê voordat die feesseisoen begin.”
“Met ander woorde, hulle soek die antwoorde nou.”
“Presies. Maar dit behoort nie te lank te neem nie.”
“Drie ure,” sê Sonja.
“Dalk minder.”
“En as drie mense daaraan werk? Sal dit dan een uur neem?”
Vanessa het Sonja ’n kwaai kyk gegee. “Onder geen omstandighede nie. As julle jul vliegtuig
mis sal ek myself nooit vergewe... Wat doen julle?”
Sonder om vir ’n uitnodiging te wag het Michael en Sonja hulself elk by ’n tafel tuisgemaak.
Sonja het haar skootrekenaar uitgehaal en aangeskakel. Vanessa het besef dat sy nie eens
moet probeer protesteer nie. Michael en Sonja het duidelik besluit om te bly tot die werk
klaar is.
En nou is daardie uur amper verby.
“Hoe lyk die beskrywende statistiek?” vra Vanessa. Sonja het dit duidelik gemaak dat, ten
spyte van Michael se hipotesetoets-les, sy nie ’n ekspert met inferensiële statistiek is nie.
Sy het egter aangebied om al die beskrywende statistiek in Microsoft Excel te doen.
“Klaar. Ek stuur vir jou.”
“Vraag 4 se hipotesetoets is gedoen,” voeg Michael by. “Ek stuur vir jou die resultate. Ek
dink Vasvat moet nog ’n paar werknemers by die oproepsentrums aanstel.”
“Fantasties,” antwoord Vanessa.
“Wat is Vraag 5? Ek kan solank daarmee begin.” Michael geniet die opwinding van ’n
sperdatum, veral as hy in ’n groep met sulke hoogs-gemotiveerde kollegas kan werk.
Vanessa kyk na die e-pos.
“Is daar ’n verskil tussen die gemiddelde hoeveelheid oproepe wat deur die drie verskillende
Elementêre Kwantitatiewe Metodes
292 Hoofstuk 11: ANOVA | ©akademia (MSW)
oproepsentrums hanteer word?”
“Watter data het ons?” vra Michael.
“Vyf dae se totale hoeveelheid oproepe vir Oproepsentrum A en C. Vier dae vir
Oproepsentrum B.”
“Dis maar min.”
Vanessa knik. “Dit is net om ’n herverdeling van personeel vir die feesseisoen te beplan.”
Vanessa stuur ’n e-pos met die data aan vir Michael. Hy sien die volgende:
Oproepsentrum A Oproepsentrum B Oproepsentrum C
350 280 330
250 220 320
200 250 100
90 180 150
310
400
“Watter toets gaan jy doen?” vra Sonja. “Die t-toets?”
“Nee,” antwoord Michael, “die t-toets kan gebruik word om die verskil tussen twee
gemiddelde te toets. Ons het hier te doen met drie steekproewe en dus drie populasies.” Hy
kyk vir Vanessa. “ANOVA?”
“Jip,” antwoord Vanessa sonder op om te kyk.
“A wat?” vra Sonja.
11.1 Wat is ANOVA?
ANOVA is ’n akroniem vir Analysis of Variance. Die toets word gebruik om te bepaal of die
gemiddeld van ’n spesifieke veranderlike dieselfde is oor meer as twee populasies. Met
ANOVA is daar dus:
• een veranderlike (byvoorbeeld gemiddelde hoeveelheid oproepe per dag ontvang);
en
• meer as twee steekproewe (byvoorbeeld, oproepsentrum A, Oproepsentrum B en
Oproepsentrum C).
ANOVA toets bloot of daar ’n verskil tussen die gemiddelde is. Die toets dui nie aan watter
gemiddelde verskil nie. Byvoorbeeld, as daar ’n groot verskil tussen Oproepsentrum A en
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 11: ANOVA 293
Oproepsentrum B se gemiddelde hoeveelheid daaglikse oproepe is, sal die ANOVA slegs
aandui dat die gemiddelde nie dieselfde is nie. Die navorser sal dan verdere toetse moet
doen om te bepaal watter gemiddelde van mekaar verskil.
ANOVA is veral nuttig indien daar ’n hele paar steekproewe is. Dink aan ’n geval waar ons
met, byvoorbeeld, 10 steekproewe werk. Ons stel slegs belang om te weet of die
gemiddelde dieselfde is. Met ’n t-toets sou ons elke moontlike paar gemiddelde moes toets –
iets wat 45 hipotesetoetse sou vereis. Een ANOVA-toets kan egter vir ons aandui of hierdie
gemiddelde almal gelyk is. Die toets is ontwerp om enige groot variansie in die gemiddelde
op te merk en dan aan te dui.
� Die hipotese
Die nulhipotese van ’n ANOVA-toets stel dat al die steekproewe se gemiddelde gelyk is aan
mekaar. Die alternatiewe hipotese beweer dat ten minste een gemiddeld van die ander
verskil.
� Die F-tabel
Die kritiese en toetsstatistiek wat ons gebruik, is die F-crit en F-stat. Die F-tabelle word ook
aan die einde van die hierdie gids verskaf. Om ’n F-crit van die F-tabel af te lees, benodig
ons drie waardes: die hoeveelheid steekproewe (voorgestel deur k); die totale hoeveelheid
waardes in al die steekproewe (voorgestel deur N); en die α-waarde.
Ons benodig twee tipes grade van vryheid vir hierdie toets:
• dfn: Die n staan vir numerator. Hierdie grade van vryheid word gevind deur die
berekening k – 1. As daar dus 3 steekproewe is, sal dfn = 3 – 1 = 2.
• dfd: Die d staan vir denominator. Hierdie grade van vryheid word gevind deur die
berekening N – k. As daar dus 14 waardes in drie steekproewe voorkom (soos in die
geval van Vasvat se vraag), is
dfd = 14 – 3 = 11.
Omdat ons egter drie waardes moet gebruik, sou ons ’n driedimensionele F-tabel benodig:
die F-waarde is op die plek waar dfn en dfd en αααα kruis. Dit is egter nie moontlik om so ’n
tabel op ’n tweedimensionele bladsy in ’n boek te skep nie. Daarom word daar twee
verskillende F-tabelle in hierdie gids verskaf:
• ’n F-tabel waar α = 0.05 (vir ’n ANOVA-toets teen 95% sekerheid)
• ’n F-tabel waar α = 0.01 (vir ’n ANOVA-toets teen 99% sekerheid)
Elementêre Kwantitatiewe Metodes
294 Hoofstuk 11: ANOVA | ©akademia (MSW)
Dit is natuurlik ook moontlik om F-toetse vir 90% vlak van sekerheid te doen.
� Die F-stat
Die F-stat is nie moeilik om te bereken nie, maar behels ’n groot hoeveelheid berekeninge
en neem tyd in beslag. Ons benodig die volgende om die F-stat te bereken:
� SST
SST staan vir Sum of squares. Om SST te bereken, word die verskil tussen elke
steekproefgemiddeld en die totale gemiddeld (al die waardes in al die steekproewe
bymekaargetel en gedeel deur N) bepaal en afsonderlik gekwadreer. SST poog dus om te
bepaal tot watter mate elke steekproef se gemiddeld van die totale gemiddeld verskil. Hoe
groter SST is, hoe groter is die verskil tussen die verskillende steekproefgemiddelde en
totale gemiddeld.
Op ’n meer grafiese wyse kan die doel van SST soos volg beskryf word:
Oproepsentrum A Oproepsentrum B Oproepsentrum C
350 280 330
250 220 320
200 250 100
90 180 150
310 400
GEMIDDELD x1 = 240 x2 = 232.5 x3 = 260
SST toets tot watter mate hierdie drie waardes van
hierdie totale gemiddeld verskil
Totale gemiddeld: = 245
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 11: ANOVA 295
Die formule vir SST is:
SST = ∑ �M��M − ��NM
Wat beteken hierdie formule?
• Trek die totale gemiddeld ( ) van elke steekproef se gemiddeld af (bv. 240 – 245 vir
die eerste steekproef).
• Kwadreer die antwoord.
• Vermenigvuldig die antwoord met die grootte van die steekproef: in die Vasvat-
voorbeeld is dit 5 vir die eerste steekproef (n1), 4 vir die tweede steekproef (n2) en 5
vir die derde steekproef (n3).
• Tel hierdie drie antwoorde bymekaar om SST te vind.
Vir die Vasvat-voorbeeld
Ons kan nou die SST vir die Vasvat-voorbeeld hierbo bereken:
SST = ∑ �M��M − ��NM
= 5(240 – 245)2 + 4(232.5 – 245)2 + 5(260 – 245)2
= 5(-5)2 + 4(-12.5)2 + 5(15)2
= 125 + 625 + 375
= 1 875
� SSE
SSE staan vir Error Sum of Squares. Hierdie berekening bepaal die variansie tussen elke
waarde en die gemiddeld van die steekproef waarin hierdie waarde voorkom. Vir Steekproef
1 (Oproepsentrum A), sal daar dus gekyk word in watter mate die waardes 350, 250, 200, 90
en 310 van die gemiddeld van 240 afwyk. Dieselfde sal vir Steekproef 2 en 3 gedoen word.
Hierdie individuele afwykings word dan gekwadreer en bymekaargetel. Die formule vir SSE
is:
SSE = ∑ ∑ ���M − �M���M
Hierdie formule kan intimiderend voorkom. Die formule sê egter die volgende:
• Neem die eerste steekproef. Trek die steekproefgemiddeld af van die eerste waarde
in die steekproef. Kwadreer die antwoord. Herhaal nou vir elke waarde in hierdie
steekproef.
Elementêre Kwantitatiewe Metodes
296 Hoofstuk 11: ANOVA | ©akademia (MSW)
• Herhaal die vorige stap vir die oorblywende steekproewe.
Vir die Vasvat-voorbeeld
Ons kan nou die SSE vir die Vasvat-voorbeeld hierbo bereken:
SSE = ∑ ∑ ���M − �M���M
Steekproef 1 (Oproepsentrum A)
Steekproefgemiddeld = 240
(350 – 240)2 + (250 – 240)2 + (200 – 240)2 + (90 – 240)2 + (310 – 240)2
= (110)2 + (10)2 + (-40)2 + (-150)2 + (70)2
= 12 100 + 100 + 1 600 + 22 500 + 4 900
= 41 200
Steekproef 2 (Oproepsentrum B):
Steekproefgemiddeld = 232.5
(280 – 232.5)2 + (220 – 232.5)2 + (250 – 232.5)2 + (180 – 232.5)2
= (47.5)2 + (-12.5)2 + (17.5)2 + (52.5)2
= 2 256.25 + 156.25 + 306.25 + 2 756.25
= 5 475
Steekproef 3 (Oproepsentrum C):
Steekproefgemiddeld = 260
(330 – 260)2 + (320 – 260)2 + (100 – 260)2 + (150 – 260)2 + (400 – 260)2
= (70)2 + (60)2 + (-160)2 + (-110)2 + (140)2
= 4 900 + 3 600 + 25 600 + 12 100 + 19 600
= 65 800
SSE = 41 200 + 5 475 + 65 800
= 112 475
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 11: ANOVA 297
� MST
MST staan vir Mean Square Treatment. Hierdie berekening neem die SST en pas dit aan
om vir die hoeveelheid steekproewe wat daar is, voorsiening te maak. Ons gebruik dus k in
hierdie formule. Die formule vir MST is:
MST = EEON��
waar k die hoeveelheid steekproewe voorstel. MST is, inderwaarheid, ’n variansie, soos wat
ons in Hoofstuk 3 bereken het.
Vir die Vasvat-voorbeeld
MST = EEON��
= � 3P<�
= 937.5
� MSE
MSE staan vir Mean Square Error. Hierdie is ’n variansie wat ons bereken deur die totale
hoeveelheid waardes in al die steekproewe (N), asook die hoeveelheid steekproewe (k) in
ag te neem.
Die formule vir MSE is:
MSE = EEQR�N
Vir die Vasvat-voorbeeld
MSE = SSTU�V
= ��� 4P<��
= 10 225
� F-stat
Die laaste stap in die berekening is die F-stat. Die F-stat word bereken deur MST deur MSE
te deel. Die formule vir die F-stat is dus:
F-stat = WEOWEQ
Elementêre Kwantitatiewe Metodes
298 Hoofstuk 11: ANOVA | ©akademia (MSW)
Hierdie F-stat sal dan met die F-crit vergelyk word om te bepaal of die nulhipotese verwerp
moet word.
Vir die Vasvat-voorbeeld
F-stat = WEOWEQ
= =8P.<�� ��<
= 0.0916
Die bespreking hierbo het slegs beskryf hoe ’n F-stat bereken sal word. Die Vasvat-
voorbeeld gaan nou gebruik word om die ANOVA-hipotesetoets te doen.
Voorbeeld: ANOVA
Michael het die volgende data tot sy beskikking:
Oproepsentrum A Oproepsentrum B Oproepsentrum C
350 280 330
250 220 320
200 250 100
90 180 150
310
400
Bepaal, teen ’n 95% vlak van sekerheid, of daar ’n verskil tussen die gemiddelde oproepe is
wat deur elke oproepsentrum hanteer moes word.
Antwoord:
Dieselfde stappe vir die toets van 'n hipotese word uitgevoer:
Stap 1: Vind die nul- en alternatiewe hipotese
H0: μ1 = μ2 = μ3
H1: Ten minste een μ verskil van die res
Stap 2: Vind die kritiese waarde
Om die kritiese waarde te vind benodig ons:
• αααα-waarde: In hierdie geval is dit 0.05.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 11: ANOVA 299
• dfn: Dit word verkry deur k – 1, waar k = die hoeveelheid steekproewe. Daar is 3
steekproewe, dus is dfn = 3 – 1 = 2.
• dfd: Dit word verkry deur N – k, waar k = die hoeveelheid steekproewe en N = die
totale steekproefgrootte. Daar is 3 steekproewe en ’n totaal van 14 waardes in die
steekproef. Dus is dfd = 14 – 3 = 11.
Om F-crit te vind, gebruik ons die F-tabel waar α = 0.05. In hierdie tabel vind ons die 2-
kolom en die 11-ry. Waar hierdie kolom en ry kruis, vind ons ’n waarde van 3.98. Dus:
F-crit = 3.98
Hierdie waarde kan soos volg op die F-grafiek voorgestel word:
Stap 3: Bereken die toetsstatistiek
Ons het die toetsstatistiek reeds vroeër bereken:
F-stat = 0.0916
Stap 4: Besluit of die nulhipotese verwerp moet word
Hiervoor sal ons F-stat en F-crit moet vergelyk. Ons kan ’n grafiek hiervoor gebruik:
As F-stat in hierdie area val, word
H0 nie verwerp nie.
As F-stat in hierdie area val, word
H0 verwerp.
95% 5%
F-crit = 3.98
Elementêre Kwantitatiewe Metodes
300 Hoofstuk 11: ANOVA | ©akademia (MSW)
Die F-stat val dus duidelik nie in die area van verwerping nie. Dus:
Daar is nie voldoende bewyse om H0 te verwerp nie.
Stap 5: Gevolgtrekking
Daar is geen verskil tussen die gemiddelde hoeveelheid oproepe wat ’n oproepsentrum op ’n
dag hanteer nie.
11.2 Ten slotte
ANOVA is ’n toets wat bepaal of daar ’n verskil tussen die gemiddelde van ’n spesifieke
veranderlike oor meer as twee steekproewe bestaan. Die F-toets word hiervoor gebruik.
ANOVA is die laaste hipotesetoets wat in hierdie gids bespreek gaan word. Die diagram
hieronder verskaf ’n oorsig van al die hipotesetoetse wat ons behandel het.
As F-stat in hierdie area val, word
H0 nie verwerp nie.
As F-stat in hierdie area val, word
H0 verwerp.
95% 5%
F-crit = 3.98
F-stat = 0.092
X
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Hoofstuk 11: ANOVA 301
Figuur 11.1: Grafiese voorstelling van hipotesetoetse wat in die gids bespreek is
Die einde en die begin
London Heathrow is ’n besige lughawe. Dit is een van die groot lughawens wat
passasiersgetalle en hoeveelheid betref. Daar is altyd mense wat haastig op pad is na ’n hek
wat op die punt is om te sluit. Dan is daar ook mense wat te vroeg is vir ’n vlug en hulself
moet besig hou tot dit tyd is om na die hek te beweeg.
By ’n tafel van ’n koffiewinkel sit vier jongmense wat deel van die laaste groep uitmaak. Daar
word nie veel gesê nie – elkeen is besig met sy of haar eie gedagtes. Michael sit en dink
terug aan ’n ongelooflike jaar. Hy het soveel geleer. Hy het ’n inkomste verdien wat meer is
as wat enige van sy studentevriende maak. Hy het Europa besoek. Hy het nuwe vriende
gemaak. En nou is hy op pad terug huis toe.
“Wie sou aan die begin van die jaar kon dink dat ons vandag hier sou sit,” onderbreek Sonja
sy gedagtes. Michael dink terug aan die begin van die jaar. Hy het nog nie geweet dat
StatInc bestaan nie – hy het eers in Februarie van hulle gehoor. Hy het nie vir Sonja,
Werner, Nadia of Vanessa geken nie. Hy het ’n droom gehad om eendag Europa te besoek.
Die begin van die jaar is ’n leeftyd gelede.
“Nie ek nie,” erken Werner. “Maar ek is nie goed met voorspellings nie.” Hy kyk na Michael.
Hipotesetoetse
Een veranderlike
Een steekproef
(Hoofstuk 8)
σ bekend: z-toets
σ onbekend: t-toets
Twee
steekproewe (Hoofstuk 9)
σ bekend: z-toets
σ onbekend: t-toets
Gepaarde
t-toets
Meer as twee
steekproewe
(Hoofstuk 11)
ANOVA en
F-toets
Twee
veranderlikes (Hoofstuk 10)
χχχχ2 toets vir
afhanklikheid
Elementêre Kwantitatiewe Metodes
302 Hoofstuk 11: ANOVA | ©akademia (MSW)
“Meneer die Statistikus, hoeveel van die dinge wat hierdie jaar gebeur het, het jy voorspel?”
Michael glimlag. “Dalk vyf persent.”
Sonja bars uit van die lag. “Jy moet jou universiteitsgelde terugvra.”
Michael kan net glimlag. Statistiek voorspel gemiddelde. Die vervelige voortsetting van dinge
wat reeds gebeur het.
Die uitsonderlike, dink Michael, die wonderwerke van die lewe, dit sal ’n mens altyd onkant
betrap.
Ons het aan die einde van hierdie gids gekom. Die doel van hierdie gids was om jou te help
om ’n paar basiese konsepte ten opsigte van Statistiek te verstaan deur ’n eenjaarreis saam
met Michael te onderneem.
Ons het geleer wat Statistiek is en waarom dit nodig is. Ons het gekyk na dataversameling,
asook grafiese en numeriese beskrywende statistiek. Ons het waarskynlikhede behandel,
vertrouensintervalle bereken en ’n verskeidenheid van hipotesetoetse gedoen.
Die belangrikste doelwit van hierdie gids was egter om die “waarom” van elke statistiese
metode te verduidelik. Waarom het ons beskrywende statistiek nodig? Waarom kan ons nie
sonder meer ’n steekproefgemiddeld op die populasie se gemiddeld van toepassing maak
nie? Waarom moet ons ’n verteenwoordigende steekproef hê?
Ons het ook die beperkings van Statistiek gesien. ’n Swak steekproefmetode maak enige
statistiese berekeninge onbruikbaar. Voorspellings oor die toekoms kan slegs op historiese
data gebaseer word.
Statistiek is oral. Dit is deel van ons lewens. Ons maak statistiese gevolgtrekkings op ’n
daaglikse basis, dikwels sonder om die proses of die oorsprong van ons data te
bevraagteken. Met hierdie gids is gepoog om jou meer attend te maak op die dikwels
foutiewe aannames wat ons maak.
Elke persoon het ’n ander rede waarom hy of sy hierdie gids gebruik. Dalk is dit jou eerste
stap om ’n volwaardige statistikus te word. Dalk wil jy dit gebruik as ’n inleiding om jou eie
navorsing vir studies te doen. Dalk gebruik jy hierdie gids bloot om eerstejaar-Statistiek te
slaag. Mag Michael se storie jou inspireer om Statistiek in al sy vorme te gebruik.
Maar onthou: die beste dinge in die lewe kan nie voorspel word nie.
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Aanhangsels 303
AAAANNHHAANNGGSSEELLSS
Die z-tabel
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.7 0.2580 0.2611 0.2642 0.2673 0.2703 0.2734 0.2764 0.2793 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3557 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158 2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361 2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520 2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643 2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736 2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807 2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861 3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49897 0.49900 3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929 3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950 3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965 3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976 3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983 3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989 3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49991 0.49992 0.49992 0.49992 3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995 3.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.49997 4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998
Elementêre Kwantitatiewe Metodes
304 Aanhangsels | ©akademia (MSW)
Die t-tabel
0.100 0.050 0.025 0.010 0.005 0.0025
df
1 3.078 6.314 12.706 31.821 63.657 127.322
2 1.886 2.920 4.303 6.965 9.925 14.089
3 1.638 2.353 3.182 4.541 5.841 7.453
4 1.533 2.132 2.776 3.747 4.604 5.598
5 1.476 2.015 2.571 3.365 4.032 4.773
6 1.440 1.943 2.447 3.143 3.707 4.317
7 1.415 1.895 2.365 2.998 3.499 4.029
8 1.397 1.860 2.306 2.896 3.355 3.833
9 1.383 1.833 2.262 2.821 3.250 3.690
10 1.372 1.812 2.228 2.764 3.169 3.581
11 1.363 1.796 2.201 2.718 3.106 3.497
12 1.356 1.782 2.179 2.681 3.055 3.428
13 1.350 1.771 2.160 2.650 3.012 3.372
14 1.345 1.761 2.145 2.624 2.977 3.326
15 1.341 1.753 2.131 2.602 2.947 3.286
16 1.337 1.746 2.120 2.583 2.921 3.252
17 1.333 1.740 2.110 2.567 2.898 3.222
18 1.330 1.734 2.101 2.552 2.878 3.197
19 1.328 1.729 2.093 2.539 2.861 3.174
20 1.325 1.725 2.086 2.528 2.845 3.153
21 1.323 1.721 2.080 2.518 2.831 3.135
22 1.321 1.717 2.074 2.508 2.819 3.119
23 1.319 1.714 2.069 2.500 2.807 3.104
24 1.318 1.711 2.064 2.492 2.797 3.091
25 1.316 1.708 2.060 2.485 2.787 3.078
26 1.315 1.706 2.056 2.479 2.779 3.067
27 1.314 1.703 2.052 2.473 2.771 3.057
28 1.313 1.701 2.048 2.467 2.763 3.047
29 1.311 1.699 2.045 2.462 2.756 3.038
30 1.310 1.697 2.042 2.457 2.750 3.030
31 1.309 1.696 2.040 2.453 2.744 3.022
32 1.309 1.694 2.037 2.449 2.738 3.015
33 1.308 1.692 2.035 2.445 2.733 3.008
34 1.307 1.691 2.032 2.441 2.728 3.002
35 1.306 1.690 2.030 2.438 2.724 2.996
36 1.306 1.688 2.028 2.434 2.719 2.990
37 1.305 1.687 2.026 2.431 2.715 2.985
38 1.304 1.686 2.024 2.429 2.712 2.980
39 1.304 1.685 2.023 2.426 2.708 2.976
40 1.303 1.684 2.021 2.423 2.704 2.971
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Aanhangsels 305
0.100 0.050 0.025 0.010 0.005 0.0025
df
45 1.301 1.679 2.014 2.412 2.690 2.952
50 1.299 1.676 2.009 2.403 2.678 2.937
60 1.296 1.671 2.000 2.390 2.660 2.915
70 1.294 1.667 1.994 2.381 2.648 2.899
80 1.292 1.664 1.990 2.374 2.639 2.887
90 1.291 1.662 1.987 2.369 2.632 2.878
100 1.290 1.660 1.984 2.364 2.626 2.871
110 1.289 1.659 1.982 2.361 2.621 2.865
120 1.289 1.658 1.980 2.358 2.617 2.860
140 1.288 1.656 1.977 2.353 2.611 2.852
160 1.287 1.654 1.975 2.350 2.607 2.847
180 1.286 1.653 1.973 2.347 2.603 2.842
200 1.286 1.653 1.972 2.345 2.601 2.839
1.282 1.645 1.960 2.327 2.576 2.807
Elementêre Kwantitatiewe Metodes
306 Aanhangsels | ©akademia (MSW)
χχχχ2 – tabel
0.100 0.050 0.025 0.010 0.005 0.0025
df
1 2.707 3.843 5.026 6.637 7.881 9.142
2 4.605 5.991 7.378 9.210 10.597 11.983
3 6.251 7.815 9.348 11.345 12.838 14.321
4 7.779 9.488 11.143 13.277 14.860 16.424
5 9.236 11.071 12.833 15.086 16.750 18.386
6 10.645 12.592 14.449 16.812 18.548 20.249
7 12.017 14.067 16.013 18.475 20.278 22.040
8 13.362 15.507 17.535 20.090 21.955 23.774
9 14.684 16.919 19.023 21.666 23.589 25.462
10 15.987 18.307 20.483 23.209 25.188 27.112
11 17.275 19.675 21.920 24.725 26.757 28.729
12 18.549 21.026 23.337 26.217 28.300 30.318
13 19.812 22.362 24.736 27.688 29.819 31.883
14 21.064 23.685 26.119 29.141 31.319 33.426
15 22.307 24.996 27.488 30.578 32.801 34.950
16 23.542 26.296 28.845 32.000 34.267 36.456
17 24.769 27.587 30.191 33.409 35.718 37.946
18 25.989 28.869 31.526 34.805 37.156 39.422
19 27.204 30.144 32.852 36.191 38.582 40.885
20 28.412 31.410 34.170 37.566 39.997 42.336
21 29.615 32.671 35.479 38.932 41.401 43.775
22 30.813 33.924 36.781 40.289 42.796 45.204
23 32.007 35.172 38.076 41.638 44.181 46.623
24 33.196 36.415 39.364 42.980 45.558 48.034
25 34.382 37.652 40.646 44.314 46.928 49.435
26 35.563 38.885 41.923 45.642 48.290 50.829
27 36.741 40.113 43.195 46.963 49.645 52.215
28 37.916 41.337 44.461 48.278 50.993 53.594
29 39.087 42.557 45.722 49.588 52.336 54.967
30 40.256 43.773 46.979 50.892 53.672 56.332
31 44.422 44.985 48.232 52.191 55.003 57.692
32 42.585 46.194 49.480 53.486 56.328 59.046
33 43.745 47.400 50.725 54.776 57.648 60.395
34 44.903 48.602 51.966 56.061 58.964 61.738
35 46.059 49.802 53.203 57.342 60.275 63.076
36 47.212 50.998 54.437 58.619 61.581 64.410
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Aanhangsels 307
0.100 0.050 0.025 0.010 0.005 0.0025
df
37 48.363 52.192 55.668 59.892 62.883 65.739
38 49.513 53.384 56.896 61.162 64.181 67.063
39 50.660 54.572 58.120 62.428 65.476 68.383
40 51.805 55.758 59.342 63.691 66.766 69.699
45 57.505 61.656 65.410 69.957 73.166 76.233
50 63.167 67.505 71.420 76.154 79.490 82.664
60 74.399 79.087 83.305 88.386 91.957 95.357
70 85.529 90.537 95.031 100.432 104.222 107.812
80 96.581 101.885 106.636 112.336 116.329 120.107
90 107.568 113.151 118.144 124.125 128. 307 132.262
100 118.501 124.348 129.570 135.815 140.178 144.300
110 129.388 135.487 140.925 147.423 151.958 156.238
120 146.571 152.222 157.389 163.678 168.122 172.351
140 168.618 174.659 180.174 186.875 191.604 196.099
160 190.522 196.926 202.766 209.852 214.845 219.588
180 212.310 219.056 225.200 232.647 237.890 242.866
Elementêre Kwantitatiewe Metodes
308 Aanhangsels | ©akademia (MSW)
Die f-tabel (α = 0.05)
Degrees of freedom for numerator
De
gre
es
of
fre
ed
om
fo
r d
en
om
ina
tor
1 2 3 4 5 6 7 8 9 10
1 161.14 199.5 215.7 224.6 230.2 234 236.8 238.9 240.5 241.9
2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4
3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79
4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96
5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74
6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06
7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64
8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35
9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14
10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98
11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85
12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75
13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67
14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60
15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54
16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49
17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45
18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41
19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38
20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35
21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32
22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30
23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27
24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25
25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24
30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16
40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08
60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99
120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91
3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Aanhangsels 309
Die F-tabel (α = 0.05) [VERVOLG]
Degrees of freedom for numerator
De
gre
es
of
fre
ed
om
fo
r d
en
om
ina
tor
12 15 20 24 30 40 60 120 ∞ 1 243.9 245.9 248 249.1 250.1 251.1 252.2 253.3 254.3
2 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5
3 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.37
6 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
18 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92
19 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88
20 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84
21 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81
22 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78
23 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76
24 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73
25 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71
30 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62
40 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51
60 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39
120 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25
1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00
Elementêre Kwantitatiewe Metodes
310 Aanhangsels | ©akademia (MSW)
Die f-tabel (α = 0.01)
Degrees of freedom for numerator
De
gre
es
of
fre
ed
om
fo
r d
en
om
ina
tor
1 2 3 4 5 6 7 8 9 10
1 4052 4999.5 5403 5625 5764 5859 5928 5982 6022 6056
2 98.5 99.0 99.2 99.2 99.3 99.3 99.4 99.4 99.4 99.4
3 34.1 30.8 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2
4 21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.7 14.5
5 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1
6 13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87
7 12.2 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62
8 11.3 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81
9 10.6 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26
10 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85
11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54
12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30
13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10
14 8.86 6.51 5.56 5.04 4.70 4.46 4.28 4.14 4.03 3.94
15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80
16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69
17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59
18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51
19 8.19 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43
20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37
21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31
22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26
23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21
24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17
25 7.77 5.57 4.68 4.18 3.86 3.63 3.46 3.32 3.22 3.13
30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98
40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80
60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63
120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47
6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32
Elementêre Kwantitatiewe Metodes
©akademia (MSW)| Aanhangsels 311
Die F-tabel (α = 0.01)
Degrees of freedom for numerator
De
gre
es
of
fre
ed
om
fo
r d
en
om
ina
tor
12 15 20 24 30 40 60 120 ∞ 1 6106 6157 6209 6235 6261 6287 6313 6339 6366
2 99.4 99.4 99.4 99.5 99.5 99.5 99.5 99.5 99.5
3 27.1 26.9 26.7 26.6 26.5 26.4 26.3 26.2 26.1
4 14.4 14.2 14.0 13.9 13.8 13.7 13.7 13.6 13.5
5 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02
6 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88
7 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65
8 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86
9 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31
10 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91
11 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60
12 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36
13 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17
14 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00
15 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87
16 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75
17 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65
18 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57
19 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49
20 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42
21 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36
22 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31
23 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26
24 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21
25 2.99 2.85 2.70 2.62 2.53 2.45 2.36 2.27 2.17
30 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01
40 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80
60 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60
120 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38
2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00
Dr Daleen van Niekerk is ‘n opvoedkundige konsultant wat reeds meer as 20 jaar betrokke is by die ondersteuning van akademici in die ontwikkeling van studie-materiaal. Haar spesialisveld behels leerontwerp, akademiese redigering asook bladuitleg om leermateriaal so toeganklik as moontlik vir studente te maak. In hierdie hoedanigheid was sy betrokke by projekte aan Unisa, Milpark Business School, Law Society of South Africa, Lyceum College en Centurion Akademie. Vir die afgelope vyf jaar is sy betrokke by projekontwikkeling aan Akademia.
Johann Smith beskik oor ‘n BCom-graad (Informatika) (Hons) en ‘n MCom-graad in Kommunikasiebestuur. Hy is vir die afgelope 13 jaar in die onderwys betrokke en het, onder andere, Statistiek vir eerstejaarstudente aangebied. Hierdie is sy vierde handleiding. Johann is ook ‘n skrywer van toneelstukke en draaiboeke. Hy het reeds twee maal die ATKV CR Swartprys vir toneeltekste ontvang en het draaiboeke vir twee gewilde Suid-Afrikaanse sepies geskryf.
www.akademia.ac.za