elementere kwantitatiewe metodes gqm105

Elementêre Kwantitatiewe

Metodes

Johann Smith

ELEMENTÊRE KWANTITATIEWE METODES

© Kopiereg 2016

Onder redaksie van: Dr Paul JN Steyn, BA (PU vir CHO), THOD (POK), DEd (Unisa)

Skrywer: Johann Smith

Akademiese taalversorging, bladontwerp en uitleg: Dr Daleen van Niekerk

‘n Publikasie van Akademia.

Alle regte voorbehou.

Adres: Von Willichlaan 284, Centurion

Posadres: Posbus 11760. Centurion, 0046

Tel: 0861 222 888

E-pos: [email protected]

Webtuiste: www.akademia.ac.za

Geen gedeelte van hierdie boek mag sonder die skriftelike toestemming van

die uitgewers gereproduseer of in enige vorm of deur enige middel

weergegee word nie, hetsy elektronies of deur fotokopiëring, plaat- of

bandopnames, vermikrofilming of enige ander stelsel van inligtingsbewaring

nie. Enige ongemagtigde weergawe van hierdie werk sal as ‘n skending van

kopiereg beskou word en die dader sal aanspreeklik gehou word onder

siviele asook strafreg.

Elementêre Kwantitatiewe Metodes

©akademia (MSW)| Inhoudsopgawe 3

IINNHHOOUUDDSSOOPPGGAAWWEE

Hoofstuk 1: Inleiding tot Statistiek................................................................................................ 7

1.1. Waarom leer sakestudente van statistiek? ............................................................................ 9

1.2. Waar pas statistiek in die groter prentjie? ........................................................................... 11

1.3. Wat is statistiek? ................................................................................................................... 13

1.4. Vlakke van data ..................................................................................................................... 15

Hoofstuk 2: Grafiese beskrywende statistiek .............................................................................. 19

2.1 Wat is beskrywende statistiek? ............................................................................................ 22

� Item 1: Die frekwensietabel .................................................................................................. 23

� Item 2: Die kolomgrafiek ....................................................................................................... 27

� Item 3: Die sirkelgrafiek ........................................................................................................ 29

� Item 4: Die histogram ........................................................................................................... 31

� Item 5: Kumulatiewe frekwensieverspreidings .................................................................... 33

� Item 6: Die kumulatiewe frekwensieveelhoek ..................................................................... 35

Hoofstuk 3: Numeriese beskrywende statistiek .......................................................................... 39

3.1 Wat is numeriese beskrywende statistiek? .......................................................................... 41

3.2 Wat is ’n gemiddeld? ............................................................................................................ 42

3.3 Wat is ’n mediaan? ............................................................................................................... 48

� Wat van groepe? ................................................................................................................... 49

� Moet ek altyd hierdie lang proses volg? ............................................................................... 52

� Waarom is ’n mediaan nuttig? .............................................................................................. 54

3.4 Wat is ’n modus?................................................................................................................... 57

3.5 Wat is ’n geweegde gemiddeld? ........................................................................................... 61

3.6 Wat is kwantiele? .................................................................................................................. 64

� Hoe word Q1 bereken? .......................................................................................................... 65

� Hoe word Q2 bereken? ......................................................................................................... 66

� Hoe word Q3 bereken? ......................................................................................................... 67

� Wat as die posisie nie ’n heelgetal is nie? ............................................................................ 67

� Hoe interpreteer ons kwantiele? .......................................................................................... 68

� Kwantiele vir kategorieë ....................................................................................................... 68


4 Inhoudsopgawe | ©akademia (MSW)

3.7 Wat is maatstawwe van spreiding? ...................................................................................... 72

3.8 Wat is ’n standaardafwyking? ............................................................................................... 72

� Waarom is ’n standaardafwyking belangrik? ........................................................................ 73

� Hoe word ’n standaardafwyking bereken? ........................................................................... 73

3.9 Wat is die variansiekoëffisiënt? ............................................................................................ 75

3.10 Wat is ’n skeefheidskoëffisiënt? ........................................................................................... 76

� Hoe interpreteer ons ’n koëffisiënt van skeefheid? ............................................................. 78

Hoofstuk 4: Waarskynlikhede ..................................................................................................... 81

4.1 Wat is ’n waarskynlikheid?.................................................................................................... 83

� Berekening van ’n waarskynlikheid....................................................................................... 85

4.2 Belangrike begrippe .............................................................................................................. 87

� Begrip 1: Snyding .................................................................................................................. 88

� Begrip 2: Samevoeging .......................................................................................................... 97

� Begrip 3: Onderling-uitsluitlike gebeurtenisse ................................................................... 106

� Begrip 4: Gesamentlik uitputbaar ....................................................................................... 108

� Begrip 5: Voorwaardelike waarskynlikhede........................................................................ 111

� Begrip 6: Statistiese afhanklikheid ...................................................................................... 116

4.3 Telreëls ................................................................................................................................ 119

� Wat is kombinasies? ........................................................................................................... 121

� Permutasies......................................................................................................................... 125

Hoofstuk 5: Waarskynlikheidverspreidings ............................................................................... 131

5.1 Inleiding ............................................................................................................................... 132

5.2 Die binominale verspreiding ............................................................................................... 132

5.3 Die Poisson-verspreiding..................................................................................................... 141

� Wat is ’n Poisson-verspreiding? .......................................................................................... 142

5.4 Die normaalverdeling .......................................................................................................... 149

� Wat is ’n normaalverdeling? ............................................................................................... 149

� Wat is kontinue data? ......................................................................................................... 152

� Twee tipes normaalverdelings ............................................................................................ 154


©akademia (MSW)| Inhoudsopgawe 5

Hoofstuk 6: Steekproewe ......................................................................................................... 167

6.1 Steekproefneming ............................................................................................................... 169

6.2 Ewekansige steekproefmetodes ......................................................................................... 171

� Opsomming van ewekansige steekproefneming ................................................................ 177

6.3 Nie-ewekansige steekproefneming .................................................................................... 178

� Geriefsteekproefneming ..................................................................................................... 178

� Oordeelsteekproefneming .................................................................................................. 179

� Kwota-steekproefneming ................................................................................................... 179

� Sneeubalsteekproefneming ................................................................................................ 179

6.4 Waarom is steekproefneming belangrik? ........................................................................... 179

Hoofstuk 7: Vertrouensintervalle.............................................................................................. 181

7.1 Om ’n gevolgtrekking oor die populasie te maak ............................................................... 186

7.2 Wat is ’n vertrouensinterval? ............................................................................................. 188

� Bereken ’n vertrouensinterval ............................................................................................ 189

� Bereken ’n vertrouensinterval as σ onbekend is ................................................................ 196

7.3 Ten slotte ............................................................................................................................ 202

Hoofstuk 8: Hipotesetoetsing van een veranderlike .................................................................. 203

8.1 Wat is ’n hipotesetoets? ..................................................................................................... 206

8.2 ’n Hipotesetoets vir een veranderlike ................................................................................. 207

� Linkskantige, regskantige en tweekantige hipoteses ......................................................... 209

8.3 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking bekend ..... 216

8.4 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking onbekend . 224

8.5 Terug by Sonja se hipotese ................................................................................................. 231

8.6 Ten slotte ............................................................................................................................ 234

Hoofstuk 9: Hipotesetoets vir twee steekproewe ...................................................................... 235

9.1 Hipotesetoets vir een veranderlike, twee populasies; populasie-standaardafwyking is

bekend ............................................................................................................................................ 239

9.2 Hipotesetoets vir twee steekproewe indien σ nie bekend is nie........................................ 246

9.3 Die gepaarde t-toets (matched pair t-test) ......................................................................... 258

9.4 Ten slotte ............................................................................................................................ 268


6 Inhoudsopgawe | ©akademia (MSW)

Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid ........................................................... 269

10.1 Statistiese afhanklikheid ..................................................................................................... 272

10.2 Die χ2-stat ........................................................................................................................... 273

10.3 Ten slotte ............................................................................................................................ 287

Hoofstuk 11: ANOVA ................................................................................................................ 289

11.1 Wat is ANOVA? ................................................................................................................... 292

� Die hipotese ........................................................................................................................ 293

� Die F-tabel ........................................................................................................................... 293

� Die F-stat ............................................................................................................................. 294

� SST ....................................................................................................................................... 294

� SSE ....................................................................................................................................... 295

� MST ..................................................................................................................................... 297

� MSE ..................................................................................................................................... 297

� F-stat ................................................................................................................................... 297

11.2 Ten slotte ............................................................................................................................ 300

Aanhangsels ............................................................................................................................. 303


©akademia (MSW)| Hoofstuk 1: Inleiding tot Statistiek 7

HHOOOOFFSSTTUUKK 11:: IINNLLEEIIDDIINNGG TTOOTT SSTTAATTIISSTTIIEEKK

Onderwerp

1.1 Waarom leer sakestudente statistiek?

1.2 Waar pas statistiek in die groter prentjie?

1.3 Wat is statistiek?

1.4 Vlakke van data


8 Hoofstuk 1: Inleiding tot Statistiek | ©akademia (MSW)

Gevallestudie: Michael

Vanessa kyk op as sy ’n klop by die deur hoor.

“Binne.”

Sy kyk vir ’n oomblik vraend na Michael wat effe onseker in die deur staan.

“Kan ek help?”

“Ek is Michael. David het gesê dat ek jou moet sien.”

Dan besef Vanessa wie die jong man is: Michael Bronkhorst, die student wat vandag sy

internskap by StatInc begin. David Brummer, een van die maatskappy se projekleiers, het

haar gevra om haar oor die junior te ontferm. Sy staan op.

“Natuurlik,” sê sy vriendeliker, dog professioneel. “Jammer, my kop was besig met ’n groot

projek wat ons vir ’n mediese fonds doen.” Sy hou haar hand uit. “Bly om jou te ontmoet.”

Michael skud haar hand. Vanessa wys na ’n stoel by haar lessenaar. “Sit gerus.”

Vanessa self neem plaas aan die agterkant van haar lessenaar. Sy kyk geïnteresseerd na

Michael. Vir sy ouderdom het die jong man ’n indrukwekkende CV. Hy is ’n eerstejaarstudent

by ’n plaaslike universiteit. Behalwe vir uitstekende matriekuitslae, was hy by elke moontlike

buitemuurse aktiwiteit by sy skool betrokke. Hy het selfs sy eie sakeonderneming begin

totdat dit met sy skoolwerk begin inmeng het en sy ouers ’n stokkie daarvoor gesteek het.

“Ek het jou universiteit gekontak. Daar is geen verpligte internskappe wat vereis word in jou

studierigting nie,” pak Vanessa dadelik die bul by die horings. “Waarom het jy besluit om by

ons betrokke te raak?”

“Ek het met ’n paar mense gesels; mense wat ’n werk doen wat ek eendag sal wil doen.

Almal het gekla dat studente wat die universiteit verlaat nie genoeg ondervinding het nie en

ek wou nie een van daardie studente wees nie.”

“En dit is hoe jy by David uitgekom het?”

Michael knik. “Ek het hom uit die bloute gebel en gehoor of daar iets is wat ek by StatInc kon

doen. Ek het nie gedink hy sal sommer ja sê nie, maar dalk kon hy vir my raad vir die

toekoms gee. Elke bietjie help.”

Vanessa word toenemend deur die effe buitengewone student beïndruk. Sy kan verstaan

waarom David hom ’n kans wou gee.



“StatInc is ’n baie dinamiese organisasie. Ons sal nooit die kans laat verbygaan om ’n

moontlike goeie werknemer – vir nou of vir die toekoms – te ontmoet nie. Verstaan ek reg as

ek sê dat jy bereid was om verniet te werk?”

Michael knik weereens. “Ek betaal vir my studies by die universiteit. Die feit dat julle my nie

geld vra om my te leer nie, is ’n bonus.”

Vanessa glimlag. “Wel, ek glo darem nie David sal jou vir ’n maand verniet laat werk nie.

Maar jou kontrak is ’n saak tussen julle twee. My taak sal wees om jou soveel as moontlik te

leer voordat jou maand verby is. Maar ek moet jou waarsku – jy gaan nie baie slaap inkry

nie!”

Michael se oë glinster. “Slaap is vir die voëls,” is al wat hy sê.

1.1. Waarom leer sakestudente van statistiek?

Statistiek, of soos dit in hierdie geval bekend staan, “Elementêre kwantitatiewe metodes”, is

’n vak wat mag voorkom of dit nie in ’n B.Com.-kwalifikasie hoort nie. Berekeninge hoort mos

by B.Sc- of Ingenieurskwalifikasies. Of dit mag moontlik deel wees van ’n B.Com.-

kwalifikasie, maar slegs by Rekeningkunde of Finansiële vakke. Waarom moet ’n student

wat met ’n graad in Ondernemingsbestuur of Bemarking besig is, Statistiek verstaan?

Die kort antwoord op hierdie vrae is eintlik eenvoudig. Statistiek is oral. Dit is deel van elke

bestuurder se lewe. Selfs klein sakeondernemings moet op ’n gereelde basis die een of

ander vorm van dataversameling doen en dan gevolgtrekkings op die statistiese ontleding

daarvan maak.

’n Groot uitdaging waarvoor studente te staan kom, is om die praktyk en teorie van Statistiek

met mekaar te versoen. Waarom moet ek ’n standaardafwyking kan bereken? Wat beteken

’n standaardafwyking van 10 – is dit groot of klein? Kan ek nie eerder eendag slegs ’n

statistikus betaal om die navorsing te doen nie? Wat beteken dit regtig as ’n hipotese

aanvaar is?

Die doel van hierdie gids is om daardie oorbrugging te verskaf. Deur intensief van ’n

deurlopende gevallestudie gebruik te maak, sal feitlik elke aspek van die Statistieksillabus

deur middel van ’n voorbeeld verduidelik word. Volg Michael, ’n eerstejaar B.Com.-student,

se ontdekkingstog tydens sy internskap by StatInc, ’n baie suksesvolle

marknavorsingsonderneming.



Gevallestudie: Die toer

Michael volg Vanessa deur die gange van die hipermoderne kantoorgebou. StatInc is

duidelik ’n suksesvolle onderneming en elke kantoor is smaakvol toegerus met moderne

kantoormeubels. Oral is personeel besig om te werk. Vanessa stop by ’n kantoor met ’n

bordjie. Datavaslegging, lees Michael voordat hulle die kantoor binnestap.

Die kantoor is ’n bynes van aktiwiteit. Michael het in sy lewe nog nooit die geluid van soveel

rekenaarsleutelborde gehoor nie. ’n Groep van dertig of veertig datavasleggers sit by

rekenaars, besig om verskillende dokumente se waardes in die rekenaars in te lees. Michael

staan en staar oopmond na ’n dame wat teen ’n verbysterende spoed tik. As ek so vinnig

kon tik sou my take binne ’n halfuur afgehandel wees, en nie vier dae neem om te voltooi

nie, dink hy.

Vanessa praat saggies met Michael. “Hierdie is ons datavasleggers. Alle vraelyste wat

voltooi word, word deur hierdie personeel na ’n elektroniese formaat omgeskakel. Dit is

natuurlik baie belangrik dat hulle eenhonderdpersent akkuraat moet wees. As ’n

datavaslegger ’n fout maak, is die data wat ons vir statistiese ontleding kry, ook nie akkuraat

nie. Dit maak nie saak hóé goed en akkuraat ons statistiese ontleding dan is nie, die

resultate is niks werd as die data nie korrek is nie.”

Michael knik om aan te dui dat hy begryp.

“Ons het ook ’n aantal personeel wat spesialiseer in die ontwerp van vraelyste. Hulle eerste

verantwoordelikheid is om te sorg dat die inligting wat ons kliënt wil hê, wel deur die vraelys

versamel kan word. Hulle moet byvoorbeeld die regte vrae vra, seker maak dat daar nie

misverstande is nie, onnodige vrae uitlaat en seker maak dat daar nie enige vrae kort nie.

“Maar ’n tweede belangrike bydrae wat hierdie personeel maak, is om die vraelyste só op te

stel dat dit so vinnig as moontlik deur ons datavasleggers geprosesseer kan word. ’n Klein

verstelling op ’n vraelys kan die verskil tussen ’n uur en ’n week se werk veroorsaak.”

Michael staar verwonderd na die aktiwiteite in die vertrek. “Sleutel hulle slegs die data vir

StatInc se projekte in?”

“Nee, ons het kliënte wat hul eie navorsing gedoen het en dan slegs hul datavaslegging vir

ons stuur. Ons probeer natuurlik altyd verseker dat hul vraelyste ook deur StatInc opgestel

word omdat dit ons tyd en vir die kliënt geld spaar.”

Michael se kop werk oortyd as hy en Vanessa die vertrek verlaat. Hy het nooit besef dat hy

soveel in sy eerste dag sou leer nie. Die omvang van ’n navorsingsprojek is baie groter as

wat hy gedink het. Daar is die projekleiers en konsultante wat seker maak dat die regte vrae



deur die navorsing gevra en beantwoord moet word. Soms weet die kliënte self nie presies

wat hulle met die navorsing wil bereik nie.

Dan word die navorsingsprojek beplan en die vraelyste word opgestel indien nodig. Daarna

moet die vraelyste deur veldwerkers aan die regte persone gegee word om in te vul (en die

manier waarop hierdie groep mense gekies word, is blykbaar ’n wetenskap in eie reg). As

die vraelyste voltooi is, word dit deur die datavasleggers in elektroniese formaat omgeskakel

en dan eers na die statistiese departement gestuur. Miskien moet ek probeer om my

internskap te verleng en ’n draai in elk van daardie departemente maak, dink hy as hulle

weer by Vanessa se kantoor instap.

Vanessa oorhandig ’n lêer aan Michael. Op die lêer is ’n plakker met die woorde “Vasvat

Versekeraars” geskryf. Michael kyk vraend na Vanessa.

“Dit is data wat ons vir een van ons kliënte versamel het. Hulle is Vasvat Versekeraars. Hulle

wil ’n behoefte-ontleding by hul bestaande kliënte doen. Ek glo julle het reeds beskrywende

statistiek op universiteit behandel?”

Michael knik.

“Die data is in die lêer. Een van ons junior statistikusse het reeds die beskrywende statistiek

met ’n rekenaarprogram afgehandel, maar ek sal graag wil hê dat jy die resultate moet

verifieer.”

Michael is vlug van begrip. “Met 'n potlood en ’n sakrekenaar?” sê hy met ’n glimlag.

“Presies. Jy sal sien dat daar ’n groot hoeveelheid data versamel is. Ons is egter

geïnteresseerd in die kliënte se ouderdomme en risikoprofiel. Ons kan mekaar môreoggend

agtuur weer ontmoet. Dan verwag ek van jou om die mees toepaslike beskrywende statistiek

voor te stel.”

Michael glimlag. “Wonderlik. My tweede dag by die werk en ek mag al aanbevelings maak!”

Vanessa is beïndruk deur sy optimisme. “Dinge gebeur baie vinnig by StatInc.”

1.2. Waar pas statistiek in die groter prentjie?

Soos wat die gevallestudie beskryf het, is Statistiek gewoonlik deel van ’n groter proses. ’n

Onderneming of navorser sal ’n sekere probleem in sy of haar omgewing identifiseer.

Hierdie probleem sal dan ondersoek word. Statistiek is ’n baie nuttige hulpmiddel om met

hierdie ondersoek te help.



Die belangrikheid van goeie kwaliteit data kan egter nooit oorbeklemtoon word nie. Soos wat

Vanessa tereg gesê het, is die waarde van enige statistiese ontleding nul as die

dataversamelingsproses verdag is.

’n Navorsingsprojek, hetsy vir sakeondernemings, regeringsorganisasies of vir akademiese

doeleindes, volg dikwels ’n spesifieke proses. Hierdie proses word in Tabel 1.1 uiteengesit.

Die eerste kolom verskaf die stappe, die regterkantse kolom dui aan watter rol die statistikus

(of Vanessa en Michael in die gevallestudie) tydens hierdie stap sal speel.

Stap Rol van statistikus

Identifiseer die probleem Gewoonlik geen rol

Sekondêre navorsing (lees van bestaande

artikels en vorige navorsingsprojekte)

Gewoonlik geen rol

Beplan die navorsingsproses Beskryf watter data-analise-tegnieke

beskikbaar is.

Adviseer ten opsigte van die aard van data

wat versamel moet word.

Kies die steekproef. Steekproewe en

populasies word later in meer besonderhede

bespreek.

Bereken die benodigde steekproefgrootte.

Help met statistiese tegnieke om die regte

steekproef te identifiseer.

Stel die vraelyste op Maak seker dat die data wat deur die vraelys

versamel word, wel die navorsingsvrae kan

beantwoord.

Versamel die data Verskaf ondersteuning en opleiding aan

veldwerkers om goeie kwaliteit data te

versamel.

Analiseer data Hierdie is die taak van die statistikus. Data

word gebruik om ’n verskeidenheid

statistieke te bereken.

Vertoon resultate en maak gevolgtrekkings Hoewel die hele span gevolgtrekkings op die

data kan maak, is dit belangrik dat die

statistikus verseker dat die verkeerde

gevolgtrekkings nie gemaak word nie. Dit



gebeur dikwels dat gevolgtrekkings gemaak

word sonder dat dit behoorlik deur die data

ondersteun word.

Stel ’n verslag saam Die statistikus gaan sommige dele van die

verslag moet skryf.

Hoewel groot projekte dikwels deur meer as een personeellid of selfs departemente

afgehandel word, is dit ’n luuksheid wat studente selde het. As ’n student sal jy heel moontlik

jou eie navorsing moet beplan, implementeer en data-analises doen. As ’n bestuurder sal dit

ook nodig wees om seker te maak dat alle departemente en spanlede hul werk doen – iets

wat moeilik sal wees sonder ’n deeglike kennis van al die verskillende aspekte (veral

statistiek) wat met navorsing verband hou.

1.3. Wat is statistiek?

Kortliks kan statistiek gedefinieer word as die ontleding van data om besluitneming te

ondersteun. As Vasvat Versekeraars byvoorbeeld hul premies wil verhoog, maar nie seker is

of hul kliënte die nuwe premies sal kan bekostig nie, sal hulle moontlik navorsing wil doen

om hul kliënte se inkomste te bepaal. Die statistikus sal die persoon wees wat die data wat

versamel is, ontleed.

Hoewel elke aspek van die navorsingsproses belangrik is, is die versameling van data

moontlik die een stap wat die grootste invloed op akkurate data-analise en statistiek mag hê.

Daarom is dit belangrik om ’n bietjie aandag hieraan te gee.

Gestel Vasvat Versekeraars het 100 000 kliënte. Hierdie groep kliënte stel die populasie

voor: dit is al die kliënte waarop navorsing gedoen kan word. Gestel Vasvat wil weet wat die

gemiddelde inkomste van daardie kliënte is, maar het nie hierdie data beskikbaar nie. Dit sal

dan nodig wees om hierdie data te versamel. Om vir 100 000 kliënte hul salarisse te vra, is

egter onmoontlik, gegewe die bepaalde begroting en tyd tot Vasvat se beskikking. Vasvat

sal dus ’n kleiner groepie kliënte moet identifiseer.



Hierdie kliënte (steekproef) moet egter:

• uit die populasie gekies word; en

• verteenwoordigend wees van die populasie.

Hierdie kleiner groep kliënte word dan die steekproef genoem. ’n Verskeidenheid tegnieke

bestaan om te verseker dat die steekproef verteenwoordigend van die populasie is. Hierdie

tegnieke word later bespreek. As ’n steekproef verteenwoordigend is, kan statistiese

berekeninge met die steekproef gedoen word en die resultate kan dan op die populasie van

toepassing gemaak word.

Steekproef

500 kliënte

Populasie

100 000 kliënte

Sekere statistieke word bereken

Verteenwoor-

digend van

Gebruik vir: Statistieke word geskat

Figuur 1.2: Die gebruik van ’n steekproef om beramings ten opsigte van ’n populasie te maak

Populasie:

Al 100 000

van Vasvat se

kliënte

Steekproef:

Kleiner groep

vanuit

populasie

Verteenwoor-

digend van

populasie

Figuur 1.1: Die verskil tussen ’n steekproef en populasie



1.4. Vlakke van data

Alle data wat vir statistiese doeleindes versamel word, kan op die een of ander wyse

beskryf word. Data kan kategorieë aandui (byvoorbeeld name van universiteite of

gunsteling restaurante), dit kan heelgetalle (byvoorbeeld die hoeveelheid mense in ’n gebou)

of reële getalle (byvoorbeeld salarisse) wees.

Die aard van data bepaal in ’n groot mate die tipe statistiese berekeninge wat daarmee

gedoen kan word. Dit is daarom belangrik om data te kan beskryf. Een wyse waarop data

beskryf kan word, is die vlakke van data.

Daar word hoofsaaklik onderskei tussen vier vlakke van data, naamlik nominale, ordinale,

interval- en ratio-data. Die mees beperkte data is nominale data. Hierdie tipe data besit geen

numeriese waarde nie en word soms ook kwalitatiewe data genoem. Nominale data word

gebruik om kategorieë voor te stel.

Dit is egter moontlik om numeriese waardes te verkry deur die hoeveelheid keer wat ’n

kategorie voorkom (die frekwensie genoem) te tel. As jy dus vir 1 000 persone vra wie hul

gunsteling versekeringsmaatskappy is en 250 persone noem Vasvat Versekeraars, dan is

die frekwensie van Vasvat Versekeraars 250. So kan jy die gewildheid van versekeraars

numeries bepaal. Jy kan egter nie ’n gemiddeld met hierdie frekwensies bereken nie.

Ordinale data is een vlak hoër as nominale data. Alle berekeninge wat met nominale data

gedoen kan word (byvoorbeeld frekwensies), kan ook met ordinale data gedoen word. Daar

is egter meer statistiese berekeninge wat met ordinale data gedoen kan word. Die groot

verskil tussen ordinale en nominale data is dat daar ’n mate van volgorde of grootte by

ordinale data kan voorkom. Nominale data kan verkry word met ’n vraag soos “Hoe gereeld

verander jy van versekeraar?” Die opsies vir antwoorde kan die volgende insluit:

• Nooit

• Jaarliks

• Twee keer per jaar

• Elke kwartaal

• Maandeliks

Hoewel die antwoord “nooit” nie enige numeriese waarde besit nie, is “jaarliks” meer gereeld

as nooit en “twee ker per jaar” meer gereeld as “jaarliks”. Die volgorde van antwoorde is dus

van “ongereeld” na “gereeld” gerangskik. Ordinale data is egter steeds beperk.

Intervaldata word gewoonlik verkry deur Likert-tipe skale. ’n Likertskaal, of ’n Likert-tipe

skaal, verskaf ’n aantal opsies aan die respondent (die persoon wat ’n vraelys invul)



waarvan een gekies moet word. Die respondent moet op ’n skaal van, byvoorbeeld, een tot

vyf aandui hoeveel hy of sy met ’n stelling saamstem. Byvoorbeeld:

Vraag: Dui aan hoeveel jy met die volgende stelling saamstem: Statistiek is ’n

moeilike vak.

Stem glad nie

saam nie

Stem nie saam

nie

Neutraal Stem redelik

saam

Stem heeltemal

saam

X

Spesifieke waardes kan dan aan elke moontlike antwoord toegeken word, byvoorbeeld:

Stem glad nie

saam nie

Stem nie saam

nie

Neutraal Stem redelik

saam

Stem heeltemal

saam

X

1 2 3 4 5

’n Waarde van 2 is dus aan die bogenoemde antwoord toegeken. As 100 respondente se

antwoorde bymekaargetel word, kan ’n gemiddelde waarde bereken word. Anders as met

nominale en ordinale data, sal hierdie gemiddeld wel betekenisvol wees. ’n Gemiddeld van,

byvoorbeeld, 4.77 sal aandui dat die respondente oor die algemeen baie sterk met hierdie

stelling saamstem.

Die belangrikste eienskap van intervaldata is dat die afstande tussen die verskillende opsies

ewe groot moet wees. Die verskil tussen “stem glad nie saam nie” en “stem nie saam nie”

moet byvoorbeeld net so groot wees soos die verskil tussen “neutraal” en “stem redelik

saam”.

Alle berekenings wat met ordinale en nominale data gedoen kan word, kan egter ook met

intervaldata gedoen word.

Die laaste (en hoogste) vlak van data is ratio. Hierdie tipe data bevat soortgelyke

eienskappe as intervaldata, maar ’n 0 dui gewoonlik ook op die afwesigheid van die

genoemde element. Byvoorbeeld, as iemand se salaris gevra word en die antwoord is 0,

beteken dit dat die respondent geen salaris verdien nie. (In teenstelling, as iemand 0 op die

interval-skaal geantwoord het, beteken dit nie dat die persoon geen opinie het nie.) Die

volgende figuur som die vlakke van data op:



Figuur 1.3: Vlakke van data

Volgende aan die beurt

In Hoofstuk 2 sal Vanessa en Michael verskillende grafiese beskrywende statistieke

bespreek. Michael sal sommige statistieke voorstel. As Vanessa tevrede is, sal Michael

gevra word om elke statistiek te bereken en die resultate te interpreteer.

•Gewoonlike slegs kategorieë.

•Bv. manlike en vroulik.

Nominale data

•Die spesifeke getalle stel nie slegs kategorieë voor nie, maar het 'n waarde, bv. 1 is groter as 2.

•Bv. maatskappygrootte (mikro, klein, medium, groot).

Ordinale data

•Word gewoonlik gebruik met vrae wat skale (rating scales) bevat.

•Die afstand tussen verskillende opsies is ewe groot.

Intervaldata

•Die data is kontinu. Daar is dus enige hoeveelheid data wat tussen twee waardes voorkom.

•Bv: salaris (tussen R1 000 en R2 000 in onbeperkte hoeveelheid antwoorde).

Ratio-data



Notas


©akademia (MSW)| Hoofstuk 2: Grafiese beskrywende statistiek 19

HHOOOOFFSSTTUUKK 22:: GGRRAAFFIIEESSEE BBEESSKKRRYYWWEENNDDEE SSTTAATTIISSTTIIEEKK

Onderwerpe

2.1 Wat is beskrywende statistiek?

Item 1: Die frekwensietabel

Item 2: Die kolomgrafiek

Item 3: Die sirkelgrafiek

Item 4: Die histogram

Item 5: Kumulatiewe frekwensieverspreiding

Item 6: Die kumulatiewe frekwensieveelhoek


20 Hoofstuk 2: Grafiese beskrywende statistiek | ©akademia (MSW)

Gevallestudie: Grafieke en tabelle

Michael het pas by Vanessa se tafel gaan sit. Vanessa is besig om vlugtig na ’n hele rits

tabelle en grafieke te kyk.

“Waarom het jy ’n sirkelgrafiek vir die verskillende inkomstestrome gebruik?” vra sy.

Michael kyk vinnig na die grafiek waarna Vanessa verwys:

“Die sirkelgrafiek gee vir ons ’n duideliker prentjie van die bydrae wat elke inkomstestroom

tot die totale inkomste maak. Ek kan ’n kolomgrafiek bysit as jy wil.”

“Dit sal goed wees. Maar hou die sirkelgrafiek in.” Vanessa kyk na ’n grafiek wat die totale

eise oor die laaste twaalf maande voorstel en frons. “Dis interessant,” sê sy. Sy wys die

grafiek vir Michael.



“Is daar iets wat jou pla omtrent hierdie tendensgrafiek?” vra sy.

“Ja. Ek wou jou nog daaroor vra. Ek is nie ’n kenner in die versekeringsbedryf nie, maar my

logika sê dat daar meer eise oor die somervakansie sal wees as ander tye, met ’n effense

verhoging tydens April.”

“Hoekom April?” Michael is so verdiep in die grafiek dat hy nie die effense glimlag op

Vanessa se gesig sien nie – ’n aanduiding dat sy reeds die antwoord op daardie vraag ken.

Hy antwoord.

“Die Paasvakansie. Daar is gewoonlik meer ongelukke.”

“Korrek. En die tendensgrafiek dui dit aan. Wat ek nie verstaan nie, is hoekom daar so ’n

buitengewone verhoging in Oktober was.”

Michael het nie ’n idee nie. Vanessa verduidelik.

“Statistiek is ’n baie waardevolle hulpmiddel. Maar daar is beperkings rakende wat ons uit

statistieke kan leer. Dit is altyd belangrik dat ons die konteks rondom die statistieke

verstaan. Ons statistieke sê vir ons dat daar ’n skielike verhoging in eise in Oktober was.

Maar ons moet self die navorsing doen om te bepaal waar dit vandaan gekom het."

Skielik helder Michael se gesig op. “Wag ’n bietjie! Oktober verlede jaar. My pa het ook ’n

versekeringseis ingedien.”



“Wat was fout met sy motor?”

“Haelstorms. Daar was amper elke dag ’n verskriklike storm. Die haelkorrels was so groot

soos gholfballe.”

“Dit is ’n moontlikheid. Ons weet nou waarvoor om te soek. Ons numeriese beskrywende

statistiek sal daarmee kan help.”

Michael is dadelik reg met ’n antwoord. “Ek het 'n paar gemiddelde en...”

Vanessa val hom laggend in die rede. “Wag eers. Een ding op ’n slag. Kom ons werk eers

deur jou grafiese beskrywende statistiek. Ons kan later aandag aan die numeriese

statistieke gee.”

2.1 Wat is beskrywende statistiek?

Soos reeds in die eerste hoofstuk verduidelik is, behels statistiek die versameling en

verwerking van data. Statistiek word meestal gebruik om gevolgtrekkings ten opsigte van ’n

sekere populasie te maak. Data word versamel deur, byvoorbeeld, vraelyste wat ingevul

word. Hierdie data word dan verwerk. Ons onderskei tussen twee kategorieë van verwerking

wat op hierdie data uitgevoer word:

• Beskrywende statistiek

• Afleidende (inferensiële) statistiek

Laasgenoemde behels die statistieke wat ons gebruik om gevolgtrekkings oor die populasie

te maak. Voorbeelde van gevolgtrekkings wat deur afleidende statistiek gemaak kan word,

is:

• Hoe ouer personeel by Maatskappy X is, hoe groter is hul salarisse.

• B.Com.-studente hou gemiddeld meer van sjokolade as B.A.-studente.

• Daar is ’n korrelasie tussen die tyd wat ’n leerder aan ’n vak spandeer en die punt

wat hy/sy vir daardie vak behaal.

Afleidende statistiek verskaf dus dikwels die antwoorde op vrae wat in die eerste plek

aanleiding tot die navorsing gegee het. In enige navorsingsprojek sal afleidende statistiek

egter deur beskrywende statistiek voorafgegaan word.

Beskrywende statistiek verskaf ’n “prentjie” van hoe die data lyk. Daar word nie gepoog om

enige gevolgtrekkings te maak nie, maar bloot om vir die leser van so ’n verslag ’n oorsig

van die data te gee. Beskrywende statistiek bestaan gewoonlik uit grafieke, tabelle en

sekere numeriese waardes soos gemiddelde, maksimum- en minimumwaardes. Hierdie



hoofstuk is gemoeid met grafiese beskrywende statistiek wat hoofsaaklik tabelle en grafieke

insluit. Hoofstuk 3 sal weer op numeriese beskrywende statistiek fokus.

� Item 1: Die frekwensietabel

Beskou die volgende skets:

Figuur 2.1: Elemente van ’n versameling

Deur na die gegewe skets te kyk, kan ons twee belangrike dinge sien:

• Daar is ’n groot hoeveelheid elemente in die versameling.

• Ons kan onderskei tussen drie groepe (of kategorieë) in hierdie versameling: wit

sirkels, donkergrys sirkels en sirkels met strepies.

Sorteer nou die verskillende sirkels in hierdie drie kategorieë (wit, grys en strepies). Jy

behoort die volgende te kry:



Figuur 2.2: Elemente van ’n versameling gekategoriseer

Die sirkels is nou gekategoriseer:

• K1, K2 en K3 stel drie kategorieë voor.

• Die hoeveelheid sirkels in elke kategorie word frekwensies genoem.

o K1 se frekwensie is 12



’n Frekwensietabel word gebruik om hierdie frekwensies voor te stel. ’n Frekwensietabel vir

die bogenoemde sirkels sal soos volg lyk:

Kategorie Frekwensie

K1: Wit 12

K2: Grys 9

K3: Strepies 15

TOTAAL 36

Soms wil ons ook elke kategorie se proporsie van die totale frekwensies bepaal. Om hierdie

rede sal ons soms ’n ekstra kolom byvoeg waarin die persentasies vir elke kategorie

aangedui word. In bogenoemde frekwensietabel sal elke persentasie verkry word deur die

K 1

K 2

K 3



frekwensie deur 36 (die totale frekwensies vir alle kategorieë) te deel. Die frekwensietabel

sal dan soos volg daar uitsien:

Kategorie Frekwensie Persentasie

K1: Wit 12 33.33%

K2: Grys 9 25%

K3: Strepies 15 41.67%

TOTAAL 36 100%

In die sakeomgewing werk ons egter nie met sirkels van verskillende kleure nie. Ons werk

wel met kategorieë. ’n Student se studierigting, haarkleur en gunsteling restaurant is alles

voorbeelde van kategoriese data. Beskou die volgende vraag wat in ’n vraelys voorkom:

Vraag 1: Wat is die kleur van u oë?

Blou

Grys

Bruin

Swart

Groen

Ander

’n Respondent (die persoon wat die vraelys invul) sal dan ’n kruisie langs die korrekte

antwoord maak. Gestel daar is 200 vraelyste. Die navorser sal dan na elke vraelys kyk en ’n

strepie by ’n kategorie maak indien die respondent daardie kategorie gekies het,

byvoorbeeld:

Kleur Frekwensie

Blou ||||| ||||| ||

Grys ||||| |

Bruin ||||| ||||| |||||

Swart ||||| ||||| ||



Groen |||

Ander ||

Wanneer al die vraelyste deurgewerk is, sal die navorser dan tel hoeveel strepies by elke

kategorie voorkom. Die hoeveelheid strepies (en dus die hoeveelheid respondente met

daardie kleur oë) word die frekwensie genoem. Die frekwensietabel sal dan soos volg lyk:

Kleur Frekwensie

Blou 12

Grys 6

Bruin 15

Swart 12

Groen 3

Ander 2

Vinnige vrae

Wat is ’n frekwensietabel?

’n Frekwensietabel is 'n tabel wat frekwensies in kategoriese data voorstel.

Wanneer gebruik ons dit?

’n Frekwensietabel is ideaal vir kwalitatiewe data wat in kategorieë ingedeel kan word. Deur

die frekwensies te bepaal kan kwalitatiewe data in kwantitatiewe data omgeskakel word. Met

kwantitatiewe data kan berekeninge gedoen word.

Is dit al waar ons frekwensietabelle kan gebruik?

Nee, frekwensietabelle kan ook vir numeriese data gebruik word, soos wat later in hierdie

hoofstuk gesien sal word. In so ’n geval moet die numeriese data egter steeds in kategorieë

gegroepeer word.

Voorbeeld van ’n vraag op ’n vraelys wat hierdie data sal versamel

Vraag:

Dui asseblief met ’n kruisie aan watter een van die onderstaande tydskrifte u gunsteling is:



Die Huisgenoot

Die Time Magazine

Sarie

Rooi Rose

Frekwensietabelle is ’n nuttige wyse om kategoriese data voor te stel. Ons kan egter selfs

een stap verder gaan en die data in hierdie tabel op ’n meer visuele wyse voorstel. Hiervoor

gebruik ons ’n kolomgrafiek en ’n sirkelgrafiek.

� Item 2: Die kolomgrafiek

Die voordeel daarvan om data met behulp van tabelle voor te stel is dat die leser heelwat

besonderhede op een slag kan sien. Die gewilde spreekwoord sê egter dat ’n enkele prentjie

beter is as ’n duisend woorde of, in hierdie geval, ’n duisend getalle. Om hierdie rede is

grafieke baie nuttig wanneer data beskryf moet word.

’n Nuttige grafiek in hierdie verband is die kolomgrafiek. Hierdie grafiek kan vir enige tipe

data gebruik word. Michael het die verskillende bronne van inkomste vir Vasvat

Versekeraars ontvang. Hy het hierdie bronne in ’n tabel geplaas:

Premies R48 000 000

Huurinkomste R9 000 000

Rente R4 000 000

Ander R2 000 000

TOTAAL R63 000 000

Op Vanessa se versoek het Michael hierdie data grafies voorgestel. Een van die grafieke

wat Vanessa aangevra het, was ’n kolomgrafiek. Die grafiek wat Michael dus opgestel het,

lyk soos volg:



Figuur 2.3: Voorbeeld van ’n kolomgrafiek

Dit is dus baie maklik om aan die een kant te sien watter bronne vir die grootste inkomste

verantwoordelik was. Aan die ander kant is dit ook maklik om van die grafiek te lees wat die

presiese bedrag was. (Die y-as aan die linkerkant dui byvoorbeeld aan dat premies vir

R48 miljoen se inkomste verantwoordelik was).

Vinnige vrae

Wat is ’n kolomgrafiek?

’n Kolomgrafiek is ’n grafiese voorstelling van data. Deur na ’n kolomgrafiek te kyk kan

verskillende data met mekaar vergelyk word en die presiese waarde van elke veranderlike

(in bogenoemde geval die verskillende bronne van inkomste) kan van die grafiek afgelees

word.

Wanneer gebruik ons dit?

’n Kolomgrafiek kan gebruik word om beide kategoriese en numeriese data voor te stel. Dit

is een van die eenvoudigste grafieke en behoort deur enige leser verstaan te word. Dit is

ideaal vir numeriese data waar ’n enkele waarde vir verskillende veranderlikes verskaf word.



Wanneer sal ’n kolomgrafiek nie gebruik word nie?

’n Kolomgrafiek sal tipies nie gebruik word om persentasies of verhoudings voor te stel nie

(’n sirkelgrafiek werk beter hiervoor).

� Item 3: Die sirkelgrafiek

Nog ’n nuttige grafiek wat vir die voorstelling van data gebruik kan word, is ’n sirkelgrafiek.

Soos aan die begin van hierdie hoofstuk genoem is, het Michael se beskrywende statistiek

reeds ’n sirkelgrafiek bevat. Die data in hierdie grafiek is dieselfde data wat vir die

bogenoemde kolomgrafiek gebruik is, naamlik die bronne waarvandaan Vasvat

Versekeraars hul inkomste verkry het. Die grafiek lyk soos volg:

Figuur 2.4: Voorbeeld van ’n sirkelgrafiek

Wat is die verskil tussen hierdie twee grafieke? Waarom het Vanessa daarop aangedring dat

Michael beide grafieke moet skep? Die antwoord is eenvoudig: Waar die kolomgrafiek bloot

die verskillende Rand-bedrae aangedui het, kan die sirkelgrafiek die verhouding tussen die

verskillende bronne aandui. Uit hierdie grafiek is dit makliker om te sien dat premies vir meer

as 75% van alle inkomste verantwoordelik was. Dit is nie eens nodig om die presiese bedrae

of persentasies te sien nie.

’n Tipiese sirkelgrafiek sal gebruik word om die proporsionele bydrae van elke veranderlike

tot ’n totaal aan te dui. In programmatuur soos Excel kan ’n sirkelgrafiek op ’n

verskeidenheid wyses voorgestel word. Kyk na die volgende voorbeelde:



Figuur 2.5: Verskillende voorstellings van ’n sirkelgrafiek

Vinnige vrae

Wanneer sal ons ’n sirkelgrafiek gebruik?

’n Sirkelgrafiek is ideaal om persentasies voor te stel. Dit word gebruik om elke veranderlike

se bydrae tot ’n geheel te vertoon. Die volledige sirkel stel 100% voor, terwyl elke skyfie ’n

proporsie van die geheel voorstel. ’n Sirkelgrafiek kan vir kategoriese data gebruik word (bv.

Hoeveel van die respondente het Opsie A, Opsie B, Opsie C of Opsie D gekies?) asook vir

numeriese data, soos die voorbeeld hierbo aandui.

Kan ’n sirkelgrafiek slegs persentasies aandui?

Nee. Hoewel die totaal van die sirkelgrafiek 100% van die totaal moet aandui, kan die

verskillende waardes (byvoorbeeld in Rand) steeds gebruik word om die grafiek te teken.

Byvoorbeeld:



� Item 4: Die histogram

Die histogram is ’n spesiale vorm van ’n kolomgrafiek. Hierdie grafiek stel nie-kategoriese

data voor. Hoewel die x-as kategorieë kan bevat, sal hierdie ordinale, interval- of ratio-data

wees. Dit beteken dat, soos wat data na regs op die x-as beweeg, ’n toename in die

veranderlike se waarde sal plaasvind. Michael en Vanessa het ’n histogram bespreek:

Gevallestudie: Histogramme

“Sou dit nie wonderlik gewees het as ons kon sien hoeveel kliënte Vasvat in elke

ouderdomskategorie gehad het nie?”

Michael glimlag. Hy het gehoop Vanessa sou hierdie vraag vra. “Bladsy 15,” sê hy.

Vanessa kyk verras na hom en blaai dan vinnig na die korrekte bladsy. Sy glimlag beïndruk.

“Kan jy nou meer!” roep sy uit. “Hoe het jy dit gedoen?”

“Al die data was op die DVD wat jy vir my gegee het. Ek het net ’n eenvoudige

frekwensietabel geskep en die data oorgedra.”

Vanessa kyk na die histogram op bladsy 15. Dit lyk so:



“As ek so vinnig na die data kyk, lyk dit of ons grootste groep kliënte tussen 35 en 41 is,” sê

sy. “Behalwe natuurlik vir die 56-jariges. Om die een of ander rede is daar nogal ’n groot

groep kliënte wat 56 jaar oud is.”

“Ek het nie enige kategorieë hier gebruik nie,” verduidelik Michael. “Dit is net sodat ons ’n

idee kan kry van hoe die ouderdomme versprei is. Daar is nog ’n histogram waar ek

kategorieë van tien jaar geskep het.”

“Kan dit nog steeds ’n histogram genoem word?” vra Vanessa die vraag waarop sy reeds die

antwoord ken.

“Ja, solank as wat die kategorieë aangrensend is. Die ouderdomsgroep van 18 tot 27 dui op

’n jonger ouderdom as die groep van 28 tot 37. Dit is dus nie kategorieë soos die kliënte se

gunsteling restaurant of die handelsnaam van die motor wat hulle bestuur nie.”

“Goeie antwoord!”

Vanessa kyk na die tweede histogram – die een waar ouderdomme in kategorieë verdeel is.



“Die meeste van Vasvat Versekeraars se kliënte is in die 38 tot 47 ouderdomskategorie,”

merk Vanessa op.

“Hoewel dit nog te vroeg is om enige aannames te maak, sou ek raai dat hul

bemarkingsveldtog daardie ouderdomsgroep in ag moet neem,” waag Michael.

“Sonder om die ander twee groepe, 28 tot 37 en 48 tot 57 te ignoreer. Dié twee groepe het

saam meer kliënte as die mediaangroep.”

“Wat in hierdie geval ook die modus1 is.”

Vanessa is tevrede.

� Item 5: Kumulatiewe frekwensieverspreidings

’n Kumulatiewe frekwensieverspreiding is in effek slegs ’n ekstra kolom wat by ’n

frekwensietabel bygevoeg word. In hierdie kolom word elke kategorie se frekwensie by die

somtotaal van die vorige kategorieë se frekwensies gevoeg. Kyk na die volgende voorbeeld:

1 Die mediaan en die modus word in die volgende hoofstuk bespreek. Maak gerus ’n nota om weer hierdie deel

deur te lees as jy gemaklik is met die definisies van hierdie terme.



Interval

(10 jaar)

Frekwensies

(Hoeveel

respondente val in

die kategorie?)

Kumulatiewe

frekwensie

(Notas ter verduideliking)

18-27 400 400

28-37 290 690 400 + 290

38-47 190 880 400 + 290 + 190

48-57 90 970 400 + 290 + 190 + 90

58-69 30 1000 400 + 290 + 190 + 90 + 30

Totaal 1000

Die “notas te verduideliking” is slegs vir hierdie voorbeeld bygevoeg. Dit vorm nie gewoonlik

deel van die kumulatiewe frekwensieverspreiding nie.

Vinnige vrae

Wat is die verskil tussen ’n frekwensietabel en ’n frekwensieverspreiding?

Hierdie twee terme kan meestal as sinonieme van mekaar gebruik word. Daar is egter ’n

tegniese verskil. Die frekwensietabel behels die rye en kolomme wat gebruik word om die

data voor te stel, terwyl die frekwensieverspreiding na die fisiese data verwys.

Wanneer word ’n kumulatiewe frekwensietabel gebruik?

’n Kumulatiewe frekwensietabel is veral nuttig wanneer die leser deurentyd die totale

frekwensies in ag wil neem. Deur na die kumulatiewe frekwensietabel hierbo te verwys, is dit

dus maklik om te sien dat die eerste twee kategorieë die meerderheid van die frekwensies

bevat. Daar kan dus reeds uit hierdie tabel ’n idee van die verspreiding van die data verkry

word.

Kan ’n mens die kumulatiewe frekwensie met ’n grafiek voorstel? Wat sou dit

beteken?

Die kumulatiewe frekwensies kan met ’n kumulatiewe frekwensieveelhoek (ogive) voorgestel

word. Hierdie grafiek word volgende bespreek.



� Item 6: Die kumulatiewe frekwensieveelhoek

Die kumulatiewe frekwensieveelhoek word gebruik om kumulatiewe frekwensies grafies voor

te stel. Die kumulatiewe frekwensieverspreiding van Vasvat Versekeraars kan soos volg

voorgestel word:


(hoeveel kliënte in

die kategorie)

Kumulatiewe frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 185 1 034 542

’n Gewone lyngrafiek sal die frekwensies soos volg voorstel:

Figuur 2.6: Frekwensie voorgestel op ’n lyngrafiek



Uit hierdie grafiek kan ons sien dat die frekwensies aanvanklik styg vir die eerste drie

kategorieë, en dan begin dit daal. Die kumulatiewe frekwensieveelhoek sal egter soos volg

lyk:

Figuur 2.7: Kumulatiewe frekwensieveelhoek

Hierdie twee grafieke verskil drasties. Die eerste grafiek (van die frekwensies) verskil nie

veel van die histogram nie. Die tweede grafiek poog om die verhouding van elke kategorie

se frekwensies met die totale hoeveelheid kliënte uit te beeld. By die kategorie waar die

helling die steilste is, is die grootste hoeveelheid kliënte by ’n kategorie gevoeg. Ons kan dus

hier sien dat ’n klein persentasie van die totale hoeveelheid kliënte in die laaste kategorie

bygevoeg is, omdat die helling amper horisontaal is.

’n Kumulatiewe frekwensieveelhoek maak dit ook makliker om te bepaal hoeveel kliënte bo

of onder ’n spesifieke ouderdom lê. ’n Vraag soos “Hoeveel kliënte is jonger as 47?” kan

vinnig met die volgende grafiek bepaal word:



Figuur 2.8: Bepaling van ’n waarde op ’n kumulatiewe frekwensieveelhoek

Die 38 tot 47 kategorie se kumulatiewe frekwensie (606 412) kan van die grafiek gelees

word.

Gevallestudie: Volgende aan die beurt

Vanessa maak die lêer toe.

“Ek dink ons is op die regte spoor. Tabelle en grafieke is baie nuttig om vir ons ’n oorsig van

die data te gee. Wat weet ons dus nou van Vasvat Versekeraars?”

Michael dink vir ’n oomblik.

“Die meeste van hul inkomste word deur premies verkry. Hulle maak egter ook ’n groot

hoeveelheid geld deur hul geboue uit te huur. Die April- en Desembervakansies is die

besigste tye wat versekeringseise betref. ’n Natuurfrats, soos Oktober se haelstorms, kan

egter ’n groot hoeveelheid eise tot gevolg hê.”

“Wat weet ons van hul kliënte?”

“Die jongste kliënt is agtien jaar oud en die oudste 75. Die meeste van hul kliënte val in die

ouderdomsgroep van 38 tot 47, maar die twee aangrensende groepe, 28 tot 37 en 48 tot 57,

het ook heelwat kliënte.”

Vanessa dink ’n oomblik. “Dit is interessant. Maar dit is nie voldoende om ’n goeie beeld van

hul kliënte te kry nie.”



“En dit is waarom ek die numeriese beskrywende statistiek moes voorberei,” glimlag

Michael.

“Presies. En ons sal oor ’n rukkie daarna kyk. Maar nou eers ... middagete.”

Toe Vanessa en Michael die kantoor verlaat kan hy nie help om trots te voel nie. Vanessa

hoef nie te weet dat hy die vorige nag nie ’n oog toegemaak het nie.


©akademia (MSW)| Hoofstuk 3: Numeriese beskrywende statistiek 39

HHOOOOFFSSTTUUKK 33:: NNUUMMEERRIIEESSEE BBEESSKKRRYYWWEENNDDEE SSTTAATTIISSTTIIEEKK

Onderwerpe

3.1 Wat is numeriese beskrywende statistiek?

3.2 Wat is ‘n gemiddeld?

3.3 Wat is ‘n mediaan?

3.4 Wat is ‘n modus?

3.5 Wat is geweegde gemiddeld?

3.6 Wat is kwantiele?

3.7 Wat is maatstawwe van spreiding?

3.4 Wat is ‘n standaardafwyking?

3.5 Wat is die variansiekoëffisiënt?

3.10 Wat is skeefheidskoëffisienënt?


40 Hoofstuk 3: Numeriese beskrywende statistiek | ©akademia (MSW)

Gevallestudie: Numeriese beskrywende statistiek

Michael drink ’n koppie koffie terwyl hy vir Vanessa wag. StatInc het ’n oulike koffiewinkel op

die grondvloer. Ek sal nie omgee om vir hierdie maatskappy te werk nie, dink hy.

Op die tafel lê twee lêers. Die een voor Michael is oop – hy het vir oulaas deur sy verslae

gelees om seker te maak dat hy nie dalk ’n fout gemaak het nie. Die verslag het hom tot laat

besig gehou...

Vanessa kom haastig in en val met die deur in die huis. “Ek het jou grafiese beskrywende

statistiek solank vir Vasvat Versekeraars gestuur.”

Michael se maag trek op ’n knop. “En?”

“Hulle is baie beïndruk met hoe deeglik die verslae is,” merk Vanessa droog op. “Hulle besef

natuurlik dat dit slegs voorlopige statistiek is en nie sonder die numeriese beskrywende

statistiek geïnterpreteer moet word nie. Ek het dit eintlik net gestuur sodat hulle kan sien dat

ons nie niks doen nie.”

“Solank hulle tevrede is, is ek gelukkig.”

“Wat drink jy?”

Michael glimlag. Hy het lankal uitgevind dat Vanessa ook nie sonder haar koffie kan

klaarkom nie. “Cappuccino,” sê hy. “En jy was reg – dit is verslawend.”

Nadat Vanessa ’n groot cappuccino bestel het, kyk sy na die lêer wat Michael voor haar

neergesit het. Hulle het afgespreek om Michael se numeriese beskrywende statistiek in die

koffiewinkel te bespreek. Dit gee Vanessa ’n geleentheid om uit die kantoor, waar daar te

veel onderbrekings is, te ontsnap. En die koffie is inderdaad baie lekker.

“Wat het jy vir my?” Vanessa begin deur die lêer blaai.

“Gemiddelde, standaardafwykings, kwantiele, skeefheidskoëffisiënte, mediane en modusse.

En enigiets anders waaraan jy dalk mag dink.”

“Herinner my om jou in die toekoms vooraf te sê wat ek nodig het. Dan sal dit nie nodig

wees om ’n ensiklopedie te skryf nie. Jy het seker niks geslaap nie.”

“Slaap is vir die voëls,” sê Michael en onderdruk ’n gaap.



3.1 Wat is numeriese beskrywende statistiek?

Soos reeds genoem, onderskei ons tussen numeriese en grafiese beskrywende statistiek.

Grafiese beskrywende statistiek is veral nuttig as ons vir die leser ’n groter prentjie oor die

data wil verskaf. Dit is egter nie baie spesifiek nie.

’n Leser wat na ’n grafiek kyk, kan ’n idee kry van hoe die data versprei is en dalk ’n

gemiddeld skat. Om egter ’n meer akkurate oorsig oor die data te verkry, sal die leser hom

of haar na numeriese beskrywende statistiek moet wend.

Soos wat die naam voorstel, behels numeriese beskrywende statistiek getalle wat die aard

van data beskryf. Daar word nie enige gevolgtrekkings oor die populasie op die steekproef

gebaseer (soos wat die geval met afleidende of inferensiële statistiek is) nie.

Die bekendste numeriese beskrywende statistiek is die gemiddeld, mediaan, modus

(maatstawwe van sentrale lokaliteit), kwantiele (maatstawwe van nie-sentrale lokaliteit), en

die standaardafwyking en skeefheidskoëffisiënt (maatstawwe van spreiding).

Gevallestudie: Die gemiddelde premie van ’n gemiddelde kliënt

“Vierhonderd-drie-en-sestig rand,” Vanessa frons.

“En sewe-en-negentig sent,” voeg Michael by.

“Dit is baie minder as wat ek per maand aan versekering betaal.”

“Miskien moet jy ’n nuwe versekeraar kry. Iemand soos Vasvat Versekeraars," sê Michael

met ’n glimlag.

“Of miskien moet ek net ’n goedkoper motor kry. Onthou, hierdie is slegs ’n gemiddeld. Die

kanse is goed dat daar heelwat kliënte is wat meer as dit betaal.”

Michael knik instemmend. “En daar is heelwat kliënte wat minder betaal.”

“Hoe groot was die steekproef?”

Michael kyk vlugtig na sy kopie van die verslag. “Hierdie kan nie regtig ’n steekproef genoem

word nie. Vasvat het vir ons ál hul kliënte se premies verskaf.”

“Ons kyk dus na hoeveel... ’n Miljoen kliënte?”

“Eenmiljoen vier-en-dertig-duisend vyfhonderd-twee-en-veertig.”

Vanessa kan nie help om te glimlag as Michael aandring om presies te wees nie. Dit is seker

’n sterkpunt. “Was daar enige uitskieters?”

“Daar was ’n paar kliënte wat baie hoë premies betaal het. En ’n handjievol het nie hierdie



maand enigiets betaal nie.”

“Hoe beïnvloed die uitskieters die gemiddeld?”

“Nie noemenswaardig nie.” Soos die meeste van die vrae wat Vanessa vra, was hierdie iets

waaroor Michael ook gewonder het. “Ek het ook ’n gemiddeld bereken nadat ek alle waardes

onder R100 en alles waardes bo R2 000 uitgehaal het.”

“Hoekom het jy daardie spesifieke bedrae gekies?”

“Wel, Vasvat het geen normale premies onder R100 nie. R100-premies is dus spesiale

gevalle. En enigiets bo R2 000 is ook gevalle waar Vasvat sou verkies het om nie die

versekeraar te wees nie. Die risiko is te groot. Maar om die een of ander rede is die kliënte

steeds bereid om te betaal.”

Vanessa knik. “Maak sin. En het die uitskieters ’n verskil aan die gemiddeld gemaak?”

“Nie meer as ’n paar sent nie.”

“Waarom, dink jy, is dit die geval?”

“Die groot hoeveelheid waardes. Hoe groter die steekproef is, hoe kleiner is die effek van ’n

enkele waarde.”

“Hoeveel uitskieters was daar?”

“Eenhonderd-drie-en-twintig... wat nog steeds baie min is as ’n mens in ag neem dat daar

meer as ’n miljoen waardes was.”

Vanessa oorweeg die inligting vir ’n oomblik. “Wat jy dus kan sê is: die bedrag wat ’n

gemiddelde Vasvat-kliënt met ’n gemiddelde motor kan verwag om per maand aan

versekering te betaal, is vierhonderd-drie-en-sestig rand.”

Michael maak sy mond oop om iets te sê, maar Vanessa spring hom voor: “En sewe-en-

negentig sent.”

Michael lag. “Presies.”

3.2 Wat is ’n gemiddeld?

Ons leer van kleins af om gemiddelde te bereken. Op skool wou jy dalk bepaal het wat die

gemiddeld van al jou vakke se punte was. Dan sou jy die ses of sewe vakke se punte

bymekaar getel het en deur ses (of sewe) gedeel het. Die onderwyser wou dalk ’n idee gekry

het van hoe goed haar klas presteer het. Sy sou dan al die punte van al die leerders

bymekaar getel het en gedeel het deur die aantal leerders in haar klas.



’n Gemiddeld is in hierdie geval baie nuttig vir vergelyking. Die onderwyser kan nou na ’n

spesifieke leerder se punt kyk en bepaal of hierdie leerder beter of swakker as die

klasgemiddeld presteer het. Die onderwyser kan ekstra aandag gee aan leerders wat

swakker as die klasgemiddeld presteer het.

Die onderwyser kan ook die klasgemiddeld van verskillende klasse met mekaar vergelyk.

Daardie klasse wat die swakste presteer het, kan dan ook ekstra aandag kry.

Gestel Michael het besluit om sy eie navorsing ten opsigte van Vasvat se kliënte te doen.

Gestel hy stel belang in die gemiddelde ouderdom van Vasvat se kliënte. In hierdie geval sal

Michael ’n steekproef saamstel. (Vir illustrasiedoeleindes sal ’n steekproef van tien kliënte

gebruik word. In praktyk sal hierdie steekproef baie groter moet wees om verteenwoordigend

van die populasie te wees.)

Michael vra dan aan elkeen van hierdie respondente die volgende vraag: “Wat is jou

ouderdom?” Die respondente kan hierdie vraag op ’n verskeidenheid wyses antwoord,

byvoorbeeld deur middel van ’n onderhoud of anoniem deur middel van ’n geskrewe of

elektroniese vraelys.

Gestel die tien respondente het die volgende geantwoord:

Figuur 3.1: Grafiese voorstelling van respondente se antwoorde op ’n vraelys

53

44

30

29

25

41 50 38

68

22



Toe Michael se dataversameling afgehandel is, het hy dus die volgende waardes gehad:

25 29 30 68 22 53 44 41 38 50

Michael besluit nou om die gemiddelde ouderdom te bereken. Hy doen dit deur al die

bogenoemde ouderdomme bymekaar te tel en dan die antwoord deur tien te deel (omdat

daar tien waardes is):

Gemiddeld = (25 + 29 + 30 + 68 + 22 + 53 + 44 + 41 + 38 +50) ÷ 10

= 400 ÷ 10

= 40 jaar

Omdat Michael ouderdomme bymekaargetel het, sal die antwoord ook in jare gemeet word.

Die gemiddelde kliënte in Michael se steekproef is dus 40 jaar oud.

Die formule vir ’n gemiddeld lyk soos volg:

x = ∑ ��

Wat beteken hierdie formule?

• Die ΣΣΣΣ teken dui op die som (bymekaartel) van ’n aantal waardes.

• �� dui op elke waarde wat vir die gemiddeld gebruik moet word. �� dui op die eerste

waarde (25), �� dui op die tweede waarde (29) en �� dui op die tiende en laaste

waarde (50). � beteken dat daar by �� begin moet word en by �� geëindig moet

word. Σx� beteken dat alle waardes vanaf �� tot by �� bymekaargetel moet word.

• n dui op die grootte van die steekproef. In hierdie geval het Michael tien persone vir

hul ouderdomme gevra, dus is n in hierdie geval 10:

n = 10

Dit is belangrik om te onthou dat x en n die simbole is wat ons vir die steekproef (gemiddeld

en steekproefgrootte onderskeidelik) gebruik. Ons gebruik hierdie simbole omdat Michael

die gemiddeld van ’n steekproef van tien persone bereken het en nie dié van die populasie

nie. Indien Michael dieselfde gemiddeld vir die hele populasie (ál Vasvat se kliënte) wou

bereken, sou die simbool μ vir die populasiegemiddeld en N vir die populasiegrootte gebruik

word.



Probeer self

Bereken nou die gemiddelde van elk van die volgende datastelle. Die antwoord word verskaf

sodat jy jouself kan toets:

Vraag 1:

’n Navorser wil bepaal hoeveel ure respondente per week aan ontspanning spandeer. Die

volgende datastel is verkry. Bereken die gemiddeld.

10 10 20 18 15 19 10 14 18 21

19 11 10 15 16 21 18 19 14 12

Antwoord: 15.5 uur per week

Vraag 2:

’n Navorser wil bepaal hoe vêr werknemers van die huis af woon. ’n Groep van sestien

werknemers is gevra hoe vêr hulle van die werk af woon. Die onderstaande data (in

kilometers) is verkry. Bereken die gemiddeld afstand wat ’n werknemer van die werk af

woon.

9 100 150 175 19 28 200 12

60 65 37 111 132 79 44 11

Antwoord: 77 kilometer

Vraag 3:

’n Marknavorser vra 25 respondente se ouderdom. Bereken die gemiddelde ouderdom deur

van die onderstaande data gebruik te maak.

72 83 87 94 35 68 84 56

56 63 44 80 20 77 40 16

69 71 61 90 25 56 61 51

53

Antwoord: 60.48 jaar



Vraag 4:

’n Groep van vyftien konsultante word gevra hoeveel geld hulle in die laaste week verdien

het. Die waardes hieronder is vanaf die vyftien respondente verkry. Bereken die gemiddelde

salaris wat ’n konsultant in die laaste week verdien het.

R8 300 R4 700 R9 490 R1 594 R9 100

R2 750 R9 240 R3 820 R8 760 R2 470

R5 700 R1 680 R10 001 R6 800 R4 980

Antwoord: R5 959

Gevallestudie: Oudtshoorn

Vanessa kyk na ’n verslag getiteld: BESKRYWENDE STATISTIEK: OUDTSHOORN. Sy

glimlag.

“Is daar iets fout?” vra Michael.

“Nee. Ek is op Oudtshoorn gebore. Ek is bly om te sien daar is nog heelwat ekonomiese

aktiwiteite op die dorp.”

Michael sug saggies van verligting. “Oudtshoorn het meestal individuele kliënte,” verduidelik

hy. “Maar ’n kwart van hulle premies is afkomstig van twee groot sakeondernemings.”

“A, nou maak dit sin.”

Michael gee haar ’n vraende kyk.

“Kyk na die numeriese beskrywende statistiek vir Oudtshoorn. Sien jy enigiets wat vreemd

is?”

Michael kyk na die verslag:



“Die verdeling van die bronne van inkomste lyk omtrent dieselfde as die nasionale

verdeling,” probeer hy.

“En?”

“Die gemiddeld is hoër as die land se gemiddeld. Aansienlik hoër.”

Michael kyk fronsend na die verslag. Dan helder sy gesig op. “Die mediaan!” roep hy uit.

“Daar is ’n verskil tussen die mediaan en die gemiddeld. ’n Massiewe verskil!”

“Presies. En wat dink jy veroorsaak hierdie verskil in Oudtshoorn?”

Michael glimlag selfvoldaan. “Uitskieters.”

Vanessa knik. “Die maatskappye met hul groot premies.”



3.3 Wat is ’n mediaan?

Ons onderskei tussen ’n verskeidenheid van maatstawwe van lokaliteit (measures of

central tendency). Die bekendste hiervan is die rekenkundige gemiddeld wat in die vorige

paragraaf bespreek is. Nog twee bekende maatstawwe van lokaliteit is die mediaan en die

modus. Die modus word in die volgende paragraaf bespreek.

Die mediaan (median) word verkry deur die alle waardes in die datastel van klein na groot te

sorteer. Die mediaan is dan daardie waarde wat presies in die middel voorkom.

Bereken ’n mediaan

Kyk na die volgende waardes:

20 80 10 17 40 15 90

Om die mediaan te bereken moet die waardes eers gesorteer word – van klein na groot:

10 15 17 20 40 80 90

Die waarde presies in die middel kan maklik direk van die datastel afgelees word:

10 15 17 20 40 80 90

Maar wat as daar nie een waarde in die middel is nie?

Dit is maklik om ’n mediaan te bereken as die hoeveelheid waardes ’n onewe getal is. (In die

voorbeeld hierbo is daar sewe waardes, wat ’n onewe getal is.) Maar wat doen ons as daar

byvoorbeeld agt waardes is? Kyk na die volgende datastel:

40 20 19 10 70 50 60 30

Om die mediaan te bereken moet die data nou gesorteer word:

10 19 20 30 40 50 60 70

Daar is nou twee waardes in die middel: 30 en 40. Wat nou gemaak?

10 19 20 30 40 50 60 70

Die antwoord is heel eenvoudig: Tel die twee waardes in die middel bymekaar en deel dit

deur twee:



Mediaan = (30 + 40) ÷ 2

= 70 ÷ 2

= 35

Dus word die rekenkundige gemiddeld van hierdie twee waardes bereken om die mediaan

te verkry. Die mediaan is dus nou presies in die middel van 30 en 40, by die waarde 35.

� Wat van groepe?

Dit is maklik om die mediaan te bereken vir sewe of agt heelgetalle. Maar wat maak ’n mens

as jy die mediaan moet bereken vir die premies van ’n miljoen kliënte? Dit gaan feitlik

onmoontlik wees (en baie tyd neem) om al die premies met die hand van klein na groot te

sorteer!

Kyk weer na die uiteensetting van Vasvat se kliënte en hul ouderdomme. (Die tabel is effens

aangepas om die verduideliking te vergemaklik.)



die kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Hoe sal ’n mens die mediaan hiervan bereken (sonder om die meer as eenmiljoen

ouderdomme van klein na groot te rangskik)? Om die mediaan vir ’n groot hoeveelheid

waardes (soos die meer as eenmiljoen ouderdomme) te bereken, is daar drie stappe wat

gevolg moet word:

Stap 1: Maak die inligting hanteerbaar deur dit te kategoriseer. Dit is in die tabel hierbo

gedoen. In plaas daarvan om al die ouderdomme neer te skryf, is die ouderdomme nou in

ses kategorieë ingedeel. Die voordeel hieraan verbonde is dat die data meer hanteerbaar is.

Die nadeel is dat die vlak van data nie meer ratio is nie, maar ordinaal of interval

(afhangende van hoe die kategorieë geskep is).



Stap 2: Bepaal die kategorie waarin die mediaan voorkom. Die posisie van die mediaan van

die 1 034 543 ouderdomme sal presies in die middel voorkom. Die mediaan is dus die

517 272ste waarde (1 034 543 ÷ 2). As gevolg van die kategorieë kan ons nou nie presies sê

wat die 517 272ste waarde is nie, maar die kumulatiewe frekwensiekolom kan vir ons aandui

in watter kategorie hierdie waarde voorkom:



die kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Stap 3: Benader nou die 517 272ste ouderdom se waarde. Onthou, die mediaan is nie

517 272 nie. 517 272 is slegs die posisie van die mediaan. Maar hoe benader ons die

waarde? Kom ons fokus op die kategorie waarin die mediaan voorkom:



die kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Mediaan lê

hier êrens



Daar is tien verskillende ouderdomme in hierdie kategorie. Omdat ons nie presies weet

hoeveel van die respondente elke ouderdom gekies het nie, verdeel ons nou die 298 747

gelykop tussen die tien ouderdomme:

Frekwensies per ouderdom = 298 747 ÷ 10

= 29 874.7

Ouderdom Frekwensie

38 29 874.7

39 29 874.7

40 29 874.7

41 29 874.7

42 29 874.7

43 29 874.7

44 29 874.7

45 29 874.7

46 29 874.7

47 29 874.7

Die mediaan kan nou benader word deur die kumulatiewe frekwensie vir elke ouderdom in

hierdie kategorie te bereken. Kyk hoe die kumulatiewe frekwensietabel hieronder aangepas

is:


(hoeveel kliënte in die

kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 Ouderdom Frekwensie

38 29 874.7

39 29 874.7

Kum.

337 539.7

367 414.7



40 29 874.7

41 29 874.7

42 29 874.7

43 29 874.7

44 29 874.7

45 29 874.7

46 29 874.7

47 29 874.7

397 289.1

427 163.8

457 038.5

486 913.2

516 787.9

546 662.6

576 537.3

606 412

298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Al wat ons nou moet doen, is om die mediaan te vind. Dit kan vanaf die tabel gelees word.

Waar in die kategorie “38 tot 47 jaar” sal die mediaan se posisie 517 272 voorkom? Die

517 272ste waarde sal in die 44 jaar-kategorie voorkom. Die mediaan is dus 44.

Dit is belangrik om daarop te let dat hierdie 44 slegs ’n benaderde mediaan is. Om dit te

bereken het ons aangeneem dat die verskillende frekwensies vir elke ouderdom in die “38

tot 47”-kategorie presies dieselfde is. Dit is egter ’n goeie aanduiding van wat die mediaan

kan wees.

� Moet ek altyd hierdie lang proses volg?

Gelukkig nie. Dit is belangrik dat jy hierdie proses verstaan. Die proses hierbo kan egter

deur ’n formule voorgestel word. Die formule sal selfs ’n meer akkurate mediaan verskaf

omdat dit die mediaan-kategorie (44 in hierdie geval) ook opdeel in kleiner dele en presies

bepaal waar die 517 272ste waarde voorkom.

Om die verduideliking te vergemaklik word die oorspronklike kumulatiewe frekwensietabel

hieronder verskaf:

Mediaan lê

hier êrens





die kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Die formule om ’n mediaan vir gekategoriseerde waardes te vind, is:

Me = Ome + [�� ]

��

Elk van die elemente van hierdie vergelyking kan soos volg verduidelik word:

• Me is die simbool vir die mediaan.

• Ome is die laagste waarde in die kategorie waar die mediaan voorkom. In hierdie

geval is dit 38.

• c is die grootte van die kategorie, met ander woorde die hoeveelheid waardes wat in

die kategorie voorkom. In hierdie geval kom die waardes 38, 39, 40, 41, 42, 43, 44,

45, 46 en 47 in die kategorie “38 tot 47” voor. Dus is die kategoriegrootte, en c, 10.

• n is die totale hoeveelheid waardes. In hierdie geval is dit 1 034 543.

• fme is die totale hoeveelheid frekwensies in die kategorie waarin die mediaan

voorkom (in hierdie geval die kategorie “38 tot 47”). In hierdie geval is fme dus

298 747.

• f(<) is die kumulatiewe frekwensie van al die kategorieë tot voor die kategorie waarin

die mediaan voorkom, in hierdie geval is dit 307 665

As ons die formule toepas op die ouderdomme van Vasvat se kliënte, kan ons die mediaan

soos volg bereken:

Mediaan in

hierdie

kategorie



Me = Ome + [�� ]

��

= 38 + ��[� �� ]

��

= 45.016 jaar

Die meer akkurate mediaan is dus 45.016 jaar. Hierdie mediaan stem redelik ooreen met die

benaderde mediaan (van 44).

� Waarom is ’n mediaan nuttig?

’n Mediaan is nuttig om ’n verskeidenheid redes.

Rede 1: ’n Rekenkundige gemiddeld kan nie altyd bereken word nie. Kyk na die volgende

frekwensietabel wat aandui hoe gereeld 80 respondente oefen:

Hoe gereeld? Frekwensie

(Hoeveel respondente het

hierdie kategorie gekies)

Kumulatiewe

frekwensie

Daagliks 20 20

Weekliks 15 35

Maandeliks 30 65

Jaarliks 15 80

TOTAAL 80

Die mediaan kom voor tussen posisie 40 en 41, wat dui op die “maandeliks”-kategorie.

Hieruit kan ’n mens aflei dat die gemiddelde respondent nie baie gereeld oefen nie. Dit is

egter nie moontlik om ’n rekenkundige gemiddeld te bereken nie.

Rede 2: ’n Mediaan is nie sensitief vir uitskieters nie. Kyk na die volgende voorbeeld: ’n

Groep vriende sit op ’n (baie lang) bank in die park. Hulle besluit dat die volgorde waarin

hulle sit deur die totale waardes van hulle bates (met ander woorde, hoe ryk hulle is) bepaal

moet word. Die volgende skets stel die vriende voor:

Mediaan

kom hier

voor



Figuur 3.2: Grafiese voorstelling van data sonder uitskieters

Die gemiddeld is:

(10 000 + 15 000 + 20 000 + 50 000 + 70 000 + 80 000 + 100 000 + 150 000 + 200 000) ÷ 9

= R77 222

Die mediaan is by Posisie 5 en is dus R70 000.

Gestel nou een van die vriende se ryk kollegas sluit by hulle aan. Hierdie kollega het totale

bates van tweebiljoen rand (R2 000 miljoen). Die prentjie lyk dus nou soos volg:

Figuur 3.3: Grafiese voorstelling van data met ‘n uitskieter

R10 000 R200 000 R100 000 R70 000 R20 000

R15 000 R50 000 R80 000 R150 000 R2 000 000 000

R10 000 R200 000 R100 000 R70 000 R20 000

R15 000 R50 000 R80 000 R150 000



Die gemiddeld is nou:

(10 000 + 15 000 + 20 000 + 50 000 + 70 000 + 80 000 + 100 000 + 150 000 + 200 000 +

2 000 000 000) ÷ 10

= R222 299 444

Hierdie gemiddeld is drasties hoër as die gemiddeld sonder die ryk vriend (R77 222)! Die

mediaan skuif egter slegs ’n halwe posisie na regs, tussen posisies 5 en 6. Die mediaan is

dus:

Me = (70 000 + 80 000) ÷ 2

= R75 000

Waar die gemiddeld drasties deur die uitskieter (die ryk vriend) beïnvloed is, is die mediaan

amper onveranderd.

Dit is ook wat Vanessa in die data van Vasvat se Oudtshoorn-tak raakgesien het. Die twee

groot kliënte het ’n groot invloed op die gemiddelde premie gehad (en was dus uitskieters)

terwyl die mediaan die nasionale gemiddeld verteenwoordig het.

Gevallestudie: Vasvat se unieke diens

“Vasvat is nogal suksesvol.”

Michael het pas deur die versekeraar se finansiële state gelees.

Vanessa knik. “Dit is omdat hulle ’n unieke diens bied.”

Michael kyk vraend na haar. Volgens hom is versekeraars maar dieselfde. ’n Mens kan hom

nie kwalik neem nie. Hy het wel sy eie bakkie met sy spaargeld gekoop, maar sy pa het

aangebied om die versekering te reël en te betaal.

“Vasvat het intensiewe navorsing gedoen. Deur ’n kombinasie van kliëntebehoeftes en hul

risikoprofiele, kon Vasvat gestandaardiseerde pakkette saamstel. Amper soos ’n mediese

fonds. Die kliënte was mal daaroor.”

“Hoekom? Ek sou dink dat kliënte juis sou hou van pakkette wat volgens hulle eie unieke

behoeftes saamgestel word.”

“Sulke pakkette neem tyd om te aktiveer. Kliënte moes vir twintig minute oor die telefoon ’n

magdom vrae beantwoord. Die meerderheid kliënte het dit gehaat.”

“Ek sou een van hulle gewees het.” Michael hou nie van lang telefoongesprekke nie.

“Die opsie om pasgemaakte pakkette aan te vra, is steeds beskikbaar, maar hierdie pakket



is slegs aanlyn beskikbaar. Voornemende kliënte vul ’n aanlynvorm in en ontvang dadelik

terugvoer.”

“En vir die res is daar drie pakkette?”

“Korrek. Wild-en-wakker is die mees omvattende pakket. Die kliënt word teen ’n

verskeidenheid risiko's beskerm, maar die premies is ook die hoogste. En kliënte onder die

ouderdom van vyf-en-twintig word verplig om hierdie pakket te neem.”

Michael kyk na ’n frekwensietabel in die verslag. “Wat gedeeltelik verduidelik waarom wild-

en-wakker die modus is,” sê hy.

Pakket Hoeveelheid kliënte

Wild-en-wakker 787 211

Vat-dit-kalm 50 223

Kleindorpie-kind 101 992

Pasgemaak 95 117

3.4 Wat is ’n modus?

Die derde maatstaf van lokaliteit is die modus. Die modus (mode) is daardie waarde wat die

meeste in ’n datastel voorkom. ’n Modus is redelik maklik om te bepaal. Kyk na die volgende

datastel van ouderdomme:

18 18 20 25 17 19 18 19 27

Watter ouderdom kom die meeste voor? ’n Frekwensietabel sal die antwoord verskaf:

Ouderdom Frekwensie

17 1

18 3

19 2

20 1

25 1

27 1



Die modus in hierdie geval is dus 18 met ’n frekwensie van 3.

Die modus is ’n nuttige maatstaf, veral met data waar daar nie ’n mediaan of rekenkundige

gemiddeld bereken kan word nie. Nominale data is ’n voorbeeld hiervan. Kyk na die

volgende frekwensietabel wat aandui in watter provinsies ’n sekere onderneming se kliënte

woon:

Provinsie Frekwensie

Wes-Kaap 240

Vrystaat 150

KwaZulu-Natal 160

Gauteng 440

Noord-Kaap 10

Die modus is Gauteng, die provinsie waarin die meeste kliënte bly, met ’n frekwensie van

440. ’n Gemiddeld en mediaan sou in hierdie geval niksseggend gewees het.

Modus vir intervalle

Kan ’n mens ’n modus bepaal vir kategorieë van numeriese data? Die antwoord is “ja”. Kyk

weer na Vasvat se kliënte-ouderdomme:


18 tot 27 66 675

28 tot 37 240 990

38 tot 47 298 747

48 tot 57 247 062

58 tot 67 161 883

68 tot 77 19 186

Dit is duidelik dat die kategorie "38 tot 47" die modus-kategorie is – die frekwensie van

298 747 is die hoogste. Maar watter ouderdom in hierdie kategorie is die modus? Is dit 38,

39, 40, 41, 42, 43, 44, 45, 46 of 47?



Soos wat die geval met die mediaan was, kan hierdie antwoord ook bereken word. Die

formule om ’n modus vir numeriese, gekategoriseerde data te bepaal is:

Mo = Omo + �� ! �� ! �� " �

Die verskillende simbole stel die volgende voor:

• Mo stel die modus voor.

• Omo stel die onderste limiet van die modus-interval (38 tot 47) voor. In hierdie geval is

dit 38.

• c stel die grootte van die modus-interval voor. Die ouderdomme in die modus-interval

(of -kategorie) is 38, 39, 40, 41, 42, 43,44, 45, 46 en 47. Daar is dus tien

ouderdomme in hierdie interval. c is 10.

• fm dui op die frekwensies in die modus-interval. In hierdie geval is die frekwensie van

die “38 tot 47”-interval 298 747.

• fm-1 dui op die frekwensie van die interval voor die modus-interval (dus 28 tot 37). In

hierdie geval is dit 240 990.

• fm+1 dui op die frekwensie van die interval na die modus-interval (dus 48 tot 57). In


Met hierdie waardes kan die modus nou bereken word:

Mo = Omo + ��!��!��"�

= 38 + ��

= 38 + ��

= 43.27

Die ouderdom wat dus die meeste voorkom onder Vasvat se kliënte (en dus die modus) is

43.27 jaar.

Gevallestudie: Die agente

Vanessa lees deur een van Michael se verslae. Sy is beïndruk met die deeglikheid waarmee

die student sy werk doen. Dan sien sy iets raak.

”Blaai gou na bladsy vier-en-twintig,” sê sy.



Michael gehoorsaam. “Die verkoopsagente?”

Vanessa knik. “Hoe het jy by die gemiddelde ervaring uitgekom? Het hulle vir jou die rou

data gegee?”

Michael kyk na die frekwensietabel in die verslag:

Jare ervaring Hoeveel agente

1 140

2 180

3 110

4 120

6 50

7 50

8 20

9 25

10 5

TOTAAL 700

Gemiddeld agent het 3.421 jaar ondervinding.

“Nee,” sê Michael. “Die frekwensietabel was al wat ek ontvang het.”

“Hoe het jy by dan by die gemiddeld uitgekom?”

“Ek het ’n geweegde gemiddeld gebruik.”

Vanessa glimlag. “Waar daar ’n wil is, is daar ’n weg.”

Michael probeer om sy trots weg te steek. “Moet net nie vir my vra om ’n standaardafwyking

te bereken nie.”

“Dit is nie te moeilik nie,” sê Vanessa en Michael besef weereens waarom haar bynaam in

die kantore “Juffrou Einstein” is.



3.5 Wat is ’n geweegde gemiddeld?

’n Geweegde gemiddeld word gebruik wanneer verskillende waardes (waarvan die

gemiddeld bereken moet word) nie dieselfde gewig dra nie.

In Vasvat se geval was hierdie waardes 1, 2, 3, 4, 6, 7, 8, 9 en 10 jaar ondervinding. Die

gemiddeld van hierdie nege waardes is:

Gemiddeld = (1 + 2 + 3 + 4 + 6 + 7 + 8 + 9 + 10) ÷ 9

= 50 ÷ 9

= 5.556 jaar

Hierdie gemiddeld sou verkeerd wees, omdat dit sou beweer dat die gemiddelde agent

5.556 jaar ondervinding het. Dit neem egter nêrens die hoeveelheid agente by elke

jaargroep in ag nie.

Hoe kan ’n meer akkurate gemiddeld bereken word? Die frekwensietabel dui aan dat daar

140 agente met een jaar ondervinding is. So ook is daar 180 agente met twee jaar

ondervinding, 110 agente met drie jaar ondervinding, ensovoorts. Die oorspronklike datastel

sou dus die volgende data bevat het:

140 1’e

180 2’s

110 3’e

120 4’s

50 6’e

50 7’s

20 8’s

25 9’s

5 10’e

Om die gemiddeld te bereken sou ons dan al die 1’e bymekaargetel het (wat vir ons 140 sou

gee), al die 180 2’s sou bymekaargetel word (wat vir ons 360 sou gee), al 110 van die 3’e

sou bymekaargetel word (wat vir ons 330 sou gee). Ons sou ook al die 4’s, 6’e, 7’s, 8’s, 9’s

en 10’e bymekaargetel het totdat ons al 700 waardes bymekaargetel het. Dan sou ons dit

deur 700 gedeel het en ’n gemiddeld gekry het.

VERKEERD!



Die geweegde gemiddeld vereenvoudig die proses. Elke frekwensie word vermenigvuldig

met die jare ondervinding. 140 x 1 gee presies dieselfde antwoord wat ons sou kry deur al

die 1’e bymekaar te tel. So ook sal 180 x 2 en 110 x 3 vir ons dieselfde antwoorde gee as

ons die 2’s en 3’e respektiewelik opgetel het. Ons kan dus nou ’n ekstra kolom in die

frekwensietabel byvoeg:

Jare ervaring Hoeveel agente Ervaring x agente

1 140 140

2 180 360

3 110 330

4 120 480

6 50 300

7 50 350

8 20 160

9 25 225

10 5 50

TOTAAL 700 2 395

Die totale jare ondervinding van die 700 agente is 2 395. Die gemiddeld kan nou maklik en

akkuraat bereken word:

x = totale jare ondervinding ÷ hoeveelheid agente

= 2 395 ÷ 700

= 3.421 jaar

Die 3.421 jaar ondervinding is baie meer akkuraat as die 5.56 jaar wat ons vroeër

(verkeerdelik) bereken het.

Die formule vir ’n geweegde gemiddeld is:

Geweegde x = ∑ ��∑ ��

Die simbole kan soos volg verduidelik word:

• fi stel elke kategorie se frekwensie voor.



• xi stel elke waarde (jaar) voor.

• ΣΣΣΣfixi beteken dus dat elke waarde (jaar) met die frekwensie (hoeveelheid agente met

soveel jaar ondervinding) vermenigvuldig moet word. Die antwoord moet dan

bymekaargetel word.

• ΣΣΣΣfi beteken dus dat al die frekwensies bymekaargetel moet word (die totale

hoeveelheid agente in hierdie geval).

Gevallestudie: Om vrae te beantwoord

“Beskrywende statistiek is baie interessant, maar is daar enige van Vasvat se vrae wat ons

al beantwoord het?”

Hoewel Michael besef dat Vanessa beïndruk is deur sy werk, sou hy tog wou sien dat sy

werk waarde vir die kliënte inhou.

Vanessa dink nie lank nie. “Absoluut!” sê sy. “Kyk na die kwantiele wat jy bereken het. Vir

die inkomstegroepe.”

Michael blaai na ’n verslag en sien die volgende:

Kwantiele: Inkomste van kliënte

Q1: 8 220

Q2: R15 180

Q3: R40 444

Vanessa verduidelik: “Vasvat wil ’n nuwe produk ontwikkel vir hul kliënte in die laagste

inkomstegroep. Deur die kwantiele te bereken kan hulle nou sien dat vyf-en-twintig persent

van hulle kliënte minder as agtduisend tweehonderd-en-twintig rand per maand verdien. Dit

is aansienlik hoër as wat hulle verwag het.”

Michael knik tevrede. “Nou kan hulle meer voordele by die produk voeg en die premies ’n

bietjie hoër maak.”

“Presies. As hulle nie geweet het wat die eerste kwantiel was nie, sou hulle dalk ’n produk

ontwerp het wat bekostigbaar sou wees vir kliënte met ’n inkomste van onder drieduisend

rand, maar...”

“...hulle sou alle bestaande kliënte in die eerste kwantiel verloor het,” voltooi Michael haar

sin.

“Presies.”



3.6 Wat is kwantiele?

Kwantiele is ’n voorbeeld van nie-sentrale maatstawwe van lokaliteit. Waar ’n gemiddeld,

modus en mediaan een of ander “middelpunt” van data probeer aandui, word nie-sentrale

maatstawwe gebruik om data op ander wyses te verdeel.

Die beginsel van kwantiele is eintlik heel eenvoudig. Alle data word van klein na groot

gesorteer en dan in vier ewe groot dele gedeel. Die proses is dieselfde as die proses wat vir

’n mediaan gevolg word. Waar ’n mediaan egter gebruik word om data in twee dele te deel,

word kwantiele gebruik om die data in vier te deel.

Beskou die volgende datastel:

40 45 42 44 18 20 21 25 31 35 38 39 55 50 49

Die data word nou van klein na groot gesorteer:

18 20 21 25 31 35 38 39 40 42 44 45 49 50 55

Om die kwantiele te bepaal word die data in vier dele gedeel. Die waarde presies tussen

twee dele of groepe data, word die kwantiel genoem. ’n Kwantiel word met ’n Q voorgestel,

gevolg deur die nommer (1, 2 of 3).

18 20 21 25 31 35 38 39 40 42 44 45 49 50 55

Q1 Q2 Q3

(ook mediaan)

Om ’n kwantiel te bepaal is dit eerste nodig om die posisie van die kwantiel te vind. Daarna

kan die waarde van die kwantiel bepaal word. Soos by die bostaande datastel gesien kan

word, is die posisie van Q1 vier (dit is die vierde waarde), maar Q1 self is 25.

Pasop!

’n Fout wat studente dikwels maak, is om slegs die posisie van die kwantiel te bepaal.

Hierdie is slegs die helfte van die berekening. Wanneer die posisie bepaal is, moet die

fisiese waarde van die kwantiel ook bereken word.



� Hoe word Q1 bereken?

Q1 is die simbool wat gebruik word om die eerste kwantiel aan te dui. Die eerste kwantiel

vorm die boonste grens van die eerste 25% van alle waardes. Die posisie van Q1 word met

die volgende formule bereken:

Posisie van Q1 = (n + 1) ÷ 4

• n stel die totale hoeveelheid waardes voor, in hierdie geval 15.

In die bogenoemde geval kan die posisie van Q1 dus soos volg bereken word:


= (15 + 1) ÷ 4

= 4

Die eerste kwantiel kom dus voor by posisie vier in die datastel. Dit is dus die vierde

waarde in ons datastel. Hierdie waarde kon ons van die datastel afgelees het:

Q1 = 25

Wat gemaak as Q1 se posisie nie ’n heelgetal is nie?

In die vorige voorbeeld (hierbo) was Q1 se posisie 4 gewees. Maar wat doen ons as Q1 se

posisie iets soos 7.25 of 2.25 is? Beskou die volgende datastel (reeds gesorteer):

20 24 33 38 42 45 49 51 55 60

Bereken nou Q1 se posisie:


= (10 + 1) ÷ 4

= 2.75

Q1 is dus êrens tussen die tweede en derde waarde.

20 24 33 38 42 45 49 51 55 60

Q1

hier êrens



Ons kan egter nie dieselfde benadering as met ’n mediaan volg nie, omdat Q1 nie presies in

die middel van 24 en 33 lê nie. Die 0.75 in Q1 se posisie (2.75) beteken dat Q1 nader aan 33

as 24 is. Q1 moet dus met die volgende stappe bereken word.

Stap 1: Bepaal die afstand tussen die twee waardes. In hierdie geval dui dit op die afstand

tussen die 24 en 33:

Afstand = 33 – 24

= 9

Stap 2: Neem nou die breukdeel van die posisie van Q1 (in hierdie geval 0.75) en

vermenigvuldig dit met die afstand tussen die twee waardes (in hierdie geval 9). Hoekom

doen ons dit? Want 75% (0.75) van hierdie “afstand” vorm deel van die eerste kwantiel. Die

oorblywende 25% (0.25) vorm reeds deel van die volgende kwantiel:

9 x 0.75

= 6.75

Stap 3: Voeg nou hierdie deel van die “afstand” by die onderste waarde (24 in hierdie geval)

om Q1 te verkry.

Q1 = 24 + 6.75

= 30.75

Die eerste kwantiel is dus 30.75.

Nota:

Dieselfde stappe word gevolg om die derde kwantiel te bereken indien Q3 se posisie nie ’n

heelgetal is nie.


Q2 word bereken deur die waarde reg in die middel van die datastel te identifiseer. Klink dit

bekend? Dit is presies dieselfde metode wat ons gebruik het om die mediaan te identifiseer.

Dus kan ons sê dat:

Q2 = mediaan

Dit sal altyd die geval wees.




Die derde kwantiel (Q3) word min of meer op dieselfde wyse as die eerste kwantiel (Q1)

bereken. Die enigste daadwerklike verskil is die formule van Q3 se posisie:

Posisie van Q3 = 3(n + 1) ÷ 4

Beskou weer die datastel wat ons vir die berekening van Q1 gebruik het (gesorteer):

18 20 21 25 31 35 38 39 40 42 44 45 49 50 55

Bereken nou Q3 se posisie:


= 3(15 + 1) ÷ 4

= 12

Die twaalfde waarde in ons gesorteerde datastel is 45.

Waarde 18 20 21 25 31 35 38 39 40 42 44 45 49 50 55

Posisie 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Q3

� Wat as die posisie nie ’n heelgetal is nie?

As Q3 se posisie nie ’n heelgetal is nie, word dieselfde stappe wat in die geval van Q1

gebruik is, gevolg. Beskou die volgende datastel:

20 24 33 38 42 45 49 51 55 60


= 3(10 + 1) ÷ 4

= 8.25

Q3 lê dus tussen die 8ste en 9de waarde, dus tussen 51 en 55:

20 24 33 38 42 45 49 51 55 60

Q3 is hier êrens



Stap 1: Bepaal die afstand tussen 51 en 55.

Afstand = 55 – 51

= 4

Stap 2: Vermenigvuldig die posisie (8.25) se breukdeel (dus 0.25) met die afstand tussen

die twee waardes (in hierdie geval 4):

0.25 x 4

= 1

Stap 3: Tel die waarde wat in Stap 2 bereken is by die 51 en vind sodoende Q3:

Q3 = 51 + 1

= 52

� Hoe interpreteer ons kwantiele?

Beskou die volgende kwantiele:

Q1 = 25

Q2 = mediaan = 39

Q3 = 45

Ons kan, onder andere, die volgende stellings maak:

• 25% van alle waardes is kleiner as 25


• 50% van alle waardes is groter as 39


• 25% van alle waardes is groter as 45

� Kwantiele vir kategorieë

Soos met ’n mediaan is kwantiele maklik om te bereken as die data heelgetalle is.

Heelgetalle en reële getalle (soos salarisse) wat in kategorieë gedeel is, vereis egter ’n

addisionele formule.

Die stappe om te volg om ’n mediaan (en dus Q2) vir kategorieë van data te bereken, is

reeds breedvoerig bespreek. Dieselfde stappe word vir die berekening van Q1 en Q3 gevolg.



Beskou weer Vasvat se kliënte se ouderdomme:



die kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Die posisie van Q1 word met dieselfde formule as voorheen bereken:


= (1 034 543 + 1) ÷ 4

= 258 636

Die 258 636ste waarde sal êrens in die kategorie “28 tot 37” voorkom. Hierdie kategorie begin

by die 66 675ste respondent se antwoord en eindig by die 307 665ste respondent se

antwoord. Die 258 636ste respondent sal dus êrens in hierdie kategorie voorkom.



die kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474

58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Die formule vir Q1 en Q3 in hierdie geval verskil egter (minimaal) van die formule van die

mediaan (Q2). Q1 se formule word soos volg voorgestel:

Q1 in hierdie

kategorie



Q1 = Oq1 + [��

�#�

Die simbole in die formule beteken die volgende:

• Oq1 stel die onderste grens van Q1 se interval voor, in hierdie geval 28.

• n stel die totale hoeveelheid waardes voor, in hierdie geval 1 034 543.

• f(<) stel die kumulatiewe frekwensie voor van die interval voor Q1 se interval. In


• fq1 stel die frekwensie van Q1 se interval voor, in hierdie geval 240 990.

• c stel die grootte van Q1 se interval voor, in hierdie geval 10. (Die hoeveelheid

moontlik ouderdomme van 28 tot 37.)

Q1 kan dus nou soos volg bereken word:

Q1 = Oq1 + [��

�#�

= 28 + �� [� ��

��

= 28 + 7.966

= 35.966

Q3 kan op ’n soortgelyke wyse bereken word:


= 3(1 034 543 + 1) ÷ 4

= 775 907.25

Die 775 907.25ste waarde sal êrens in die kategorie “48 tot 57” voorkom.



die kategorie)

Kumulatiewe

frekwensie

18 tot 27 66 675 66 675

28 tot 37 240 990 307 665

38 tot 47 298 747 606 412

48 tot 57 247 062 853 474 Q3 in hierdie

kategorie



58 tot 67 161 883 1 015 357

68 tot 77 19 186 1 034 543

Die formule vir Q3 in hierdie geval is:

Q3 = Oq3 + [��

�#�

= 48 + �� [�$� �� %� � ��

��

= 48 + 6.860

= 54.86

Gevallestudie: Oudtshoorn en die onbetroubare gemiddeld

Vanessa glimlag. Michael merk op: “Miskien moet jy ’n naweek afvat en op Oudtshoorn gaan

kuier. Jy kyk nou al vir twintig minute na daardie statistieke.”

“Dit is baie interessant.”

“Die uitskieters?”

“Ja, en hoe hulle die gemiddeld beïnvloed. Omdat daar so min kliënte in Oudtshoorn is, het

die groot maatskappye se premies juis ’n invloed op die gemiddeld.”

“Dit is dus nie ’n verrassing dat die standaardafwyking so groot is nie.”

“Ja, ek het gesien. Wat is die variansiekoëffisiënt? Seker maklik vyftig persent?”

“Vier-en-sestig persent,” antwoord Michael. “Wat amper die helfte van die gemiddeld is.”

“Dit is baie hoog. Ek sou nie daardie gemiddeld vertrou nie. Die mediaan behoort ’n beter

aanduiding te gee van ’n tipiese premie as die gemiddeld. Het jy enige ander aanduiding van

die spreiding van Oudtshoorn se data?”

“Nee, maar ek het Pearson se skeefheidskoëffisiënt vir die totale data bereken.”

“Met die hand!?” Vanessa sien in haar geestesoog hoe Michael velle en velle papier gebruik

om meer as ’n miljoen waardes in berekening te bring.

Michael lag. “Darem nie. Maar ek sou dit kon doen as ek moes.”

“Liewer nie. Jou internskap is nie vierhonderd jaar lank nie!”



3.7 Wat is maatstawwe van spreiding?

Maatstawwe van spreiding verwys na beskrywende statistiek wat aandui hoe data verspreid

is. Kyk na die volgende histogramme:

Figuur 3.4: Wyses waarop data versprei kan wees

Elk van hierdie histogramme stel ’n ander stel data voor. Hoewel dit moontlik is dat al hierdie

datastelle dieselfde gemiddeld kan hê, is die verspreiding van data drasties verskillend.

Hierdie verskille sal deur maatstawwe van spreiding aangedui word.

In hierdie gids word daar na drie maatstawwe van spreiding gekyk: die standaardafwyking,

variansiekoëffisiënt (wat gebruik word om die standaardafwyking te interpreteer) en ’n

skeefheidskoëffisiënt.

3.8 Wat is ’n standaardafwyking?

’n Standaardafwyking bepaal hoe vêr die verskillende waardes in ’n datastel van die

gemiddeld af lê. Die standaardafwyking poog om ’n “gemiddelde afstand van die gemiddeld

af” te bereken.



� Waarom is ’n standaardafwyking belangrik?

Gestel ’n maatskappy wil ’n advertensieveldtog loods. Hulle weet egter nie hoe oud hulle

kliënte is nie en besluit om ’n vinnige steekproef te doen. Die maatskappy vra vir ses kliënte

wat hul ouderdomme is. Die ouderdomme wat hulle ontvang het, is:

60 20 25 65 70 12

Hulle bereken die gemiddeld van die steekproef:

x = (60 + 20 + 25 + 65 + 70 + 12) ÷ 6

= 252 ÷ 6

= 42 jaar

Gebaseer op die gemiddeld van 42 jaar, besluit die maatskappy om ’n advertensieveldtog te

loods vir persone tussen die ouderdomme van 40 en 50 jaar. Maar hulle maak ’n reusefout!

Daar is nie een persoon in die steekproef in hierdie ouderdomsgroep nie.

As die maatskappy ’n standaardafwyking bereken het, sou hulle gesien het dat die waardes

baie vêr van die gemiddeld van 42 af lê.

� Hoe word ’n standaardafwyking bereken?

’n Standaardafwyking word deur die volgende stappe bereken (’n formule word ’n bietjie later

verskaf):

• Stap 1: Die afstand tussen elke waarde in die datastel, en die gemiddeld van

dieselfde datastel, word bereken. Dit word gedoen deur die gemiddeld af te trek van

elke waarde in die datastel.

• Stap 2: Omdat Stap 1 moontlike negatiewe waardes tot gevolg kan hê (en afstande

nie negatief kan wees nie), word elke verskil wat in Stap 1 bereken is, gekwadreer.

• Stap 3: Om ’n gemiddelde “afstand” te kry, word al die gekwadreerde “afstande” deur

die totale hoeveelheid waardes (minus 1) gedeel. Die antwoord wat tydens hierdie

stap verkry word, word die variansie genoem.

• Stap 4: Die variansie is ’n nuttige hulpmiddel om spreiding te bepaal, maar word nie

in dieselfde eenheid (byvoorbeeld jare of rand) as die oorspronklike waardes gemeet

nie. As ons egter die variansie se vierkantswortel verkry, sal die antwoord in

dieselfde eenheid as die individuele waardes wees.



Die formule vir ’n standaardafwyking (wat met die letter s voorgestel word) is dus:

s =&∑��

Beskou weer die datastel wat hierbo bespreek is:

60 20 25 65 70 12

Die simbole in die formule beteken die volgende:

• s word gebruik om die standaardafwyking vir ’n steekproef voor te stel. (As ons na ’n

hele populasie se standaardafwyking verwys, word die simbool σ gebruik.)

• xi dui op elke waarde in die steekproef (60, 20, 25, 65, 70 en 12 in bogenoemde

geval).

• x dui op die steekproef se gemiddeld (42 in bogenoemde geval).

• ΣΣΣΣ (xi- x)2 beteken dus dat die gemiddeld van elke waarde in die steekproef afgetrek

moet word en die gekwadreerde waardes van al hierdie antwoorde bymekaargetel

moet word.

• n dui op die steekproefgrootte (6 in die geval hierbo).

Om die berekening te vergemaklik sal die variansie eers bereken word:

variansie = ∑��

� � �

= [(60 – 42)2 + (20 – 42)2 + (25 – 42)2 + (65 – 42)2 + (70 – 42)2 + (12 – 42)2] ÷ 5

= (324 + 484 + 289 + 529 + 784 + 900) ÷ 5

= 3 310 ÷ 5

= 662

Die standaardafwyking is dan die vierkantswortel van die variansie:

s =&∑��

= √��

= 25.729

Dit beteken dat die waardes ongeveer 25.729 jaar rondom die gemiddeld versprei is. Dit is

nogal groot: dit beteken dat die gemiddelde waarde 25.729 jaar kleiner of groter is as 42. Die



standaardafwyking kan dus hier vir ons ’n aanduiding gee dat die gemiddeld nie so akkuraat

is as wat ons graag sou wou gehad het nie.

3.9 Wat is die variansiekoëffisiënt?

Die variansiekoëffisiënt is ’n statistiek wat dit vir ons maklik maak om die standaardafwyking

ten opsigte van die gemiddeld te interpreteer. Die formule vir die variansiekoëffisiënt is:

CV = s ÷ x

In bogenoemde geval is die variansiekoëffisiënt dus:

25.729 ÷ 42

= 0.613

Die variansiekoëffisiënt word in persentasie aangedui. 0.613 sal dus voorgestel word as

61.30%. Die standaardafwyking is dus 61.30% van die gemiddeld. ’n “Akkurate” gemiddeld

sal ’n klein standaardafwyking hê en dus ook ’n klein variansiekoëffisiënt. Hoe nader die

variansiekoëffisiënt aan 0 is, hoe meer akkuraat is die gemiddeld.

Die verskil tussen die variansiekoëffisiënt en die standaardafwyking is dat eersgenoemde

die standaardafwyking ten opsigte van die gemiddeld vertoon. Kyk na die volgende twee

gemiddelde met hul standaardafwykings:

Datastel 1 Datastel 2

Standaardafwyking 150 Standaardafwyking 25

Watter standaardafwyking is die grootste? Die 150 natuurlik. Maar beteken dit dat Datastel 1

se gemiddeld meer akkuraat is as Datastel 2? Hierdie vraag kan nie beantwoord word

sonder om na die gemiddeld te kyk nie. Beskou nou dieselfde datastelle met meer inligting:

Datastel 1: Salarisse van kliënte Datastel 2: Jare ondervinding

Standaardafwyking R150 Standaardafwyking 25 jare

Gemiddeld R15 000 Gemiddeld 16 jare

Variansiekoëffisiënt 1% Variansiekoëffisiënt 156.25%

Deur na die gemiddeld en die variansiekoëffisiënt te kyk, kan ons nou sien dat die gemiddeld

van Datastel 1 baie meer akkuraat is. Datastel 2 se gemiddeld is glad nie akkuraat nie, met

’n baie groot standaardafwyking (wanneer dit met die gemiddeld vergelyk word).



3.10 Wat is ’n skeefheidskoëffisiënt?

’n Standaardafwyking sal kan onderskei tussen die volgende twee verspreidings:

Figuur 3.5: Data met verskillende standaardafwykings

Die linkerkantste grafiek sal ’n kleiner standaardafwyking bevat, terwyl die tweede grafiek ’n

groter standaardafwyking sal hê. Maar watter statistiek sal tussen die volgende

verspreidings kan onderskei?

Figuur 3.6: Data met verskillende vlakke van skeefheid



Die “skeefheid” van ’n verspreiding van data kan deur ’n skeefheidskoëffisiënt voorgestel

word. Een van die bekendste hiervan is Pearson se koëffisiënt van skeefheid. Hierdie

koëffisiënt het die volgende formule:

Skp= � ∑�� *�

Jy behoort op hierdie stadium bekend te wees met die simbole. Kom ons bereken nou die

Pearson skeefheidskoëffisiënt vir die bogenoemde datastel:

Ons weet:

• Die gemiddeld is 42

• Die standaardafwyking is 25.729

Ons bereken eerste die boonste deel van die formule:

nΣΣΣΣ(xi-x)3

= 6 x [(60 – 42)3 + (20 – 42)3 + (25 – 42)3 + (65 – 42)3 + (70 – 42)3 + (12 – 42)3]

= 6 x (5832 – 10 648 – 4 913 + 12 169 + 21 952 – 27 000)

= -147 360

Nou bereken ons die gedeelte aan die onderkant van die breuk:

(n – 1)(n – 2)s3

= (6 – 1)(6 – 2)(25.729)3

= 5 x 5 x 17 032.120

= 425 803

Nou kan die Skp bereken word:

Skp = � ∑�� *�

= ��

= -0.345

Hierdie data is dus negatief skeef verspreid (sien die volgende paragraaf).

60 20 25 65 70 12



� Hoe interpreteer ons ’n koëffisiënt van skeefheid?

Positief skeef: Skp > 0

Die waardes met die grootste frekwensies sal na die linkerkant van die gemiddeld neig. Die

“stert”-gedeelte van die verspreiding is dus aan die regterkant. Hoe groter die

skeefheidskoëffisiënt, hoe verder sal die data van die gemiddeld verspreid wees. Die

volgende figuur stel ’n positief skewe verspreiding voor.

Figuur 3.7: Data wat positief-skeef verspreid is

Negatief skeef: Skp < 0

In hierdie geval sal die grootste frekwensies aan die regterkant van die gemiddeld voorkom.

Die waardes wat dus die meeste voorkom, sal almal groter as die gemiddeld wees. Hoe

verder die koëffisiënt van die 0 af is, hoe “skewer” is die data verspreid. Die volgende figuur

stel data wat negatief skeef is, voor:



Figuur 3.8: Data wat negatief-skeef verspreid is

Simmetries: Skp = 0

Die waardes word simmetries rondom die gemiddeld versprei. Dit beteken dat die

frekwensies van waardes aan die linkerkant en die frekwensies van waardes aan die

regterkant ooreenstem. Hierdie verskynsel word ook ’n normaalverdeling genoem. Hoe

nader Skp aan 0 is, hoe meer verteenwoordig die verspreiding simmetrie.

Wat is volgende?

In die volgende hoofstuk sal Michael met ’n uitdaging gekonfronteer word. Vasvat

Versekeraars gaan van hom verwag om te voorspel wat in die toekoms gaan gebeur.



Notas


©akademia (MSW)| Hoofstuk 4: Waarskynlikhede 81

HHOOOOFFSSTTUUKK 44:: WWAAAARRSSKKYYNNLLIIKKHHEEDDEE

Onderwerpe

4.1 Wat is ‘n waarskynlikheid?

4.2 Berekening van ‘n waarskynlikheid

4.3 Telreëls

Wat is kombinasies?

Wat is permutasies?


82 Hoofstuk 4: Waarskynlikhede | ©akademia (MSW)

Gevallestudie: Michael se laaste dag

Michael sit en staar na die leë koffiebeker. In sy gedagtes gaan hy vir die soveelste keer

deur die woorde wat hy vir Vanessa wil sê. Hy is skoon geïrriteerd met homself: Hy was nog

nooit iemand wat senuagtig was om te sê wat hy dink nie. Maar vandag is daar soveel op

die spel.

Die koffiewinkel is al vir ’n halfuur oop. Michael het reeds vir ’n halfuur buite gewag vir die

winkel om oop te maak. Die bestuurder was effens verras om hom daar te vind, maar hy

was vriendelik en het hom dadelik binnegenooi. Intussen was daar nog net twee ander

kliënte. Beide het wegneemkoffie bestel en Michael weer alleen met sy gedagtes gelaat.

Vanessa het ’n afspraak vir agtuur gemaak. Michael wou nie kanse vat nie. Vandag is sy

laaste dag by StatInc. Dit is waaroor Michael met Vanessa wil praat. In die laaste maand het

hy soveel geleer. Hy het feitlik die hele Vasvat Versekeraars-projek by Vanessa oorgeneem.

Hy het ’n paar dae in die ander departemente spandeer, vraelyste ontwerp, data ingelees,

selfs vir twee dae Vasvat se kliënte geskakel om data te versamel. En elke dag leer hy

soveel van wat in die wêreld van Statistiek gebeur.

Die geld is ook nie sleg nie. Hy het sy eerste betaling drie dae gelede ontvang. In sy haas

om by die onderneming betrokke te raak het hy nooit sy kontrak behoorlik gelees nie. Sy

verrassing was dus groot toe hy ’n SMS van sy bank ontvang. Hy het nie net ’n salaris

ontvang nie, maar dit was meer as wat enige van sy vriende vir hul deeltydse werk ontvang.

En hy was nie ’n kelner by ’n restaurant of ’n administratiewe klerk nie. Hy het iets gedoen

wat hy geniet het.

Michael wil sy kontrak by StatInc verleng. Hy weet egter dat Vanessa ’n opoffering gemaak

het om hom onder haar vlerk te neem. Hy wil nie van haar goedheid misbruik maak nie,

maar hy moet haar net vra. As hy vandag klaarmaak sonder om te probeer om aan te bly,

sal hy homself vir baie lank verwyt.

Hy kon natuurlik direk met David gesels het. David was die bestuurder wat hom aanvanklik

aangestel het. Maar hy moet eers Vanessa se goedkeuring kry. Sy is die een wat hom sal

moet mentor terwyl hy by StatInc werk.

Hy word na die werklikheid teruggeruk deur Vanessa wat skielik voor hom staan.

“Ek sou enigiets gee om te weet waaraan jy so hard dink,” sê sy met ’n glimlag.

Enigiets? Selfs 'n maand ekstra by StatInc? Michael sê egter nie wat hy dink nie en gee ’n

skaapagtige glimlag. Hy wil dadelik met die deur in die huis val, maar sy moed begewe hom.

“Môre,” sê hy vriendelik, dog ’n bietjie ongemaklik.



“Ek het koffie nodig,” sê Vanessa. Sy wink die kelnerin nader en bestel ’n cappuccino. Dan

sit sy ’n groot lêer op die tafel neer. Michael skraap sy moed bymekaar en maak sy mond

oop, maar hy word deur Vanessa voorgespring.

“Wat is die kans dat ons jou kontrak met drie maande kan verleng?” val sy met die deur in

die huis.

Michael se mond val oop. Vanessa lag.

“Ons sal jou salaris verdubbel,” verduidelik sy. “Vasvat is baie gelukkig met jou werk en het

vir ons ’n paar nuwe projekte gegee. Ek het reeds met David gesels en hulle is bereid om

jou as my tydelike assistent aan te stel. Ons sal rondom jou klasse werk, solank jy net ’n

totaal van sestien ure per week aan Vasvat spandeer.”

Michael kan nie glo wat hy hoor nie. “Dit sal fantasties wees!” kry hy dit uiteindelik uit.

Vanessa mors nie tyd nie. “Mooi,” sê sy. “Kom ons begin met waarskynlikhede.”

Terwyl Michael nog sukkel om die nuus te verwerk, maak Vanessa die groot lêer oop.

“Vasvat het aktuarisse wat hul risiko’s bereken en die pakkette dienooreenkomstig opstel.

Daar is egter ander waarskynlikhede wat hulle ook wil bereken en daarvoor het hulle ons

hulp ingeroep.”

Michael is dadelik nuuskierig. “Soos wat?”

“Wat is die waarskynlikheid dat ’n middeljarige vrou met ’n inkomste van bo twintigduisend

rand per maand versekering op ’n motor van tweehonderdduisend rand sal uitneem?”

“Het ons data?”

Vanessa knik. “Die laaste tien jaar s’n vir die meeste en vir sommige waarskynlikhede het

ons tot twintig jaar se data tot ons beskikking.”

“Enige statistikus se droom,” lag Michael.

4.1 Wat is ’n waarskynlikheid?

Wat is die kans dat dit môre gaan reën? Wat is die moontlikheid dat die Springbokke hul

rugbywedstryd teen Engeland gaan wen? Wat is die kans dat ’n kliënt meer as een motor by

dieselfde handelaar sal koop?



Al die bogenoemde vrae verwys na een of ander onsekerheid. Die persoon wat hierdie vrae

vra (of beantwoord) het nie sekerheid ten opsigte van ’n spesifieke gebeurtenis nie. Om

hierdie vrae te beantwoord is dus baie moeilik.

’n Vraag soos “Gaan dit môre reën?” het nie ’n definitiewe “ja” of “nee” antwoord nie omdat

môre in die toekoms lê en dus van nature onseker is. Waarskynlikhede poog om hierdie

moeilike vrae te beantwoord.

In plaas daarvan om ’n eenvoudige “ja” of “nee” as antwoord te verskaf, kan ’n

waarskynlikheid ’n spesifieke getal gebruik om aan te dui wat die moontlikheid is dat dit

gaan reën en wat die moontlikheid is dat dit nie gaan reën nie. Hierdie waarskynlikheid

beantwoord nie die vraag in absolute terme (definitiewe “ja” of “nee”) nie, maar verskaf ’n

“tweede-beste” opsie. Die vraag “Gaan dit môre reën?” is dus onmoontlik om te beantwoord,

maar die vraag “Wat is die kanse dat dit môre gaan reën?” kan wel ’n moontlike antwoord

hê.

’n Waarskynlikheid word altyd voorgestel deur ’n getal tussen 0 en 1. Hierdie getal kan ook

as persentasie (tussen 0% en 100%) voorgestel word. Voordat ons ’n waarskynlikheid kan

bereken, word een of meer gebeurtenisse benodig. Die waarskynlikheid bepaal dan wat die

kanse is dat hierdie gebeurtenis sal plaasvind (of nie sal plaasvind nie).

As ons weer die weervoorspelling as voorbeeld gebruik, sal die gebeurtenis soos volg

gedefinieer word: “Dit gaan môre reën”. Deur diepgaande statistiese berekeninge, wat ’n

magdom veranderlikes in ag neem, bepaal die weerburo dat daar ’n 0.7 waarskynlikheid is

dat dit wel die volgende dag gaan reën. Tydens die weervoorspelling op die televisie, radio

of in koerante word hierdie 0.7 as ’n persentasie voorgestel (dus 70%). Die publiek weet dan

dat die waarskynlikheid van ’n reënbui groot is.

’n Waarskynlikheid van 0 en 1 het ’n spesiale betekenis. As ’n gebeurtenis ’n

waarskynlikheid van 0 het, beteken dit dat daardie waarskynlikheid beslis nie gaan

plaasvind nie. Ons verwys ook hierna as ’n onmoontlike gebeurtenis. Die volgende

waarskynlikhede het ’n 0 (of 0%) waarskynlikheid:

• Gebeurtenis A: Ek gaan môre op die son loop.

• Gebeurtenis B: Die kliënt is 700 jaar oud.

Aan die ander kant sal ’n gebeurtenis met ’n waarskynlikheid van 1 beslis plaasvind. Daar is

dus ’n 100% kans dat so ’n gebeurtenis gaan plaasvind. Voorbeelde van gebeurtenisse wat

’n waarskynlikheid van 1 het, sluit in:

• Gebeurtenis C: Ek gaan binne die volgende 200 jaar doodgaan.



• Gebeurtenis D: Die spesifieke kliënt is jonger as 700 jaar.

Nota oor persentasies:

Studente wonder soms of hulle waarskynlikhede as ’n getal tussen 0 en 1, of as ’n

persentasie moet uitdruk. ’n Goeie riglyn is die volgende: Wanneer ons statistiese

berekeninge doen, verwys ons na die waarskynlikhede as getalle tussen 0 en 1

(byvoorbeeld 0.45 of 0.91). Wanneer ons terugvoer verskaf aan ’n kliënt of as deel van ’n

verslag waar ons nie op die statistiese berekeninge fokus nie, kan die terugvoer as

persentasie verskaf word (byvoorbeeld 45% of 91%).

� Berekening van ’n waarskynlikheid

Daar bestaan ’n verskeidenheid wyses om waarskynlikhede te bereken. Om die

waarskynlikheid van ’n reënbui te bepaal is ’n groot hoeveelheid komplekse berekeninge

nodig. Daar moet ’n verskeidenheid faktore in ag geneem word. Hierdie tipe berekeninge val

egter buite die grense van hierdie gids.

Vir gewone sakedoeleindes sal ons gewoonlik geskiedkundige data vir waarskynlikhede

gebruik. Ons sal kyk na bestaande waardes en dan hieruit waarskynlikhede bereken.

Byvoorbeeld, as ons vind dat, in die laaste jaar, een uit elke tien kliënte oor ’n sekere diens

gekla het, kan ons aanneem dat daar in die volgende jaar ’n soortgelyke verspreiding sal

wees. (Dit sal natuurlik slegs die geval wees indien alle veranderlikes dieselfde bly. As daar

dus maatstawwe in plek gestel word om die kliëntediens te verbeter, of die onderneming se

kliënte vermeerder of verminder drasties, mag die waardes anders lyk.)

As een uit elke tien kliënte verlede jaar gekla het (dus 10% van al die kliënte), dan is daar ’n

0.1 waarskynlikheid dat ’n spesifieke kliënt hierdie jaar ook gaan kla. Die formule om ’n

waarskynlikheid te bereken is dus:

P(A) = +�

Die veranderlikes in die formule kan soos volg beskryf word:

• A is ’n gebeurtenis (byvoorbeeld ’n Kliënt kla)

• P(A) is die waarskynlikheid dat A sal plaasvind (dus, die waarskynlikheid dat ’n

spesifieke kliënt sal kla)

• r is die hoeveelheid keer wat A wel plaasgevind het (uit historiese data vind ons dat r

een keer plaasgevind het vir elke tien kliënte)

• n is die steekproef



In kort sal ons sê: Verlede jaar het r uit n kliënte gekla. Die waarskynlikheid dat ’n enkele

kliënt sal kla, is dus +�.

’n Waarskynlikheid het die volgende eienskappe (Wegner, 2013:102):

• ’n Waarskynlikheid lê altyd tussen 0 en 1. 0 en 1 is ingesluit.

• Indien ’n gebeurtenis onmoontlik is (en dus nie kan plaasvind nie), is die

waarskynlikheid dat daardie gebeurtenis gaan plaasvind 0.

• Indien ’n gebeurtenis wel gaan plaasvind (en dit dus onmoontlik is vir die gebeurtenis

om nie plaas te vind nie), is die waarskynlikheid dat daardie gebeurtenis gaan

plaasvind 1.

• Die som van die waarskynlikhede van alle moontlike uitkomste van ’n gebeurtenis

is 1.

• Die waarskynlikheid dat ’n gebeurtenis nie gaan plaasvind nie, is gelyk aan die

waarskynlikheid dat dit wel gaan plaasvind, afgetrek van 1. Dus: P'(A) = 1 – P(A). In

hierdie geval stel P'(A) die waarskynlikheid dat A nie gaan plaasvind nie, voor.

Voorbeeld

Vasvat Motors wil weet of persone jonger as 25 jaar hul produkte sal koop. Hulle trek ’n

steekproef van motoreienaars onder 25 jaar. Die steekproef bestaan uit 200 persone onder

25 jaar (dus, n = 200). Hulle vra vir elk van die persone in die steekproef die volgende vraag:

“Wie is die versekeraar van jou motor?” Uit die 200 persone het 15 gesê dat hulle wel by

Vasvat verseker is.

Wat is die waarskynlikheid dat ’n ewekansige kliënt wat uit dieselfde populasie gekies word,

by Vasvat verseker is?

Antwoord:

Om te begin moet ons die formule gebruik:

P(A) = +�

Die formule benodig ’n aantal waardes:

• Stel A = ’n Spesifieke kliënt onder die ouderdom van 25 jaar is wel ’n Vasvat-kliënt.

• P(A) is dan die waarskynlikheid dat ’n spesifieke kliënt wat ons gekies het, wel ’n

Vasvat-kliënt is.

• r is die hoeveelheid keer wat iemand in ons steekproef genoem het dat hulle wel ’n



Vasvat-kliënt is, dus 15.

• n is die hoeveelheid mense wat ons gevra het wie hul motors verseker, dus 200.

Die waarskynlikheid kan dus soos volg bereken word:

P(A) = +�

= 15 / 200

= 0.075

Die waarskynlikheid dat ’n ewekansig-gekose kliënt onder 25 wel ’n Vasvat-kliënt sal wees,

is dus 0.075 (wat 7.5% is).

4.2 Belangrike begrippe

Soos reeds genoem, is daar ’n verskeidenheid waarskynlikhede, en tipes waarskynlikhede,

wat bereken kan word. Daar is dus ook ’n groot hoeveelheid waarskynlikheidsbegrippe

waarvan ’n statistikus bewus moet wees. Vir die doel van hierdie gids sal daar na vyf

belangrike begrippe gekyk word (Wegner, 2013: 103):

• Snyding (intersection) van gebeurtenisse

• Samevoeging (union) van gebeurtenisse

• Onderling-uitsluitlike (mutually exclusive) gebeurtenisse

• Gesamentlik-uitputbare (collectively exhaustive) gebeurtenisse

• Statisties-onafhanklike gebeurtenisse.

Vervolg…

Vanessa en Michael sit by Vanessa se tafel met ’n groot hoeveelheid dokumente voor

hulle uitgepak.

“Die belangrikste is om eers te kyk na die data wat beskikbaar is,” sê Vanessa en gee vir

Michael ’n vel papier aan. “Hierdie is ’n kruistabulering van pakkette teenoor provinsies.”

Michael kyk na die dokument en sien die volgende:



Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-

Natal

94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

“Hierdie tabel bevat ’n opsomming van al Vasvat Versekeraars se kliënte,” verduidelik

Vanessa. “Dit is ingedeel volgens provinsie, maar ook volgens die pakket wat die kliënt

gekies het.”

“Dit is ’n goeie opsomming,” sê Michael. “Ons kan reeds ’n hele paar waarskynlikhede

van hierdie tabel aflees.”

Michael is reg. Hoewel daar ’n verskeidenheid wyses is om waarskynlikhede te bereken, is

die tabel wat hierbo verskaf is, ’n baie nuttige hulpmiddel. Hierdie tabel en die twee

kategorieë wat deur die tabel voorgestel word (Provinsie en Pakket), sal vir die

verduideliking van die vyf waarskynlikheidsbegrippe gebruik word.

� Begrip 1: Snyding

Snyding behels twee gebeurtenisse wat op dieselfde tyd plaasvind. Hierdie twee

gebeurtenisse kan enigiets wees, byvoorbeeld:

• Dit reën en die son skyn. Gebeurtenis A sal Dit reën wees en Gebeurtenis B sal Die

son skyn wees.

• Die respondent werk voltyds en het ’n gesin. Gebeurtenis A sal Die respondent werk

voltyds wees en Gebeurtenis B sal Die respondent het ’n gesin wees.



• ’n Spesifieke kliënt woon in Gauteng en is geregistreer vir die Wild-en-wakker-

pakket. Gebeurtenis A sal Die kliënt woon in Gauteng wees en Gebeurtenis B sal Die

kliënt is geregistreer vir die Wild-en-wakker-pakket wees.

Daar is een woord wat in elk van die bogenoemde beskrywings voorkom. Hierdie woord is

“en”. Snyding word altyd deur die woord “en” voorgestel: Gebeurtenis A en Gebeurtenis B

vind gelyktydig plaas.

’n Nuttige wyse om snyding (en van die ander konsepte) voor te stel, is die sogenaamde

Venn-diagram. Met ’n Venn-diagram word elke gebeurtenis met ’n sirkel voorgestel. Deur na

die sirkels se interaksie (of gebrek aan interaksie) met mekaar te kyk, is dit makliker om ’n

spesifieke konsep te verstaan. Snyding kan dus soos volg deur ’n Venn-diagram voorgestel

word:

Figuur 4.1: Snyding voorgestel deur ’n Venn-diagram

Elke sirkel stel ’n gebeurtenis voor. Gebeurtenis A word deur die linkerkantse sirkel

voorgestel, terwyl die regterkantse sirkel Gebeurtenis B voorstel. Die plek waar die twee

sirkels mekaar sny, is die plek waar beide gebeurtenisse gelyktydig plaasvind.

Die snyding van twee gebeurtenisse word deur die teken ∩∩∩∩ voorgestel. Gestel daar is twee

gebeurtenisse, A en B. Die waarskynlikheid dat die snyding van die twee gebeurtenisse sal

plaasvind (met ander woorde, die waarskynlikheid dat A en B gelyktydig gaan plaasvind,

word voorgestel deur P(A∩∩∩∩B). Die volgende voorbeeld sal aandui hoe so ’n waarskynlikheid

bereken kan word.

A

B Snyding



Voorbeeld

Kyk weer na die tabel wat al Vasvat se kliënte volgens provinsies en pakkette indeel.

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Bereken nou die volgende:

Vraag 1:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng woon?

Vraag 2:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, vir die Pasgemaakte

pakket ingeskryf is?

Vraag 3:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Oos-Kaap woon

en vir die Wild-en-wakker-pakket ingeskryf is?

Vraag 4:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Wes-Kaap woon

en vir die Vat-dit-kalm-pakket ingeskryf is?

Antwoorde:

Vraag 1:

Die eerste vraag behels geen snyding nie. Daar is slegs een gebeurtenis waarvan ons die



waarskynlikheid moet bereken. Die eerste stap sal dus wees om die gebeurtenis te

identifiseer. Ons sal dit op die volgende wyse doen:

Gestel A = Die kliënt woon in Gauteng

Die volgende stap is om die waarskynlikheid te bereken. Ons weet reeds hoe om ’n basiese

waarskynlikheid te bereken. Ons gebruik die formule wat vroeër in hierdie hoofstuk bespreek

is:

P(A) = ,-

Nou moet ons bepaal watter waardes deur r en n voorgestel word:

• n stel die totale hoeveelheid kliënte voor, dus 1 034 543

• r stel die hoeveelheid kliënte wat in Gauteng woon, voor, dus 356 741

Nou is die berekening maklik:

P(A) = ,-

= 356 741 / 1 034 543

= 0.349

Daar is dus ’n 0.349 waarskynlikheid (of 34.9%) dat ’n kliënt wat ewekansig gekies sal word,

in Gauteng woon.

Toets jou antwoord:

’n Nuttige toets om te doen om te kyk of jy nie moontlik ’n fout gemaak het nie, is om te vra

“Maak my antwoord sin?” Is daar werklik ongeveer 35% van die kliënte in Gauteng? Nog ’n

belangrike vraag wat gevra moet word, is: “Is die waarskynlikheid wel tussen 0 en 1?”

Vraag 2:

Hierdie is ook ’n eenvoudige waarskynlikheid (wat nie snyding behels nie). Beskryf die

gebeurtenis soos volg:

Gestel A = Die kliënt is vir die pasgemaakte pakket ingeskryf

Bereken nou die waarskynlikheid met die formule:

P(A) = +�

waar:

• r = 95 117 (die totale hoeveelheid kliënte wat vir die pakket ingeskryf is)

• n = 1 034 543 (die totale hoeveelheid kliënte by Vasvat)



Die waarskynlikheid kan dus soos volg bereken word:

P(A) = +�

= 95 117 / 1 034 543

= 0.092

Daar is dus ’n 0.092 waarskynlikheid (of 9.2%) dat ’n kliënt wat ewekansig gekies word, wel

vir die pasgemaakte pakket ingeskryf is.

Vraag 3:

By Vraag 3 word daar vir die eerste keer na twee, snydende waarskynlikhede verwys.

Hoewel snyding sy eie formule het (wat ons later sal bespreek), kan ons ook die snyding van

twee gebeurtenisse van die tabel aflees. Die eerste stap sal natuurlik wees om die

gebeurtenisse te identifiseer:

Gestel A = Die kliënt woon in die Oos-Kaap

Gestel B = Die kliënt is vir die Wild-en-Wakker-pakket ingeskryf

Omdat die snyding van A en B op die tabel voorkom, kan ons dieselfde formule gebruik:

P(A∩∩∩∩B) = +�

n is steeds 1 034 543. Wat is r? r sal voorgestel word deur die plek op die tabel waar A en B

sny. Dit is dus by die sel waar die Oos-Kaap-ry kruis met die Wild-en-Wakker-kolom. Die

waarde by die hierdie snyding (op die tabel) is 42 374. Die waarde word hieronder op die

tabel aangedui:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577



Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Van hier af is die berekening weer dieselfde as vir enkele waarskynlikhede:

P(A∩∩∩∩B) = +�

= 42 374 / 1 034 543

= 0.041

Daar is dus ’n 0.041 waarskynlikheid (of 4.1%) dat ’n kliënt wat ewekansig gekies word in die

Oos-Kaap woon en vir die Wild-en-wakker-pakket ingeskryf is.

Vraag 4:

Hier het ons weereens ’n waarskynlikheid waar snyding betrokke is. Ons sal weer die twee

gebeurtenisse identifiseer:

Gestel A = Die kliënt woon in die Wes-Kaap

Gestel B = Die kliënt is vir die Vat-dit-kalm-pakket ingeskryf

Die formule P(A∩B) = ./ kan weer gebruik word.

n word weer voorgestel deur die totale hoeveelheid kliënte, naamlik 1 034 543, terwyl r

voorgestel word deur die sel waar die Wes-Kaap-ry en die Vat-dit-kalm-kolom sny. Die

waarde wat hier van die tabel afgelees kan word, is 7 384.

Bereken nou die waarskynlikheid:

P(A∩∩∩∩B) = +�

= 7 384 / 1 034 543

= 0.00714

Daar is dus ’n 0.00714 waarskynlikheid (0.714%) dat ’n kliënt wat ewekansig gekies word, in

die Wes-Kaap sal woon en vir die Vat-dit-kalm-pakket ingeskryf sal wees.

Notas:

• Jy sal oplet dat die waarskynlikheid vir twee gebeurtenisse wat op dieselfde tyd

plaasvind, kleiner is as die afsonderlike waarskynlikheid van elke gebeurtenis. Dit

maak logies sin: Die waarskynlikheid om een van jou ses vakke deur te kom is

kleiner as die waarskynlikheid om al jou vakke deur te kom. Die waarskynlikheid om

in 2016 ’n kompetisie te wen, is groter as die waarskynlikheid om in 2016, 2017 en



2018 die prys te wen.

• Daar bestaan ’n formule om die snyding van twee waarskynlikhede te vind as jy nie

’n tabel het soos wat in hierdie oefening vir jou gegee word nie. Hierdie formule

gebruik die individuele waarskynlikhede van die twee gebeurtenisse en sal volgende

bespreek word.

Bereken snyding sonder ’n tabel

Om die snyding van twee gebeurtenisse te bereken, deur van ’n tabel gebruik te maak, is

redelik eenvoudig. Dit is, byvoorbeeld, maklik om die hoeveelheid Gauteng-kliënte wat vir

die Wild-en-wakker-pakket geregistreer is, van die tabel af te lees. Daar is egter nie altyd ’n

tabel met rou data beskikbaar vir hierdie berekening nie.

Die wyse waarop ons waarskynlikhede bereken het, was redelik eenvoudig. Die formule

P(A) = ./ is egter slegs een wyse waarop waarskynlikhede bereken kan word. Hierdie tipe

waarskynlikhede word “marginale waarskynlikhede” genoem. Nie alle waarskynlikhede is

egter marginale waarskynlikhede nie. Soos wat jy later in hierdie gids sal sien, is daar

verskillende tipes waarskynlikhede. Daar is ook verskillende wyses waarop waarskynlikhede

bereken kan word. Ons sal, byvoorbeeld, later sien hoe waarskynlikhede deur sogenaamde

waarskynlikheidverspreidings bereken kan word. Daar is ook ’n groot hoeveelheid wyses

waarop waarskynlikhede bereken kan word, wat nie in hierdie gids bespreek word nie.

Dit is dus moontlik dat jy slegs twee waarskynlikhede sal ontvang (sonder die rou data) en

dat daar van jou verwag word om die snyding te bereken.

Beskou die volgende:

P(A) = 0.24

P(B) = 0.11

Wat is P(A∩∩∩∩B)?

Hoe nou gemaak? Ons het nie ’n tabel met die rou data tot ons beskikking nie? Gelukkig is

daar ’n formule vir die berekening van snyding beskikbaar.

Hierdie formule is:

P(A∩∩∩∩B) = P(A) x P(B)

As daar meer as twee waarskynlikhede is en ons wil graag die snyding van al die

waarskynlikhede bereken, kan dieselfde formule aangepas word. Beskou die volgende

Venn-diagram vir drie gebeurtenisse:



Figuur 4.2: Snyding van drie gebeurtenisse

Die formule vir die snyding van hierdie drie gebeurtenisse is:

P(A∩∩∩∩B∩∩∩∩C) = P(A) x P(B) x P(C)

Beskou weer die voorbeeld hierbo genoem:

P(A) = 0.24

P(B) = 0.11

Om die snyding te bereken kan ons die formule toepas:

P(A∩∩∩∩B) = P(A) x P(B)

= 0.24 x 0.11

= 0.0264

Dit is belangrik om in ag te neem dat, omdat die rou data nie beskikbaar is nie, die formule ’n

benaderde waarde vir die snyding gee. As ons, byvoorbeeld, nie weet hoeveel Gauteng-

kliënte vir Vasvat se Wild-en-wakker-pakket geregistreer is nie, sal ons die totale

hoeveelheid kliënte in Gauteng en die totale hoeveelheid kliënte wat vir die Wild-en-wakker-

pakket geregistreer is, gebruik om die presiese snyding-waarskynlikheid te benader.

A B

C

P(A∩∩∩∩B∩∩∩∩C)



Probeer dit self

Beskou weer Vasvat Versekeraars se kliëntegetalle:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Vraag 1:

Deur die tabel te gebruik, bepaal die waarskynlikheid dat ’n ewekansig-gekose kliënt in

Limpopo sal woon en vir die Pasgemaakte pakket geregistreer is.

Vraag 2:

Bereken nou dieselfde waarskynlikheid wat jy in Vraag 1 hierbo bereken het, maar maak

gebruik van die formule P(A∩B) = P(A) x P(B). Hoe verskil die waarskynlikhede?

Antwoorde:

Vraag 1:

Gestel A = Die kliënt woon in Limpopo

Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer

P(A∩∩∩∩B) = +� (Lees r van die tabel af)

= 9 372 / 1 034 543

= 0.0091



Vraag 2:

Gestel ons kan nie r bloot van die tabel aflees nie – met ander woorde, die hoeveelheid

kliënte wat in Limpopo woon en vir die pasgemaakte pakket geregistreer is, is nie beskikbaar

nie. Ons sal dus nou P(A) en P(B) moet gebruik om die waarskynlikheid te benader.

Gestel A = Die kliënt woon in Limpopo


P(A) = +�

= 68 462 / 1 034 543

= 0.0662

P(B) = +�

= 95 117/ 1 034 543

= 0.092

Ons kan dan die formule gebruik om die snyding te benader:

P(A∩∩∩∩B) = P(A) x P(B)

= 0.0662 x 0.092

= 0.0061

Hoe verskil die twee waardes?

Die mees akkurate waarskynlikheid van die snyding is 0.0091. Die benaderde waarde is

0.0061. Die verskil tussen hierdie twee waardes is ’n relatief klein, naamlik 0.003 (of 0.3%).

Probeer self: Jy kan self probeer om ’n paar van die ander moontlike snydings te bereken

en dan met die formule te benader.

� Begrip 2: Samevoeging

Samevoeging behels die waarskynlikheid dat ten minste een van twee of meer

gebeurtenisse kan plaasvind. Hierdie gebeurtenisse hoef nie gelyktydig plaas te vind nie,

hoewel dit wel mag gebeur. Voorbeelde van gebeurtenisse sluit in:

• ’n Persoon is ten minste 21 jaar oud of sy ouers teken die kontrak namens hom.

Gebeurtenis A is dan Die persoon is ten minste 21 jaar oud en Gebeurtenis B is Die

persoon se ouers teken die kontrak namens hom. Dit is ook moontlik dat die persoon

se ouers namens hom teken, selfs al is hy 21 jaar oud.



• Dit reën of dit hael. Gebeurtenis A is Dit reën en Gebeurtenis B is Dit hael. Dit is ook

moontlik dat dit gelyktydig kan reën en hael.

• ’n Toeris is Suid-Afrikaans of Amerikaans. Gebeurtenis A is Die toeris is Suid-

Afrikaans en Gebeurtenis B is Die toeris is Amerikaans. In sommige gevalle is dit

moontlik dat ’n toeris gedeelde burgerskap besit en die gebeurtenisse gelyktydig ook

kan plaasvind.

Daar is egter gevalle waar die twee (of meer) gebeurtenisse nie gelyktydig kan plaasvind nie

(hoewel ’n kreatiewe persoon moontlik aan uitsonderings kan dink!). Voorbeelde sluit in:

• Die ruimtevaarder is op die Aarde of op die Maan.

• Dit is nag of dit is dag (die som van hierdie twee waarskynlikhede sal natuurlik 1

wees – sien Begrip 4).

• Die student se oë is oop of die student nies.

Een woord wat in elk van hierdie stellings voorkom, is die woord “of”. “Of” word gebruik om

samevoeging van twee gebeurtenisse aan te dui. Die Venn-diagram hieronder stel

samevoeging grafies voor. Die behoort ook vir jou ’n aanduiding te gee waarom ons die

woord “samevoeging” gebruik.

Figuur 4.3: Samevoeging voorgestel deur ‘n Venn-diagram

Die twee sirkels stel die waarskynlikhede dat twee gebeurtenisse, A en B, sal plaasvind,

voor. Die grys gedeelte (wat dus die totale oppervlakte van A en B is), stel die

waarskynlikheid voor dat een of albei van A of B sal plaasvind. Die waarskynlikheid dat ten

minste een (of albei) van die gebeurtenisse sal plaasvind, is dus die som van die twee

A B

SAMEVOEGING



waarskynlikhede. Die Venn-diagram hierbo stel slegs waarskynlikhede wat wel gelyktydig

kan plaasvind, voor.

Samevoeging word deur die simbool U voorgestel. Die waarskynlikheid dat Gebeurtenisse A

of B (of beide) sal plaasvind, word deur P(AUB) voorgestel.

Daar is twee formules wat gebruik kan word om samevoeging te bereken. Die keuse van die

formule word bepaal deur die antwoord op die vraag: Is dit moontlik dat beide gebeurtenisse

tegelyk kan plaasvind? Ons sal begin deur na ’n geval te kyk waar twee gebeurtenisse nie

gelyktydig kan plaasvind nie. Die formule wat ons in hierdie geval gebruik, is:

P(AUB) = P(A) + P(B)

Voorbeeld

Die waarskynlikheid dat ’n student by ’n sekere universiteit vir ’n BCom

(Ondernemingsbestuur)-graad ingeskryf is, is 0.42. Die waarskynlikheid dat ’n student by die

universiteit vir ’n BCom (Finansiële bestuur)-graad ingeskryf is, is 0.32. Dit is nie moontlik vir

’n student om vir meer as een kwalifikasie in te skryf nie.

Wat is die waarskynlikheid dat ’n student vir ’n Ondernemingsbestuur- of Finansiële Bestuur-

kwalifikasie ingeskryf is?

Antwoord:

Gestel A = Student is ingeskryf vir Ondernemingsbestuur

Gestel B = Student is ingeskryf vir Finansiële bestuur

Die formule vir die samevoeging is bloot die som van die afsonderlike waarskynlikhede:


= 0.42 + 0.32

= 0.74

Dit kan ook uitgedruk word as ’n persentasie van 74%.

Wanneer die twee gebeurtenisse gelyktydig kan plaasvind, ondervind ons ’n probleem. Kyk

na die volgende waarskynlikhede:

• Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep Suid-Afrikaans is, is 0.75.

• Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep Amerikaans is, is 0.30.



• Die waarskynlikheid dat ’n spesifieke toeris in ’n toergroep beide Amerikaanse en

Suid-Afrikaanse burgerskap het, is 0.05.

Wat is die waarskynlikheid dat ’n toeris Suid-Afrikaans of Amerikaans (of beide) sal wees?

As ons nou die formule vir samevoeging sou toepas, sou dit soos volg lyk:

Gestel A = Die toeris is Suid-Afrikaans

Gestel B = Die toeris is Amerikaans

P(AUB) = 0.75 + 0.3

= 1.05

MAAR ons weet dat ’n waarskynlikheid nooit meer as 1 mag wees nie! Hoe het dit gebeur?

Kom ons stel hierdie geval grafies met behulp van ’n Venn-diagram voor:

Figuur 4.4: Gebeurtenisse wat nie onderling uitsluitlik is nie

Ons kan hierdie Venn-diagram nou aanpas om die spesifieke waarskynlikhede te

weerspieël:

Figuur 4.5: Waarskynlikhede van gebeurtenisse wat nie onderling uitsluitlik is nie

A = 0.75

B = 0.3 A∩∩∩∩B =0.05

A

B A∩B



Die groot verskil tussen hierdie voorbeeld en die vorige voorbeeld, is die feit dat A en B wel

gelyktydig kan plaasvind. As ons Gebeurtenis A se waarskynlikheid (0.75) in ag neem, is die

0.05 van die snydingsgedeelte daarby ingesluit. As ons Gebeurtenis B se waarskynlikheid in

ag neem, is die 0.05 van die snydingsgedeelte ook daarby ingesluit. Wanneer ons die twee

waarskynlikhede (0.75 en 0.3) bymekaartel, dan het ons dus die snydingsgedeelte twee

keer in ag geneem. Om hierdie rede moet ons die snydingsgedeelte een keer van die totaal

aftrek om die samevoeging te vind.

Die formule vir samevoeging, as dit moontlik is vir twee gebeurtenisse om gelyktydig plaas

te vind, is dus:

P(AUB) = P(A) + P(B) – P(A∩∩∩∩B)

Bogenoemde voorbeeld sal dus soos volg bereken kan word:

P(AUB) = P(A) + P(B) – P(A∩∩∩∩B)

= 0.75 + 0.3 – 0.05

= 1

In hierdie geval is die waarskynlikheid van 1 wel aanvaarbaar. Ons kan dus ook aanneem

dat daar in hierdie geval geen ander toeriste in die toergroep is as Suid-Afrikaners en

Amerikaners (of toeriste met gedeelde burgerskap) nie. Hierdie begrip (gesamentlik

uitputbaar) word later bespreek.

Probeer self

Kyk weer na die tabel wat al Vasvat se kliënte volgens provinsies en pakkette indeel.

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577



Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Bereken nou die volgende:

Vraag 1:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng of die Wes-

Kaap sal voorkom?

Vraag 2:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, vir die Wild-en-wakker-

pakket of die Pasgemaakte pakket geregistreer sal wees?

Vraag 3:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in die Vrystaat,

Noordwes of Limpopo sal woon?

Vraag 4:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in Gauteng sal woon of

vir die Wild-en-wakker-pakket geregistreer sal wees?

Antwoorde:

Vraag 1:

Vir elk van die waarskynlikhede moet ons die vraag vra: Is dit moontlik vir die twee

gebeurtenisse om gelyktydig plaas te vind? Vir Vraag 1 is hierdie antwoord “nee”. Dit is nie

moontlik vir ’n kliënt om in beide Gauteng en die Wes-Kaap voor te kom nie. (Ons neem aan

dat geen kliënte twee keer in die tabel voorkom nie.) Die formule wat ons dus gaan gebruik,

is P(AUB) = P(A) + P(B).


Gestel B = Die kliënt woon in die Wes-Kaap

Voordat ons egter die gesamentlike waarskynlikheid kan bereken, moet ons die individuele

waarskynlikhede, P(A) en P(B), bereken.

P(A) = +�

= 356 741 / 1 034 543

= 0.345



P(B) = +�

= 290 867 / 1 034 543

= 0.281

Nou kan ons die gesamentlike waarskynlikheid bereken:


= 0.345 + 0.281

= 0.626

Daar is dus ’n waarskynlikheid van 0.626 dat ’n kliënt wat ewekansig gekies word, in

Gauteng of in die Wes-Kaap woon.

Vraag 2:

Ons moet weer die vraag vra: Is dit moontlik vir die twee gebeurtenisse om gelyktydig plaas

te vind? Is dit dus moontlik dat ’n kliënt vir meer as een pakket op een slag geregistreer is?

Omdat ons aanneem dat ’n kliënt nie twee keer in die tabel ingesluit is nie, gaan ons ook

aanneem dat dit nie moontlik is vir ’n kliënt om vir meer as een pakket op ’n slag geregistreer

te wees nie. Ons kan dus die formule P(AUB) = P(A) + P(B) gebruik.

Gestel A = Die kliënt is vir die Wild-en-wakker-pakket geregistreer


Ons moet weereens eers die afsonderlike waarskynlikhede, P(A) en P(B), bereken:

P(A) = +�

= 787 211 / 1 034 543

= 0.761

P(B) = +�

= 95 117 / 1 034 543

= 0.092

Nou kan ons die samevoeging bereken:


= 0.761 + 0.092



= 0.853

Daar is dus ’n waarskynlikheid van 0.853 (of 85.3%) dat ’n kliënt wat ewekansig gekies

word, vir ’n Wild-en-wakker-pakket of ’n Pasgemaakte pakket geregistreer sal wees.

Vraag 3:

In hierdie vraag is daar drie gebeurtenisse. Die wyse waarop hierdie vraag benader word,

verskil egter nie van die vorige twee vrae nie. Ons moet weereens bepaal of dit moontlik is

dat hierdie gebeurtenisse gelyktydig kan plaasvind. Die antwoord is weereens “nee”. Dit is

nie moontlik vir ’n kliënt om gelyktydig in die Vrystaat, Noordwes en Limpopoprovinsie te

woon nie. (Selfs al sou dit vir ’n kliënt moontlik wees om twee huise in verskillende

provinsies te besit, sou slegs een adres as die hoofadres in Vasvat se databasis voorgekom

het.)

Ons gaan dus dieselfde formule gebruik: P(AUBUC) = P(A) + P(B) + P(C)

Gestel A = Die kliënt woon in die Vrystaat

Gestel B = Die kliënt woon in die Noordwesprovinsie

Gestel C = Die kliënt woon in die Limpopoprovinsie

Ons moet natuurlik eers die afsonderlike waarskynlikhede bereken:

P(A) = +�

= 34 756 / 1 034 543

= 0.034

P(B) = +�

= 88 577 / 1 034 543

= 0.086

P(C) = +�

= 68 462 /1 034 543

= 0.066

Nou kan ons die waarskynlikhede bymekaartel om die samevoeging te vind:

P(AUBUC) = P(A) + P(B) + P(C)

= 0.034 + 0.086 + 0.066



= 0.186

Daar is dus ’n 0.186 waarskynlikheid (of 18.6%) dat ’n kliënt wat ewekansig gekies word, uit

die Vrystaat, Noordwes- of Limpopoprovinsie sal kom.

Vraag 4:

In die laaste vraag kyk ons na twee gebeurtenisse wat wel gelyktydig kan plaasvind. Ons sal

dus in hierdie geval die tweede formule moet gebruik: P(AUB) = P(A) + P(B) – P(A∩B). Dit is

moontlik vir ’n kliënt om in Gauteng te woon en terselfdertyd vir die Wild-en-wakker-pakket

geregistreer te wees.


Gestel B = Die kliënt is vir die Wild-en-wakker-pakket geregistreer

Ons het reeds beide hierdie waarskynlikhede in Vraag 1 en 2 hierbo bereken:

P(A) = 0.345

P(B) = 0.761

Ons moet egter nou ook nou bereken wat die waarskynlikheid is dat ’n ewekansig-gekose

kliënt in Gauteng woon en vir die Wild-en-wakker-pakket geregistreer is, omdat hierdie

waarde deur die formule benodig word.

P(A∩∩∩∩B) = +�

= 289 371 / 1 034 543

= 0.280

Ons kan nou die samevoeging bereken:

P(AUB) = P(A) + P(B) – P(A∩∩∩∩B)

= 0.345 + 0.761 – 0.280

= 0.826

Daar is dus ’n waarskynlikheid van 0.826 (of 82.6%) dat ’n ewekansig-gekose kliënt in

Gauteng woon of vir die Wild-en-wakker-pakket geregistreer is (of beide).

Nota: Jy sal opmerk dat die eerste formule vir samevoeging (wat nie die snyding in ag neem

nie) ook vir jou ’n ongeldige waarskynlikheid van 1.106 (0.345 + 0761) sou gee. Die rede

hiervoor is omdat daar so ’n groot hoeveelheid kliënte is wat beide in Gauteng woon en vir

die Wild-en-wakker-pakket geregistreer is – die snyding van die twee gebeurtenisse is dus

groot.



� Begrip 3: Onderling-uitsluitlike gebeurtenisse

Gebeurtenisse is onderling uitsluitlik indien die gebeurtenisse nie gelyk kan plaasvind nie.

Die volgende is voorbeelde van onderling-uitsluitlike gebeurtenisse:

• ’n Student kan geregistreer wees vir ’n BCom (Ondernemingsbestuur) of vir ’n BCom

(Finansiële bestuur)-graad, maar mag nie vir meer as een kwalifikasie op een slag

geregistreer wees nie.

• ’n Werknemer kan in een van die volgende departemente werk: Finansies, Menslike

hulpbronne, Produksie of Bemarking. Die werknemer kan egter nie in meer as een

departement werksaam wees nie.

’n Venn-diagram sal onderling-uitsluitlike gebeurtenisse soos volg voorstel:

Figuur 4.6: Venn-diagram van onderling-uitsluitlike gebeurtenisse

Uit bogenoemde Venn-diagram is dit duidelik dat A en B nooit tegelyk kan plaasvind nie

omdat die twee sirkels (en dus gebeurtenisse) nooit sny nie. Die waarskynlikheid dat A en B

gelyktydig plaasvind, is dus ’n onmoontlikheid:

P(A∩∩∩∩B) = 0

Waarom is dit belangrik om te weet of gebeurtenisse onderling uitsluitlik is? Die waarde

hiervan kan gesien word in die berekening van ’n samevoeging-waarskynlikheid. Soos

vroeër genoem, bepaal die feit dat gebeurtenisse onderling uitsluitlik is, die formule wat vir

samevoeging gebruik gaan word. As gebeurtenisse wel kan sny (en dus nie onderling

uitsluitlik is nie), word een formule gebruik. Indien dit wel onderling uitsluitlik is, word ’n ander

formule gebruik.

A

B



Probeer dit self

Beskou weer die kliëntegetalle van Vasvat Versekeraars:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Vraag:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies word, in beide Gauteng en die

Wes-Kaap woon?

Antwoord:

Hierdie vraag kan nie met ’n formule bereken word nie. Uit die tabel is dit duidelik dat dit nie

moontlik is vir een kliënt om in Gauteng en die Wes-Kaap te woon nie. Daar is nie ’n

spesifieke sel vir kliënte in beide Gauteng en die Wes-Kaap nie. Die waarskynlikheid sal dus

nul wees:

Gestel A = ’n Kliënt woon in Gauteng

Gestel B = ’n Kliënt woon in die Wes-Kaap

P(A∩∩∩∩B) = 0

Die belangrikheid van konteks:

Om ’n vraag soos hierdie te beantwoord, is dit egter altyd nodig om die konteks rondom die

data te verstaan. As jy bloot die waarskynlikhede A en B ontvang het, sou jy die formule

gebruik het om die waarskynlikheid te bereken. Sonder konteks sou jy dan ’n



waarskynlikheid gevind het. Hierdie antwoord sou egter verkeerd gewees het, bloot omdat

dit nie moontlik is vir ’n enkele kliënt om in beide Gauteng en die Wes-Kaap geregistreer te

wees nie.

� Begrip 4: Gesamentlik uitputbaar

Gebeurtenisse is gesamentlik uitputbaar indien dit alle moontlike gebeurtenisse insluit.

Voorbeelde van gesamentlik-uitputbare gebeurtenisse sluit in:

• Gebeurtenis A = Die skrywer lewe.

Gebeurtenis B = Die skrywer is oorlede.

Daar is nie enige ander moontlike gebeurtenisse wat nie by A of B ingesluit is nie.

Die waarskynlikheid dat A of B waar is, is dus 1 (of 100%).

• Gebeurtenis A = Die kliënt is 21 jaar of jonger.

Gebeurtenis B = Die kliënt is ouer as 21 jaar en jonger as 35.

Gebeurtenis C = Die kliënt is 35 en ouer, maar jonger as 55.

Gebeurtenis D = Die kliënt is 55 jaar en ouer.

Dit is nie moontlik vir ’n kliënt om enige ouderdom te besit wat nie by een van die

bogenoemde gebeurtenisse inpas nie. Die waarskynlikheid vir A of B of C of D om

waar te wees, is 1.

Die belangrikste eienskap van gesamentlik-uitputbare gebeurtenisse is die feit dat die som

van die waarskynlikhede van hierdie gebeurtenisse 1 sal wees. Beskou weer die laaste punt

wat hierbo genoem word:

Gestel A = Die kliënt is 21 jaar of jonger

Gestel B = Die kliënt is ouer as 21 jaar en jonger as 35

Gestel C = Die kliënt is 35 en ouer, maar jonger as 55

Gestel D = Die kliënt is 55 jaar en ouer

Deur na die bogenoemde gebeurtenisse te kyk, is dit onmoontlik om aan enige gebeurtenis

te dink (ten opsigte van die kliënte se ouderdomskategorie) wat nie by een van die

bogenoemde ingesluit is nie. Dus kan ons sê dat:

P(AUBUCUD) = P(A) + P(B) + P(C) + P(D) = 1



Probeer self

Die volgende waarskynlikhede word verskaf:

P(A) = 0.22

P(B) = 0.44

P(C) = 0.13

P(D) = 0.19

P(E) = ?

Dit is bekend dat A, B, C, D en E gesamentlik uitputbaar is.

Bereken P(E).

Antwoord:

Die belangrikste leidraad wat benodig word om hierdie vraag te beantwoord, is die feit dat

die gebeurtenisse gesamentlik uitputbaar is. As gevolg van hierdie feit, mag ons aanvaar dat

die som van al die waarskynlikhede gelyk is aan 1. Sodoende kan ons die uitstaande

waarskynlikheid bereken:

P(AUBUCUDUE) = P(A) + P(B) + P(C) + P(D) + P(E) = 1

Dus:

0.22 + 0.44 + 0.13 + 0.19 + P(E) = 1

Ons kan nou die eenvoudige wiskundige vergelyking oplos deur P(E) as ’n onbekende

veranderlike te hanteer:

0.22 + 0.44 + 0.13 + 0.19 + P(E) = 1

0.98 + P(E) = 1

P(E) = 1 – 0.98

= 0.02

Dus is die waarskynlikheid dat P(E) gaan plaasvind 0.02 (of 2%).

Ons kan ons antwoord toets deur al die waarskynlikhede nou bymekaar te tel. As die totaal 1

is, is ons antwoord korrek omdat die gebeurtenisse gesamentlik uitputbaar is.

P(A) + P(B) + P(C) + P(D) + P(E)

= 0.22 + 0.44 + 0.13 + 0.19 +0.02

= 1



Terug na Vasvat Versekeraars

Beskou weer Vasvat Versekeraars se kliënte-inligting:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Vraag:

Wat is die waarskynlikheid dat ’n kliënt wat ewekansig gekies is, vir die Wild-en-wakker-

pakket, die Vat-dit-kalm-pakket, die Kleindorpie-kind-pakket of die Pasgemaakte pakket

geregistreer sal wees?

Antwoord:

Uit die samestelling van die data is dit duidelik dat al 1 034 543 kliënte vir een van die vier

pakkette geregistreer is. Die vier gebeurtenisse is dus gesamentlike uitputbaar. Ons kan

hierdie stelling egter statisties toets:

Gestel A = Die kliënt is vir die Wild-en-wakker-pakket geregistreer

Gestel B = Die kliënt is vir die Vat-dit-kalm-pakket geregistreer

Gestel C = Die kliënt is vir die Kleindorpie-kind-pakket geregistreer

Gestel D = Die kliënt is vir die Pasgemaakte pakket geregistreer

Ons moet nou elke waarskynlikheid afsonderlik bereken:



P(A) = +�

= 787 211 / 1 034 543

= 0.7609

P(B) = +�

= 50 223 / 1 034 543

= 0.0485

P(C) = +�

= 101 992 / 1 034 543

= 0.0986

P(D) = +�

= 95 117 / 1 034 543

= 0.0919

Om die samevoeging te bereken, gebruik ons die formule vir gebeurtenisse wat onderling

uitsluitlik is, omdat dit nie moontlik is vir ’n enkele kliënt om vir meer as een pakket

geregistreer te wees nie:

P(AUBUCUD) = P(A) + P(B) + P(C) + P(D)

= 0.7609 + 0.0485 + 0.0986 + 0.0919

~ 1

� Begrip 5: Voorwaardelike waarskynlikhede

Met ’n voorwaardelike waarskynlikheid word ’n aanname ten opsigte van een van die

veranderlikes gemaak. Hierdie aannames word as ’n gegewe aanvaar en die

waarskynlikheid word dan bereken. ’n Voorwaardelike waarskynlikheid kan soos volg lyk:

• ’n Ewekansig-gekose kliënt woon in die Wes-Kaap. Wat is die waarskynlikheid dat

daardie kliënt vir die Pasgemaakte pakket geregistreer is?

• Gegewe dat ’n ewekansig-gekose kliënt vir die Wild-en-wakker-pakket geregistreer

is. Wat is die waarskynlikheid dat daardie kliënt in Gauteng woon?



• Gegewe dat ’n ewekansig-gekose kliënt nie in die Limpopoprovinsie woon nie. Wat is

die waarskynlikheid dat daardie kliënt vir die Vat-dit-kalm-pakket geregistreer is?

Indien ’n tabel, soos in die geval van Vasvat Versekeraars se kliënte, beskikbaar is, is ’n

voorwaardelike waarskynlikheid maklik om te bereken. Dieselfde formule kan gebruik word

(+�). Die enigste verskil is die feit dat ons die getalle van ’n kleiner steekproef gebruik.

Voorbeeld

Beskou die kliëntetabel van Vasvat Versekeraars:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt vir die Vat-dit-kalm-pakket

geregistreer is, gegewe dat hierdie kliënt in die Wes-Kaap woon?

Omdat ons dus nou weet dat die kliënt in die Wes-Kaap woon, hoef ons glad nie die data in

die ander provinsies in ag te neem nie. Ons kan dus soos volg na die tabel kyk:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898



Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Ons werk dus nou slegs met die Wes-Kaap se data. Die voorwaardelike waarskynlikheid

kan dus soos volg bereken word:

Gestel A = Die kliënt is vir die Vat-dit-kalm-pakket geregistreer

Gestel B = Die kliënt woon in die Wes-Kaap (gegewe)

P(A/B) = +�

= 7 384 / 290 867

= 0.025

Probeer self

Beskou die kliëntetabel van Vasvat Versekeraars:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543



Vraag 1:

Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt in die Vrystaat sal woon, gegewe

die feit dat die kliënt vir die Pasgemaakte pakket geregistreer is?

Vraag 2:

Wat is die waarskynlikheid dat ’n ewekansig-gekose kliënt vir die Wild-en-wakker-pakket

geregistreer sal wees, gegewe dat hierdie kliënt in Gauteng of die Wes-Kaap woon?

Antwoord 1:

In hierdie geval kan ons weer die meeste van die data in die tabel ignoreer en slegs fokus op

die kliëntegetalle van die Pasgemaakte pakket (gegee). Die tabel sal dan soos volg lyk:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-

Natal

94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Gestel A = Die kliënt woon in die Vrystaat

Gestel B = Die kliënt is vir die Pasgemaakte pakket geregistreer (gegewe)

P(A/B) = +�

= 1 960 / 95 117

= 0.021



Antwoord 2:

In hierdie geval word die steekproef ook verklein. In plaas daarvan om een ry of kolom te

kies, word twee rye (Gauteng en Wes-Kaap) van die tabel ingesluit. Ons tabel sal dus soos

volg lyk:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898

Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Ons het egter nou die totale van die samevoeging ook nodig: Ons steekproef bestaan uit alle

kliënte in Gauteng en die Wes-Kaap. ’n Nuwe tabel met die totale sal soos volg lyk:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

TOTAAL 478 942 16 528 86 872 65 266 647 608

Gestel A = ’n Kliënt is vir die Wild-en-wakker-pakket geregistreer

Gestel B = ’n Kliënt woon in Gauteng of die Wes-Kaap

P(A/B) = +�

= 478 942 / 647 608

= 0.74



� Begrip 6: Statistiese afhanklikheid

Vervolg…

Michael en Vanessa kyk na Vasvat se kliëntegetalle. Hulle is al vir twee dae besig met

waarskynlikhede en het nog nie eens na die ander data gekyk nie.

Vanessa dink skielik aan iets: “Is die provinsie waarin ’n kliënt woon en die pakket waarvoor

die kliënt ingeskryf het, statisties afhanklik?”

“Ja.”

Vanessa bars uit van die lag. “Jy het nie eers daaroor gedink nie!”

“Ek het. Gister al.”

“Ek is die ene ore. Hoe het jy tot jou gevolgtrekking gekom?”

Michael trek 'n ander lêer nader. “Ek het 'n bietjie data gaan versamel. En ’n paar

berekeninge gedoen.”

“Mooi,” sê Vanessa. “Teoretiese en statistiese argumente. Kom ons begin by die teorie.

Waarom dink jy is die twee veranderlikes afhanklik van mekaar?”

Michael dink ’n oomblik voordat hy begin praat. “Wel, ek het na die definisie van statistiese

onafhanklikheid gekyk. As die twee veranderlikes onafhanklik was, sou kliënte se keuse

van ’n pakket dieselfde gewees het, ongeag van die provinsie waarin hulle woon.”

“En jy is van mening dat dit nie geval is nie?” vra Vanessa.

Michael skud sy kop. “Daar is te veel faktore wat eie is aan ’n provinsie, wat ’n kliënt se

keuse van pakket kan beïnvloed.”

“Soos?”

“Die ouderdom van die populasie. Die misdaadsyfers. Die vlak van opleiding van die meeste

van die bevolking. Kulture. Dit maak net nie sin dat iemand se provinsie nie ’n rol kan speel

in die keuse van ’n versekeringspakket nie.”

“Sou jy dus sê dat ’n kliënt se provinsie sy of haar keuse van ’n produk beïnvloed?”

Michael huiwer vir 'n oomblik. “Ek is versigtig om so ’n stelling te maak.”

“Hoekom?”

“Want statistiese afhanklikheid beteken nie noodwendig dat die een ’n invloed op die ander

het nie. Daar kan ’n derde veranderlike wees wat ook ’n invloed op beide faktore het.”



Vanessa wag vir Michael om te verduidelik.

“Kom ons probeer ’n ander voorbeeld. Navorsers vind dat roomysverkope by ’n spesifieke

strand tydens sekere maande hoër is as ander maande. Hulle vind ook dat die verkope van

swemkostuums by dieselfde strand hoër is in dieselfde maande as roomysverkope. Is

roomysverkope en verkope van swemklere statisties afhanklik? Ja? Beïnvloed

roomysverkope die verkope van swemkostuums? Nee. Beide word deur die hoeveelheid

besoekers aan die strand beïnvloed, wat weer weer beïnvloed word deur die klimaat.”

“Goed gestel,” antwoord Vanessa. “Jy het my oortuig dat, vanuit ’n logiese of teoretiese

perspektief, provinsie en keuse van pakket van mekaar afhanklik is. Het jy enige statistiese

bewyse?”

Michael maak die lêer oop. “Inderdaad,” sê hy. “My argument is: Indien provinsie en keuse

van ’n pakket onafhanklik is, sal die waarskynlikheid dat ’n kliënt ’n pakket kies, dieselfde

bly, ongeag van die provinsie waarin die kliënt woon.”

“Dit maak sin. Hoe het jy die berekening gedoen?”

Michael skuif ’n bladsy oor die tafel na Vanessa. Vanessa sien die volgende som:

Die waarskynlikheid dat ’n ewekansig-gekose kliënt die Wild-en-wakker-pakket sal kies:

P(A) = +�

= 787 211/ 1 034 543

= 0.761

Indien ek egter vooraf weet dat die kliënt beslis in Gauteng woon, wat sal die

waarskynlikheid wees dat daardie kliënt die Wild-en-wakker-pakket kies?

P(A/B) = +�

= 289 371 / 356 741

= 0.811

Dit is dus duidelik dat die twee waarskynlikhede verskil.

Vanessa neem ’n oomblik om die opsomming te lees. “Verduidelik jou tweede

waarskynlikheid vir my. Waarom gebruik jy nie die totale hoeveelheid kliënte, die 1 034 543,

in jou berekening nie?”

“Want dit is ’n voorwaardelike waarskynlikheid. Dit is die logika van die berekening. Met

die eerste waarskynlikheid kyk ek wat die kans is dat ’n ewekansig-gekose persoon uit alle



provinsies die Wild-en-wakker-pakket gaan kies. Met die tweede een skep ek ’n kleiner

steekproef – slegs die kliënte in Gauteng – en kyk of die waarskynlikheid vir ’n kliënt om die

Wild-en-wakker-pakket te kies, dieselfde bly.”

“En in hierdie geval het dit nie gebeur nie,” bevestig Vanessa.

“Presies. Die waarskynlikheid dat ’n kliënt uit die hele populasie die Wild-en-wakker-pakket

gaan kies, is kleiner as die waarskynlikheid dat iemand uit Gauteng die Wild-en-wakker-

pakket gaan kies. Dus is die waarskynlikheid wel afhanklik van die provinsie. En dus is

provinsie en keuse van ’n pakket statisties afhanklik.”

Vanessa sit glimlaggend terug. “As ’n beroep in Statistiek nie vir jou uitwerk nie, kan jy gerus

’n loopbaan in die onderwys oorweeg.”

Die formule vir die afhanklikheidstoets wat Michael hierbo gebruik het, kan soos volg

voorgestel word:

P(A/B) = P(A)

Die voorwaardelike waarskynlikheid, P(A/B), kan beskryf word as: Die waarskynlikheid dat

Gebeurtenis A gaan plaasvind as ons weet dat Gebeurtenis B wel waar is. In die

bogenoemde geval was dit:

Gebeurtenis A = ’n Kliënt kies die Wild-en-wakker-pakket

Gebeurtenis B = ’n Kliënt woon in Gauteng

Dus is die vraag wat ons vra: As ons weet dat ’n kliënt in Gauteng woon, sal die

waarskynlikheid dat daardie kliënt die Wild-en-wakker-pakket kies dieselfde wees as

wanneer ons nie weet in watter provinsie hy/sy woon nie?

Om P(A/B) te bereken, gebruik ons slegs Gauteng se kliënte. Ons kyk nie eens na kliënte in

die ander provinsies nie. Daar is 356 741 kliënte in Gauteng. Wat is die waarskynlikheid dat

’n ewekansig-gekose Gauteng-kliënt die Wild-en-wakker-pakket gaan kies? Daar is tans 289

371 kliënte in Gauteng wat vir die Wild-en-wakker-pakket geregistreer is. Daarom is:

P(A/B) = +� (Slegs vir Gauteng)

= 289 371 / 356 741

= 0.811

En omdat die waarskynlikheid vir slegs Gauteng verskil van die waarskynlikheid van die hele

land, kan ons aflei dat die twee veranderlikes, provinsie en keuse van pakket, statisties

afhanklik is.



4.3 Telreëls

Vervolg…

“Hallo. Michael?”

Michael word na die werklikheid terug geruk en kyk op. Vir ’n oomblik is hy verward. “Ja?”

“Ek is Sonja. Ons het so vinnig by die StatInc partytjie ontmoet.”

Dan onthou Michael wie die meisie is. “Natuurlik. Ek het jou nie sonder die lemmetjiegroen-

en-pienk rok herken nie."

Sonja word nie van stryk gebring nie. “Dit was die tema van die partytjie.”

“’n Kleurvolle toekoms. En toe daag ek op met ’n professor se toga.”

Sonja lag. “Opvoeding is die belangrikste pad na ’n kleurvolle toekoms.”

“Ek is bly jy het die simboliek raakgesien. Opleiding is nie die enigste pad na sukses nie,

maar dit help baie.”

“Ja, dit, en as jy die maatskappy se lotery wen.”

Michael het nog nie van die maatskappy se lotery gehoor nie. Sonja merk dit op en

verduidelik.

“Daar is elke jaar ’n kompetisie waaraan personeel kan deelneem.” Sonja gaan sit sonder

om uitgenooi te word. Nie dat Michael omgee nie – almal is mal oor die vrolike meisie van

Bemarking. “Een personeellid kan op ’n gratis toer na drie Europese lande gaan. Al wat jy

moet doen, is om te raai watter drie lande hierdie jaar deel van die toer uitmaak. Die een wat

die regte drie lande raai, kan op die toer gaan.”

“Ek neem aan studente wat hul internskap doen, kwalifiseer nie.”

“Wel, die een wat wen mag vier vriende saamneem.”

Michael se hart maak ’n sprong. Dit is een van sy grootste drome om oorsee te gaan. En sy

gunsteling bestemming is juis Europa. Hy is nie seker of hy Sonja reg verstaan het nie.

“Waar pas ek in die prentjie in?”

“Wel, as jy my help wen, dan kan jy saamkom.”

“Hoe is ek veronderstel om dit reg te kry?”

“Jy is die statistikus. Jy behoort te weet. Watter lande het die grootste kans om gekies te

word?”



“Jy kry nie baie met Statistiek te doen nie, né?" Michael se stem is vriendelik. Sonja lag

weer.

“As ek ’n statistikus was, sou ek nie nou hier gewees het nie. Ek sou myself kon help.”

Michael oorweeg dit ’n oomblik. “Uit hoeveel lande kan jy kies?”

Sonja bring ’n lys te voorskyn. “Daar is twaalf lande. Ek moet drie kies.”

“Die eerste stap sal wees om te bepaal wat jou kanse is om die regte lande te kies, sou elke

lande ewekansig gekies word.”

“Ewekansig?”

“Random. Lukraak. Elke land se kans om gekies te word, is ewe groot.” Michael gryp sy

sakrekenaar en ’n stuk papier. Sonja hou hom geïnteresseerd dop. Na ’n rukkie gee Michael

vir haar die papier.

“Jou kans om die regte drie lande te kies is 0.0045. Dit is minder as ’n halfpersent.”

Sonja kyk hom geskok aan. “Hoe weet jy dit?”

“Jou kans is een uit 220.”

Sonja is nog steeds verward. Michael verduidelik.

“Die berekening wat ek gebruik het, is ’n kombinasie,” sê hy. “Ek het gaan uitwerk hoeveel

verskillende kombinasies van lande jy kan raai. Uit ’n groep van twaalf, kan jy 220 moontlike

kombinasies kies.”

“En hoe kom jy by die halfpersent uit?”

“Minder as ’n halfpersent. Wel, uit daardie 220 moontlike kombinasies, is daar slegs een

kombinasie wat reg is. So jy het ’n kans van een uit 220 om die regte kombinasie te kies.

Jou waarskynlikheid van die korrekte keuse is dus een gedeel deur 220.”

“Dis onmoontlik,” sê Sonja, afgehaal.

“Dis makliker as die nasionale lotery. Daar is jou kanse 0.0000072 persent, met meer as 13

miljoen verskillende kombinasies. Jy kan bly wees dat jy nie die lande in ’n spesifieke

volgorde moet plaas nie. Dit sou die waarskynlikheid nog laer gemaak het.”

“Minder as ’n halfpersent is nog steeds baie laag.”

“Jammer,” sê Michael, “maar jou kans om ryk te word deur harde werk en innovasie is baie

groter as met ’n lotery.”

“Dan moet ek maar weer terugkom by my lessenaar. Ek het ’n berg werk wat wag.”



Sonja maak aanstaltes.

“Sonja!” Sy draai om as Michael haar terugroep.

“Kies Nederland, Frankryk en Engeland.”

“Hoekom?”

“Dit is my gunsteling lande. As jy wen, is dit die lande wat ek graag sal wil besoek.”

Sonja oorweeg dit ’n oomblik. “Parys. Londen. Amsterdam. Ek hou van die idee.”

� Wat is kombinasies?

Die voorbeeld wat hierbo genoem is, behoort ’n baie goeie aanduiding te verskaf van wat

kombinasies is. Om die hoeveelheid moontlike kombinasies te bereken, word twee

veranderlikes of waardes benodig. Die eerste is die hoeveelheid voorwerpe waaruit gekies

kan word. In die StatInc-kompetisie is dit die twaalf lande waaruit Sonja moet kies. Hierdie

waarde word deur die simbool n voorgestel.

Die tweede veranderlike wat nodig is, is die hoeveelheid voorwerpe wat gekies kan word. In

StatInc se kompetisie, moet Sonja drie lande kies. Hierdie waarde word met die simbool r

voorgestel.

• Faktoriaal

Voordat die formule vir ’n kombinasie bespreek kan word, is dit eers belangrik om te

verduidelik wat ’n faktoriaal is. Faktoriaal word deur ’n uitroepteken (!) voorgestel. Die

faktoriaal van enige getal is die produk (vermenigvuldiging) van al die positiewe heelgetalle

wat kleiner as daardie getal is. Byvoorbeeld:

Vyf faktoriaal is 5 x 4 x 3 x 2 x 1, wat 120 is. Die som sal soos volg voorgestel word:

5!

= 5 x 4 x 3 x 2 x 1

= 120

Probeer dit self

Vraag 1:

Bereken 3!

Vraag 2:



Bereken 10!

Antwoord 1:

3!

= 3 x 2 x 1

= 6

Antwoord 2:

10!

= 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 x 1

= 3 628 880

Let wel: Die faktoriaal van 0 sal altyd 1 wees. Dus 0! = 1.

Formule vir ’n kombinasie:

’n Kombinasie se formule kan soos volg voorgestel word:

nCr = �!+!�� +�!

Soos hierbo genoem, stel die simbole die volgende voor:

• n is die totale hoeveelheid objekte of voorwerpe waaruit gekies kan word.

• r is die hoeveelheid objekte of voorwerp wat gekies moet word.

Die belangrikste eienskap van ’n kombinasie is dat die volgorde waarin die objekte of

voorwerpe gekies word nie belangrik is nie.

Hoe het Michael die hoeveelheid kombinasies waarvolgens lande gekies kan word,

uitgewerk? Vir hierdie som het Michael twee waardes nodig gehad, naamlik n en r:

• n is 12, omdat daar twaalf lande is waaruit Sonja kan kies.

• r is 3, omdat Sonja drie lande moet kies.

Nou kan die formule toegepas word:

nCr = �!+!�� +�!

12C3 = ��!�!�� !



= ��

= 220

Daar is dus 220 verskillende kombinasies van lande wat gekies kan word. Voorbeelde van

kombinasies wat Sonja kan kies is:

• Engeland, Frankryk, Nederland

• Engeland, Frankryk, België

• Engeland, Nederland, België

• Frankryk, Nederland, België

• Engeland, Duitsland, Nederland

Elk van die bogenoemde is ’n kombinasie, en daar is 220 van hierdie kombinasies wat

moontlik gekies kan word. Wat is die waarskynlikheid dat een van hierdie kombinasies

gekies kan word?

Die waarskynlikheid dat een spesifieke kombinasie gekies kan word, is maklik om te

bereken: Wat is die waarskynlikheid dat, uit 220 moontlik kombinasies, een spesifieke

kombinasie ewekansig gekies kan word?

Gestel A = die korrekte een kombinasie word gekies

P(A) = 1 / 220

= 0.0045

Daar is dus ’n 0.45% kans dat Sonja die korrekte kombinasie van lande sal kies.

Probeer dit self

Vasvat Versekeraars het kliënte in al nege provinsies. Mnr. Louw is ’n bemarkingsbestuurder

by Vasvat Versekeraars. Die topbestuur van Vasvat het besluit om aan mnr. Louw drie

provinsies toe te ken. Mnr. Louw sal dan beheer oor die bemarking in daardie provinsies

bestuur. Mnr. Louw weet nie watter provinsies aan hom toegeken gaan word nie. Jy mag

aanneem dat elke provinsie dieselfde kans het om aan mnr. Louw toegeken te word.

Vraag 1:

Hoeveel verskillende moontlike kombinasies van provinsies kan aan mnr. Louw toegeken

word?

Vraag 2:



Wat is die waarskynlikheid dat Gauteng, Vrystaat en die Limpopoprovinsie aan mnr. Louw

toegeken gaan word?

Antwoord 1:

Daar is nege provinsies en elk het dieselfde kans om in ’n groep van drie provinsies ingesluit

te word. Die bestuur moet dus drie provinsies uit nege moontlike provinsies kies. Die

hoeveelheid moontlike kombinasies van drie provinsies moet dus bereken word. Die

volgorde van die provinsies is nie belangrik nie. Voorbeelde van hierdie kombinasies is:

• Gauteng, Vrystaat, Wes-Kaap

• Gauteng, Wes-Kaap, Limpopo

• Wes-Kaap, Vrystaat, Noord-Kaap

• ...en nog baie meer

Om die hoeveelheid kombinasies te bereken, kan die formule gebruik word:

nCr = �!+!�� +�!

waar:

• n = 9

• r = 3

9C3 = �!�!�� !

= ��

= 84

Daar is dus 84 moontlike kombinasies van provinsies wat aan mnr. Louw toegeken kan

word.

Antwoord 2:

Een van die 84 kombinasies wat aan mnr. Louw toegeken kan word, is Gauteng, Vrystaat en

Limpopo. Die waarskynlikheid dat hierdie kombinasie toegeken word, is dus een uit 84.

Gestel A = Gauteng, Vrystaat en Limpopo word aan mnr. Louw toegeken

P(A)

= 1 / 84



= 0.012

Daar is dus ’n 1.2% kans dat mnr. Louw as bemarkingsbestuurder oor Gauteng, Vrystaat en

die Limpopoprovinsie aangestel kan word.

� Permutasies

Vervolg…

“Ek het ’n interessante gesprek met Vasvat Versekeraars gehad,” begin Vanessa tydens

haar en Michael se daaglikse ontmoeting vir koffie voor werk.

“Ek dink enige gesprek met Vasvat Versekeraars is interessant,” sê Michael.

Vanessa gee toe. “Hierdie gesprek was egter met hul bemarkingsbestuurder. Hy het my

raad gevra oor die uitleg van hul stalletjies by ’n finansiële kongres.”

“Wat het dit met statistiek te doen?”

“Nie veel nie. Hulle benodig ’n hele stalletjie per pakket. Hy wou weet wat die beste volgorde

is om hul pakkette uit te stal. Een stalletjie is by die deur en die ander is ’n paar treë verder.

Die Wild-en-wakker-pakket is die gewildste. Die kans is dus goed dat voornemende kliënte

daarin sal belangstel. Die Pasgemaakte pakket is nog baie nuut en hulle wil dit behoorlik

bemark. En dan is daar nog genoeg redes om die ander pakkette ook in te sluit.”

“En hulle wil weet wat die beste volgorde is waarin hul pakkette uitgestal kan word?”

“Die probleem is: Hulle het net twee stalletjies en kan dus net twee pakkette uitstal. Hulle

moet dus eers besluit watter twee pakkette hulle gaan uitstal, en dan die volgorde waarin dit

uitgestal gaan word. Watter een is eerste – en dus naby die deur – en watter pakket is

tweede.”

“Wat het jy gesê?” vra Michael, wat self nie weet wat hy in die situasie sou doen nie.

“Ek het vir hom gesê dat daar ’n 8.3% kans is dat die Wild-en-Wakker-pakket eerste sou

wees, gevolg die pasgemaakte pakket. Toe het ek genoem dat ek ’n statistikus is en nie ’n

bemarkingsbestuurder nie en nog koffie bestel.”

Michael bars uit van die lag. “Ek kan nie glo wat ek hoor nie. Was hy omgekrap?”

“Nee, hy wou dadelik meer weet van permutasies en kort voor lank was die

bemarkingsprobleem vergete.”



• Wat is ’n permutasie?

’n Permutasie is soortgelyk aan ’n kombinasie. Vir enige gegewe datastel sal daar egter

meer permutasies as kombinasies wees. Met ’n permutasie sal die volgorde waarin die

verskillende objekte gekies word, van belang wees.

Gestel daar is vier persone waarvan drie vir ’n spesifieke span gekies moet word: Adam,

Bessie, Carel en Danelle. Die verskil tussen kombinasies en permutasies kan in die

volgende tabel voorgestel word:

Kombinasies

(Alle moontlikhede, volgorde is nie belangrik

nie)

Permutasies

(Volgorde is belangrik)

Die span bestaan uit: Adam, Bessie en Carel Plek A: Adam

Plek B: Bessie

Plek C: Carel

Die span bestaan uit: Adam, Bessie en

Danelle

Plek A: Adam

Plek B: Carel

Plek C: Bessie

Die span bestaan uit: Adam, Carel en

Danelle

Plek A: Carel

Plek B: Adam

Plek C: Bessie

Die span bestaan uit: Bessie en Carel en

Danelle

Plek A: Carel

Plek B: Bessie

Plek C: Adam

Plek A: Bessie

Plek B: Adam

Plek C: Carel

Plek A: Bessie

Plek B: Carel

Plek C: Adam

En nog 18 ander moontlik permutasies as

ons Danelle ook in berekening bring!



Wanneer die volgorde van die keuses wat gemaak word, belangrik is, is daar dus baie meer

moontlikhede wat gekies kan word. Dit is om hierdie rede dat Michael vir Sonja gesê het dat

sy bly kan wees dat die lande nie in ’n spesifieke volgorde gekies moet word nie.

Die formule vir ’n permutasie lyk soos volg:

nPr = �!��+�!

Hier stel n weereens die hoeveelheid objekte waaruit gekies kan word, voor. r stel die

hoeveelheid objekte wat gekies moet word, voor. In die geval van die voorbeeld in die tabel

hierbo, is daar dus vier moontlike persone wat vir die span gekies kan word (n = 4). Drie

persone moet gekies word (r = 3). Die belangrikste aanduiding dat permutasies se formule

gebruik moet word, is die aanduiding dat volgorde belangrik is. [Adam, Bessie, Carel] sal

verskil van [Bessie, Carel, Adam]. Dit is natuurlik nie die geval by kombinasies nie. In so ’n

geval sal [Adam, Bessie, Carel] presies dieselfde kombinasie as [Bessie, Carel, Adam] wees

en slegs een keer getel word.

Ons kan dus nou die bogenoemde permutasie soos volg bereken:

nPr = �!��+�!

waar:

• n = 4

• r = 3

4P3 = �!��!

= 24 / 1

= 24

Daar is dus 24 moontlike wyses waarop drie van die vier persone gekies kan word as die

volgorde waarin hulle gekies word, belangrik is.

Wat is die waarskynlikheid dat drie persone soos volg gekies kan word?

• Plek A: Adam

• Plek B: Bessie

• Plek C: Carel



Ons weet dat daar 24 verskillende permutasies is waarvan hierdie slegs een is. Die

waarskynlikheid dat hierdie permutasie gekies kan word, is dus 1 uit 24. Die waarskynlikheid

kan dus soos volg bereken word:

Gestel A = Die volgende permutasie word gekies:

• Plek A: Adam

• Plek B: Bessie

• Plek C: Carel

P(A) = 1 / 24

= 0.042

Daar is dus ’n waarskynlikheid van 0.042 (of 4.2%) dat Adam in Plek A, Bessie in Plek B en

Carel in Plek C, uit Adam, Bessie, Carel en Danelle gekies sal word.

Vasvat se bemarking

Hoe het Vanessa by die 8.3% uitgekom?

Vasvat het vier pakkette waaruit hulle twee moet kies. Die volgorde waarin hierdie twee

pakkette gerangskik moet word, is belangrik. Ons moet dus die permutasies bereken.

4P2 = �!��!

= 24 / 2

= 12

Daar is dus twaalf permutasies.

Wat is die waarskynlikheid dat die volgende permutasie gekies sal word?

• Eerste: Wild-en-wakker-pakket

• Tweede: Pasgemaakte pakket

Hierdie is een van die twaalf permutasies. Daar is dus ’n 1 uit 12 kans dat hierdie permutasie

gekies kan word.

Gestel A = Die volgende permutasie word gekies:

• Eerste: Wild-en-wakker-pakket

• Tweede: Pasgemaakte packet



P(A) = 1 / 12

= 0.083

Daar is dus ’n 0.083 (of 8.3%) kans dat die Wild-en-wakker-pakket eerste uitgestal sal word,

gevolg deur die Pasgemaakte pakket.

Ten slotte

Hierdie hoofstuk het ’n deeglike inleiding tot waarskynlikhede verskaf. Waarskynlikhede

word egter nie altyd op hierdie wyse bereken nie. Die volgende hoofstuk sal

waarskynlikheidverspreidings gebruik om waarskynlikhede te bereken. In hierdie hoofstuk

het ons slegs twee waardes gebruik: r en n. Ons het bestaande of historiese data gebruik

om die waarskynlikhede te bereken.

Deur na die aard van data te kyk, is dit egter moontlik om te sien dat sekere gebeurtenisse

patrone volg. Hierdie patrone kwalifiseer die waarskynlikheid om deur middel van ’n

spesifieke formule of waarskynlikheidverspreiding opgelos te word.

Hierdie drie verspreidings sal in die volgende hoofstuk bespreek word.



Notas


©akademia (MSW)| Hoofstuk 5: Waarskynlikheidverspreidings 131

HHOOOOFFSSTTUUKK 55:: WWAAAARRSSKKYYNNLLIIKKHHEEIIDDVVEERRSSPPRREEIIDDIINNGGSS

Onderwerpe

5.1 Inleiding

5.2 Die binominale verspreiding

5.3 Die Poisson-verspreiding

Wat is ‘n Poisson-verspreiding?

5.4 Die normaalverdeling

Wat is ‘n normaalverdeling?

Wat is kontinue data?

Twee tipes normaalverdelings


132 Hoofstuk 5: Waarskynlikheidverspreidings | ©akademia (MSW)

5.1 Inleiding

Soos aan die einde van Hoofstuk 4 genoem is, is dit redelik eenvoudig om ’n marginale

waarskynlikheid te bereken. ’n Marginale waarskynlikheid word deur die volgende formule

bereken:

P = +�

Om ’n marginale waarskynlikheid te bereken het ons dus net ’n waarde vir n en ’n waarde vir

r nodig. Beskou nou die volgende vrae:

• Wat is die waarskynlikheid dat ’n masjien meer as drie keer per jaar sal breek as dit

bekend is dat ’n masjien gemiddeld twee keer per jaar breek?

• Wat is die waarskynlikheid dat drie uit vyf kliënte ’n produk sal koop as die

waarskynlikheid dat een kliënt die produk sal koop, 0.4 is?

Hierdie waarskynlikhede is ietwat meer kompleks. Hierdie tipe waarskynlikhede word met

ander tegnieke opgelos.

Wanneer ’n waarskynlikheid (of die waarskynlikheidsprobleem) aan sekere vereistes

voldoen, is dit moontlik om dit as ’n waarskynlikheidverspreiding te klassifiseer. Sodra ’n

spesifieke waarskynlikheid wat bereken moet word, deel van ’n waarskynlikheidverspreiding

uitmaak, kan daardie waarskynlikheid met behulp van ’n spesifieke formule opgelos word.

Elke waarskynlikheidverspreiding het sy eie stel voorwaardes en formule. Drie belangrike

waarskynlikheidverspreidings is:

• die binominale verspreiding

• die Poisson-verspreiding

• die normaalverdeling

Die laaste verdeling is veral van belang vir hierdie vak omdat dit die grondslag vorm vir

berekeninge wat in die res van hierdie gids behandel gaan word. Elke

waarskynlikheidverspreiding sal hieronder bespreek word:

5.2 Die binominale verspreiding

Ons lees verder…

“Hy is regtig goed,” fluister Michael.

“Hy is obsessief oor sy besigheid,” fluister Vanessa terug.



Michael en Vanessa is genooi na een van Vasvat se bemarkingsessies. Walter Blignaut, die

bemarkingsbestuurder van Vasvat Versekeraars, is besig om ’n groep kliënte toe te spreek.

“Wie het al versekering oor die foon probeer koop?” vra Walter die groep kliënte. “Dit neem

ten minste ’n halfuur se telefoongesprek! Tyd wat jy aan iets anders kon spandeer. Dit is

waar Vasvat Versekeraars ander is. Baie anders. En beter.”

Vanessa neem ’n stukkie papier en skryf vir Michael ’n boodskap. Hoeveel mense dink jy

gaan Vasvat-produkte koop? Michael antwoord, sonder om te dink: Almal. Vanessa is vir ’n

oomblik stil. Watter pakket sal hulle koop? skryf sy.

Michael kyk vir ’n oomblik na die verskillende kliënte wat meegevoer is deur Walter se

passievolle aanbieding. Beslis Vat-dit-kalm. Ten minste die helfte van hulle is ouer as

veertig. Vanessa glimlag: Wil jy wed?

Ek is ’n statistikus. Ek dobbel nie, is al antwoord wat sy kry.

“Wat is die waarskynlikheid dat agtien persone die Vat-dit-kalm-pakket gaan kies?” fluister

Vanessa vir hom.

“Hoekom agtien?” fluister Michael terug.

Vanessa glimlag net. Michael trek ’n nuwe vel papier nader. Hy is in sy noppies: uiteindelik

iets om hom mee besig te hou. Hy skryf die volgende op die papier:

Hoeveelheid persone: 20

Waarskynlikheid dat iemand die Vat-dit-kalm-pakket kan kies? Geskat

op 0.049 (provinsies onbekend?!)

Sukses = ’n Persoon kies Vat-dit-kalm

Mislukking = ’n Persoon kies nie Vat-dit-kalm nie

Binominale verspreiding!! x = 18

Na ’n rits berekeninge wys hy die papier vir Vanessa:

Daar is ’nDaar is ’nDaar is ’nDaar is ’n 0.00013 waarskynlikh0.00013 waarskynlikh0.00013 waarskynlikh0.00013 waarskynlikheid dat 18 persone die Vateid dat 18 persone die Vateid dat 18 persone die Vateid dat 18 persone die Vat----ditditditdit----kalmkalmkalmkalm----

pakket gaan kies. pakket gaan kies. pakket gaan kies. pakket gaan kies.

Vanessa se oë rek: Michael hou nooit op om haar te beïndruk nie.

Die binominale verspreiding word gebruik om waarskynlikhede op te los waar slegs twee

uitkomste – ’n sukses en ’n mislukking – kan plaasvind. Die eienskappe van ’n binominale



verspreiding (en dus die vereistes vir ’n spesifieke scenario om met die binominale

verspreiding opgelos te word) is:

• Daar moet ’n gebeurtenis wees met slegs twee uitkomste: sukses en mislukking. In

die gevallestudie se geval is die gebeurtenis soos volg:

o Sukses: ’n Kliënt kies die Vat-dit-kalm-pakket

o Mislukking: ’n Kliënt kies nie die Vat-dit-kalm-pakket nie

• Die gebeurtenisse is gesamentlik uitputbaar. Dit moet dus nie moontlik wees vir

enige ander uitkoms om plaas te vind nie. In die gevallestudie hierbo is dit die geval:

’n Kliënt kan die Vat-dit-kalm-pakket kies, of die kliënt kan nie die Vat-dit-kalm-pakket

kies nie. Daar is geen ander opsie nie. As die kliënt, byvoorbeeld, besluit om die

Wild-en-wakker-pakket te kies, is dit presies dieselfde as ’n mislukking (die kliënt kies

nie die Vat-dit-kalm-pakket nie).

• Die waarskynlikheid van ’n sukses moet bekend wees. In die gevallestudie hierbo

moet die waarskynlikheid dat ’n kliënt die Vat-dit-kalm-pakket kies, bekend wees.

Ons het in die vorige hoofstuk hierdie tipe (marginale) waarskynlikheid met die tabel

en die formule bereken.

Die formule vir die binominale verspreiding is:

P(x) = nCxpx(1 – p)n-x

Hierdie formule sal deur middel van ’n voorbeeld verduidelik word.

Voorbeeld

Dit is bekend dat een uit elke vyf kliënte wat ’n sekere winkelsentrum besoek, by die

restaurant Bessie se Kombuis gaan eet. Gestel dat vyf kliënte op ’n sekere tydstip die

winkelsentrum besoek.

Vraag 1:

Wat is die waarskynlikheid dat twee van hierdie kliënte by Bessie se Kombuis gaan eet?

Vraag 2:

Wat is die waarskynlikheid dat al drie van die vyf kliënte by Bessie se Kombuis gaan eet?

Vraag 3:

Wat is die waarskynlikheid dat minder as drie van die vyf kliënte by Bessie se Kombuis gaan

eet?



Vraag 4:

Wat is die waarskynlikheid dat ten minste een van die vyf kliënte by Bessie se Kombuis

gaan eet?

Antwoorde:

Voordat ons die antwoorde vir die afsonderlike vrae kan bepaal, moet ons eers die inligting

tot ons beskikking ontleed:

Hierdie is ’n binominale verspreiding – daar is slegs twee moontlike uitkomste:

• Sukses: ’n Kliënt eet by Bessie se Kombuis.

• Mislukking: ’n Kliënt eet nie by Bessie se kombuis nie.

Dit is bekend dat een uit elke vyf kliënte wat die winkelsentrum besoek, ook by Bessie se

Kombuis gaan eet. Die waarskynlikheid van ’n sukses is dus een uit vyf:

• P(sukses) = 1/5 = 0.2

• P(mislukking) = 1 – p (sukses) = 1 – 0.2 = 0.8

• Die veranderlike x verskil van vraag tot vraag. Die veranderlike n sal vir al drie vrae

dieselfde bly:

• n = 5 (daar is vyf kliënte wat by die sentrum instap)

Antwoord 1:

Om die waarskynlikheid van twee suksesse uit die vyf te bereken, kan die formule vir ’n

binominale verspreiding gebruik word. n is, soos hierbo genoem, 5. x sal in hierdie geval 2

wees omdat ons die waarskynlikheid dat twee kliënte by Bessie se Kombuis eet, wil bepaal.

Ons pas dus nou die binominale verspreiding se formule soos volg toe:


Met x = 2; n = 5, p = 0.2

P(x = 2) = 5C2(0.2)2(0.8)5-2

= �!�!��! (0.2)2(0.8)5-2

= 10(0.04)(0.512)

= 0.2048

Daar is dus ’n 0.2048 (of 20.48%) waarskynlikheid dat twee uit die vyf kliënte sal kies om by

Bessie se Kombuis te eet.

Onthou: 5C2 stel die kombinasie,

soos in die vorige hoofstuk

bespreek, voor.



Antwoord 2:

Vraag 2 vra dieselfde as Vraag 1, behalwe dat x in hierdie geval 3 is. Ons sal dus weer die

formule gebruik:


Met x = 3; n = 5, p = 0.2

P(x = 3) = 5C3(0.2)3(0.8)5-3

= �!�!��! (0.2)3(0.8)5-3

= 10 (0.008)(0.64)

= 0.0512

Daar is dus ’n waarskynlikheid van 0.0512 (of 5.12%) dat drie van die kliënte uit ’n groep van

vyf sal besluit om by Bessie se Kombuis te eet.

Antwoord 3:

Hierdie vraag is ’n bietjie moeiliker. Wat is die waarde vir x? In die vorige vrae was dit redelik

maklik om vir x te vind, maar in hierdie geval wil ons weet wat die waarskynlikheid is dat

minder as drie kliënte by Bessie se Kombuis gaan eet. Die waarskynlikheid wat ons dus wil

bereken is:

P(x < 3)

Hoe word dit gedoen? Om hierdie vraag te beantwoord sal ons eenvoudig al die waardes

van x wat kleiner is as 3 moet gebruik en die verskillende binominale waarskynlikhede

bereken. Die berekening kan met die volgende vergelyking verduidelik word:

P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2)

Die waarskynlikheid dat P<3 is, is dus dieselfde as die som van al die waarskynlikhede waar

x kleiner is as 3. Ons moet dus drie waarskynlikhede bereken. Jy kan self P(x = 0) en

P(x = 1) bereken – gebruik die formule soos by Vraag 1 en 2 hierbo gedoen is. Ons het

reeds P(x = 2) in Vraag 1 hierbo bereken. Jy behoort die volgende waardes te verkry:

P(x = 0) = 0.3277

P(x = 1) = 0.4096

P(x = 2) = 0.2048

Die finale waarskynlikheid kan dus nou soos volg bereken word:

P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2)



= 0.3277 + 0.4096 + 0.2048

= 0.9421

Daar is dus ’n waarskynlikheid van 0.9421 (of 94.25%) dat minder as drie van die vyf kliënte

wel by Bessie se Kombuis gaan eet.

Antwoord 4:

Hier wil ons weet wat die waarskynlikheid is dat ten minste een kliënt Bessie se Kombuis

gaan besoek. Ons weet dat daar net vyf kliënte is wat by die winkel instap, daarom is die

maksimum moontlike besoekers aan Bessie se Kombuis ook vyf kliënte. Die waarskynlikheid

dat ten minste een kliënt Bessie se Kombuis besoek, is dus:

P(x > 0) = P(x = 1) + P(x = 2) + P(x = 3) + P(x = 4) + P(x = 5)

Is daar nie ’n makliker manier om hierdie waarskynlikheid te bereken nie? Om die vraag te

beantwoord benodig ons vyf verskillende waarskynlikhede wat elk bereken moet word. Daar

is egter wel ’n makliker manier!

Die maksimum kliënte wat Bessie se kombuis kan besoek, is 5. Die minimum is 0. Dit is dus

nie moontlik dat 6 of meer kliënte (of minder as 0 kliënte) Bessie se Kombuis kan besoek

nie. Die ses waarskynlikhede, P(x = 0), P(x = 1), P(x = 2), P(x = 3), P(x = 4) en P(x = 5)

verteenwoordig alle moontlike uitkomste. Ons kan dus aflei dat hierdie ses gebeurtenisse

gesamentlik uitputbaar is en alle moontlike uitkomste voorstel. Dus is die som van hierdie

gebeurtenisse gelyk aan 1.

Die waarskynlikheid dat x groter as 0 is, is dus presies dieselfde as 1 minus die

waarskynlikheid dat x gelyk aan 0 is:

P(x > 0) = 1 – P(x = 0)

Nou is daar slegs een waarskynlikheid om te bereken: P(x=0) wat ons dan van 1 kan aftrek.


Met x = 0; n = 5, p = 0.2

P(x = 0) = 5C0(0.2)0(0.8)5-0

= �!�!��! (0.2)0(0.8)5-0

= 1 (1)(0.3277)

= 0.3277

Daar is dus ’n 0.3277 (of 32.77%) waarskynlikheid dat geen van die vyf kliënte Bessie se



Kombuis sal besoek nie. Die waarskynlikheid dat ten minste een kliënt wel Bessie se

Kombuis gaan besoek, is:

P(x>0) = 1 – P(x=0)

= 1 – 0.3277

= 0.6723

Daar is dus ’n waarskynlikheid van 0.6723 (of 67.23%) dat ten minste een van die vyf kliënte

Bessie se Kombuis gaan besoek.

Toets jou antwoord met Microsoft Excel

Microsoft Excel is baie nuttig om jou antwoord mee te toets. Dit is natuurlik belangrik dat jy

die waarskynlikhede met die hand kan bereken, omdat jy sodoende sal verseker dat jy die

begrippe verstaan. Vraag 1 en 3 hierbo sal gebruik word om te verduidelik hoe om Microsoft

Excel te gebruik.

Vraag 1:

Die vraag was: Wat is die waarskynlikheid dat twee van die vyf kliënte by Bessie se Kombuis

gaan eet?

Neem ook in ag dat:

• P(sukses) = 1/5 = 0.2

• P(mislukking) = 1 – P(sukses) = 1 – 0.2 = 0.8

• n = 5

• x = 2

In enige sel in Excel, sleutel nou die volgende in:

=BINOMDIST(2,5,0.2,FALSE)

Terwyl jy tik, sal jy die volgende boodskap sien:

=BINOMDIST(number_s,trials,probability_s,cumulative)

Hierdie stel die verskillende waardes voor wat in die BINOMDIST-funksie vervang moet

word:

• “number_s” stel x voor, dit is dus 2

• “trials” stel n voor, dit is dus 5

• “probability_s” stel die waarskynlikheid van ’n sukses voor, dit is dus 0.2



• “cumulative” sal met die volgende vraag verduidelik word

Vraag 3:

Verwys weer na Vraag 3: Wat is die waarskynlikheid dat minder as drie van die vyf kliënte

wel by Bessie se Kombuis gaan eet? Om die vraag op te los, het ons die volgende gedoen:

P(x < 3) = P(x = 0) + P(x = 1) + P(x = 2)

= 0.3277 + 0.4096 + 0.2048

= 0.9421

Hierdie vraag kan egter ook met Excel se BINOMDIST-funksie opgelos word. Deur die

laaste waarde van die funksie (“cumulative”) na “TRUE” te verander, sal die funksie alle

waarskynlikhede tot en met die waarde vir “number_s” bymekaartel. As ons dus die funksie

soos volg gebruik:

=BINOMDIST(2,5,0.2,TRUE)

sal alle waarskynlikhede van x = 0 tot x = 2 (insluitend) bymekaargetel word.

Hoe het Michael sy berekening gedoen?

Kyk weer na die berekening wat Michael gedoen het. Die inligting wat Michael tot sy

beskikking gehad het was:

• Hoeveelheid persone in die vertrek: 20

• Geskat op 0.049 (sien hieronder vir ’n verduideliking)

• Sukses = ’n Persoon kies Vat-dit-kalm

• Mislukking = ’n Persoon kies nie Vat-dit-kalm nie

• Binominale verspreiding!!

Waar het Michael die waarskynlikheid gekry? Kyk weer na die tabel wat Vasvat

Versekeraars se kliëntegetalle aandui:

Wild en

wakker

Vat dit

kalm

Kleindorpie-

kind

Pasgemaak TOTAAL

Gauteng 289 371 9 144 54 187 4 039 356 741

Wes-Kaap 189 571 7 384 32 685 61 227 290 867

Noord-Kaap 14 586 6 291 590 431 21 898



Oos-Kaap 42 374 5 382 1 573 2 448 51 777

Vrystaat 27 463 3 458 1 875 1 960 34 756

KwaZulu-Natal 94 875 13 284 7 504 5 802 121 465

Noordwes 72 839 2 800 3 100 9 838 88 577

Limpopo 56 132 2 480 478 9 372 68 462

TOTAAL 787 211 50 223 101 992 95 117 1 034 543

Ons kan vir eers aanneem dat die provinsies waaruit die persone in die vertrek afkomstig is,

onbekend was. (As ons elkeen se provinsie in ag wou neem, sou die berekening aansienlik

moeiliker gewees het.) Gebaseer op die bestaande inligting tot Vasvat (en Michael) se

beskikking, is daar 50 223 van die 1 034 543 kliënte wat die Vat-dit-Kalm-pakket gekies het.

Die waarskynlikheid van ’n sukses (m.a.w. dat ’n kliënt die Vat-dit-Kalm-pakket kies) is dus:

P(sukses) = 50 223 / 1 034 543

= 0.0485 (benaderd na 0.49)

Om Vanessa se vraag te beantwoord sal ons weer die binominale verspreiding se formule

gebruik:


waar:

• n = die hoeveelheid persone in die vertrek = 20

• x = 18

• p = waarskynlikheid van ’n sukses = 0.49

• 1 – p = waarskynlikheid van ’n mislukking = 0.51

P(x=18) = 20C18(0.49)18(0.51)20-18

= ��!� !�� ! (0.49)18(0.51)20-18

= 190 (0.0000265)(0.2601)

= 0.00013

Daar is dus ’n 0.00013 (of 0.13%) waarskynlikheid dat, uit die 20 kliënte, 18 die Vat-dit-

Kalm-pakket gaan kies.



5.3 Die Poisson-verspreiding

Vervolg…

“Vasvat het ’n nuwe probleem.”

Michael is die ene ore. “En hulle wil hê ons moet dit oplos?”

“Ja en nee. Ons moet hulle adviseer met waarskynlikhede. Hulle sal self die probleem

uitsorteer.”

“En wat is die probleem?”

“Vasvat het ’n groot oproepsentrum. Daar is voldoende personeel om alle oproepe te

beantwoord. Maar so nou en dan is daar ’n skielike toename in oproepe.”

“Direk nadat daar ’n advertensie op die radio of televisie was?”

“Dit is die probleem: hulle kan nie vasstel wat hierdie toename veroorsaak nie. Daar is geen

duidelike oorsaak nie. Ja, daar is ’n toename in oproepe direk na ’n advertensie of na ’n

groot haelstorm, maar die bestuurder van die oproepsentrum beplan hiervoor en stel

deeltydse personeel aan.”

“Hoe gereeld gebeur dit?”

“Gemiddeld twee keer per dag.”

“En waar pas ons in die prentjie in?”

“Die bestuurder het besluit om self in te spring en telefone te beantwoord tot die oorsaak van

die skielike toenames opgespoor is.”

“So die probleem is opgelos?” Michael is nie seker waarheen Vanessa met die gevallestudie

op pad is nie.

“Ja en nee,” sê Vanessa weer. “As die oproepsentrumbestuurder die hele dag in die

oproepsentrum is, dan is daar geen probleem nie. Maar sy het ander afsprake om te maak.

En sy kan nie afsprake maak as sy nie seker is dat die oproepe soos normaal gaan verloop

nie.”

Michael snap. “Ek sien. En sy wil weet wanneer sy die oproepsentrum kan verlaat.”

Vanessa beaam. “En sy wil weet wat die waarskynlikheid is dat daar ’n derde of vierde

toename in oproepe sal wees. Moet sy elke dag wag vir vier toenames om te gebeur, of kan

sy die kantoor verlaat sodra die eerste toename in oproepe verby is?”

“Klink soos ’n waarskynlikheidverspreiding. Poisson.”



“Presies. Kom ons begin met die eerste vraag: As die bestuurder na die tweede toename in

oproepe die kantoor verlaat, wat is die waarskynlikheid dat sy ’n toename in oproepe gaan

mis?”

� Wat is ’n Poisson-verspreiding?

Nie alle gebeurtenisse is binominaal nie. Deur die geval hierbo soos ’n binominale

verspreiding te hanteer, gaan Vasvat se probleem nie opgelos word nie. Vir die

bogenoemde geval sal ’n Poisson-verspreiding beter wees.

Waarskynlikhede volg ’n Poisson-verspreiding as daar ’n sekere gebeurtenis is wat ’n sekere

hoeveelheid kere binne ’n spesifieke tyd-, ruimte- of volume-interval plaasvind (Wegner,

2013: 130). Voorbeelde van vrae wat deur ’n Poisson-verspreiding beantwoord kan word,

sluit in:

• Dit is bekend dat Bessie se Kombuis gemiddeld twaalf kliënte per uur ontvang. Wat

is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie se Kombuis veertien

kliënte sal ontvang? Wat is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie

se Kombuis minder as agt kliënte sal ontvang?

• Dit is bekend dat ’n spesifieke dosent daagliks ’n gemiddeld van drie oproepe van

studente ontvang. Wat is die waarskynlikheid dat die dosent op ’n spesifieke dag

meer as vier oproepe sal ontvang? Wat is die waarskynlikheid dat die dosent tydens

’n spesifieke week (vyf dae) meer as agt oproepe sal ontvang?

Uit die twee voorbeelde hierbo genoem, is daar twee waardes ter sprake by ’n Poisson-

vraag:

• ’n Gegewe hoeveelheid gebeurtenisse tydens ’n spesifieke periode (of ruimte of

volume). Byvoorbeeld: Dit is bekend dat ’n dosent gemiddeld drie oproepe per dag

van studente ontvang. Dit is bekend dat Bessie se Kombuis gemiddeld twaalf kliënte

per uur ontvang. Hierdie waarde word met die simbool a voorgestel.

• Die x-waarde soos wat ons dit in die binominale verspreiding gebruik het. Hierdie is

die waarde wat op ’n spesifieke vraag en dus waarskynlikheid van toepassing is.

Byvoorbeeld: Wat is die waarskynlikheid dat, tydens ’n spesifieke uur, Bessie se

Kombuis veertien kliënte sal ontvang? In hierdie geval is x = 14. Ons sal dan die

waarskynlikheid P(x =14) bereken.

’n Derde waarde wat by die berekening van ’n Poisson-waarskynlikheid gebruik word, is e.

Hierdie is ’n konstante waarde en sal altyd 2.71828 wees, ongeag wat die vraag is. Die

formule vir ’n Poisson-waarskynlikheid is:



P(x) = �!11�

�!

Let wel:

• e = 2.71828

• x sal altyd ’n heelgetal wees, bv. 1, 2 of 3

• a is die gemiddelde hoeveelheid keer wat ’n gebeurtenis in ’n spesifieke tyd, ruimte

of volume plaasvind

• x is die hoeveelheid kere wat die gebeurtenis sal plaasvind in die waarskynlikheid

wat bereken word

Voorbeeld

Die eienaar van ’n restaurant, Bessie se Kombuis, ontvang weekliks ’n gemiddeld van vyf

klagtes. Die restaurant is elke dag van die week (en elke week van die jaar oop).

Vraag 1:

Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis drie klagtes sal

ontvang?

Vraag 2:

Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis minder as twee

klagtes sal ontvang?

Vraag 3:

Wat is die waarskynlikheid dat, in ’n spesifieke week, Bessie se Kombuis meer as drie

klagtes sal ontvang?

Vraag 4:

Wat is die waarskynlikheid dat Bessie se Kombuis ’n klagte op ’n spesifieke dag sal

ontvang?

Antwoord 1:

Ons gebruik die formule vir die Poisson-verdeling:

P(x) = �!11�

�!

met:

• e = 2.71828



• a = 5

• x = 3

P(x = 3) = ��.�� !��

�!

= �.34��5

= 0.1403

Daar is dus ’n waarskynlikheid van 0.1403 (of 14.03%) dat Bessie se Kombuis in ’n

spesifieke week drie klagtes sal ontvang.

Antwoord 2:

Die waarskynlikheid wat bereken moet word, is P(x<2). Ons moet dus die volgende

waarskynlikhede bereken:

• P(x = 0)

• P(x = 1)

Ons sal dan hierdie twee waarskynlikhede bymekaartel om P(x < 2) te vind.

Vir P(x = 0) gebruik ons die Poisson-verspreiding se formule:

P(x) = �!11�

�!

met:

• e = 2.71828

• a = 5

• x = 0

P(x = 0) = ��.�� !��

�!

= �.��

= 0.0067

Vir P(x=1) gebruik ons dieselfde formule:

P(x) = �!11�

�!



met:

• e = 2.71828

• a = 5

• x = 1

P(x = 1) = ��.�� !��

�!

= �.��

= 0.0337

Nou kan ons die twee waarskynlikhede bymekaartel:

P(x < 2) = P(x = 0) + P(x = 1)

= 0.0067 + 0.0337

= 0.0404

Daar is dus ’n waarskynlikheid van 0.0404 (of 4.04%) dat Bessie se Kombuis in ’n spesifieke

week minder as twee klagtes sal ontvang.

Vraag 3:

In hierdie geval is daar ’n oneindige hoeveelheid waardes vir x. Omdat daar nie ’n

maksimum vasgestel is vir die hoeveelheid klagtes wat Bessie se Kombuis in ’n week kan

ontvang nie, is dit moontlik dat 10, 20 of 100 000 klagtes ontvang sal word. Hierdie

waarskynlikhede sal natuurlik baie klein wees, maar dit moet steeds bereken word.

Hoewel dit nie moontlik is om al hierdie (oneindige) moontlike waardes van x te gebruik en

die (oneindige hoeveelheid) waarskynlikhede te bereken nie, weet ons dat alle moontlike

waardes van x ’n totale waarskynlikheid van 1 sal verskaf. Ons weet dus dat die

waarskynlikheid dat x groter is as drie, dieselfde is as 1 minus die waarskynlikheid dat x

kleiner of gelyk aan 3 sal wees. Dus:

P(X > 3) = 1 – P(x ≤ 3)

Ons moet dus nou eers P(x ≤ 3) bereken:

P(x ≤ 3) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3)

Jy kan self die waarskynlikheid P(x = 2) gaan bereken. Uit die vorige vrae is die

waarskynlikhede vir x = 0, 1 en 3 ook bekend. Die vier waarskynlikhede is:



• P(x = 0) = 0.0067

• P(x = 1) = 0.0337

• P(x = 2) = 0.0842

• P(x = 3) = 0.1403

Die totale waarskynlikheid kan dus soos volg bereken word:

P(x ≤ 3) = P(x = 0) + P(x = 1) + P(x = 2) + P(x = 3)

= 0.0067 + 0.0337 + 0.0842 + 0.1403

= 0.2649

Vraag 4:

Hierdie vraag is anders as die ander drie. Die eenheid waarin a gemeet is (oproepe per

week), is nie dieselfde as die eenheid waarin x gemeet word nie (oproepe per dag). Ons

moet dus eers a aanpas na dieselfde eenhede as x toe (of x aanpas vir a).

a = 5 oproepe per week

= 5 / 7 oproepe per dag (in ’n 7-dag week)

= 0.714 oproepe per dag.

Nou kan ons die formule gebruik:

P(x) = �!11�

�!

met:

• e = 2.71828

• a = 0.714

• x = 1

P(x = 1) = ��.�� !�.��.��

�!

= �.��

= 0.3496

Daar is dus ’n 0.3496 (of 34.96%) waarskynlikheid dat Bessie se Kombuis een klagte op ’n

spesifieke dag sal kry.



Toets jou antwoord in Microsoft Excel

Jy kan, soos wat die geval is met die binominale verspreiding, ook jou Poisson-verdeling se

antwoord toets in Microsoft Excel. Gebruik die volgende funksie:

=POISSON(1,5,TRUE)

waar:

• Die eerste waarde x voorstel (in hierdie geval 1)

• Die tweede waarde a voorstel (in hierdie geval 5)

• Die derde waarde aandui of die waarskynlikhede vir alle heelgetalle kleiner as x

bymekaargetel moet word. (In hierdie getal die waarskynlikhede vir x = 0, en 1.)

Terug by Vasvat

Kyk weer na die vraag wat deur Vasvat se oproepsentrumbestuurder gevra is. Die

oproepsentrum kry gemiddeld twee oproepe per dag. Die vraag is: As die bestuurder na die

tweede toename in oproepe die kantoor verlaat, wat is die waarskynlikheid dat sy ’n

toename in oproepe gaan misloop?

Ons wil dus weet wat die kans is dat daar nog toenames in oproepe gaan plaasvind na die

tweede toename in ’n dag. Met ander woorde, wat is die kans dat daar drie of meer

toenames op enige dag sal plaasvind? Die vraag kan voorgestel word as:

Wat is P(x>2)?

Soos ons reeds hierbo gesien het, is daar oneindige x-waardes wat groter is as 2. Ons sal

dus die formule soos volg moet gebruik:

P(x > 2) = 1 – P(x ≤ 2)

= 1 – [P(x = 0) + P(x = 1) + P(x = 2)]

Om P(x = 0) te bereken kan ons die Poisson-verdeling se formule gebruik:

P(x) = �!11�

�!

met:

• e = 2.71828

• a = 2



• x = 0

P(x = 0) = ��.�� !��

�!

= �.��

= 0.1353

Om P(x = 1) te bereken kan ons ook die Poisson-verdeling se formule gebruik:

P(x) = �!11�

�!

met:

• e = 2.71828

• a = 2

• x = 1

P(x = 1) = ��.�� !��

�!

= �.��

= 0.2707

P(x = 2) sal soos volg bereken word:

P(x) = �!11�

�!

Met:

• e = 2.71828

• a = 2

• x = 2

P(x = 1) = ��.�� !��

�!

= �.��

= 0.2707

Ons kan nou P(x>2) soos volg bereken:



P(x > 2) = 1 – P(x ≤ 2)

= 1 – [P(x = 0) + P(x = 1) + P(x = 2)]

= 1 – (0.1353 + 0.2707 + 0.2707)

= 1 – 0.6767

= 0.3233

Daar is dus ’n 0.3233 (of 32.33%) waarskynlikheid dat daar meer as drie toenames op ’n

dag sal plaasvind. Die bestuurder moet dus maar liewer ’n rukkie langer in die kantoor bly en

dalk eers na die derde toename in oproepe die kantoor verlaat.

5.4 Die normaalverdeling

Die normaalverdeling is ’n belangrike waarskynlikheidsverdeling omdat dit in ’n groot mate

as basis vir alle statistiese toetse in die res van hierdie boek gebruik word. Wanneer data

deur navorsing versamel word, sal ’n statistikus gewoonlik eers toets of die data normaal

verdeel is. Indien dit wel normaal verdeel is, is daar heelwat meer statistiese toetse wat die

statistikus kan gebruik. ’n Verskeidenheid statistiese toetse kan slegs op normaalverdelings

toegepas word.

Vir alle berekeninge in die res van hierdie boek sal ons aanneem dat die data wel normaal

verdeel is.

� Wat is ’n normaalverdeling?

’n Normaalverdeling is slegs moontlik wanneer kontinue data gebruik word. Respondente se

keuse van ’n gunsteling restaurant is nie kontinu nie. Wanneer ’n groep van 200

respondente gevra word wat hul gemiddelde inkomste per maand is, sal die data wel kontinu

wees.

Kyk na die volgende data en histogram:


0 tot 10 1 500

11 tot 20 2 000

21 tot 30 2 500

31 tot 40 1 900

41 tot 50 1 400



Hierdie data kan soos volg as ’n histogram voorgestel word:

Figuur 5.1: Histogram van ‘n normaalverspreiding

As ons egter die kategorieë nou kleiner maak, sal die histogram soos volg lyk:


0 tot 5 700

6 tot 10 800

11 tot 15 900

16 tot 20 1100

21 tot 25 1200

26 tot 30 1300

31 tot 35 1000

36 tot 40 900

41 tot 45 800

46 tot 50 600



Figuur 5.2: Histogram met meer kategorieë

Let daarop dat die data wat versamel is, nie verander het nie. Dit is net die kategorieë wat

kleiner is.

Gestel ons raak heeltemal ontslae van al die kategorieë. Gestel ons het ’n kolom vir 1, 2, 3,

4, al die pad tot by 50. Dan sal ons ’n histogram vind wat soos volg lyk:

Figuur 5.3: Histogram met ‘n kolom vir elke heelgetal

Jy sal sien dat die kolomme al hoe nader aan mekaar kom. Hierdie laaste histogram is egter

nog steeds gebaseer op heelgetalle op die x-as. Wat as dit moontlik is vir die respondente

om reële getalle (met desimale) te verskaf? En as ons dan vir elke moontlike waarde

(desimale ingesluit) ’n kolom geskep het? Die kolomme sou so naby aan mekaar gekom het



dat daar nie meer spasies tussen die kolomme sou gewees het nie. En omdat daar ’n

oneindige hoeveelheid waardes tussen enige twee heelgetalle kan voorkom, is daar ’n

oneindige hoeveelheid kolomme wat in ’n kontinue verdeling kan voorkom.

� Wat is kontinue data?

Hoeveel waardes is daar tussen 20 en 21? As ons na heelgetalle kyk, is daar geen waardes

tussen 20 en 21 nie. 21 volg direk op 20. As ons egter na kontinue waardes kyk, sal ons alle

moontlike desimale waardes insluit. Hoeveel desimale waardes is tussen 20 en 21? Daar is

20.1, 20.2, 20.3, tot by 20.9. Maar selfs tussen 20 en 20.1 is daar ’n groot hoeveelheid

waardes: 20.01, 20.02, 20.03, tot by 20.1. En so kan ons aangaan. Die waarde

20.000002228 kom ook tussen 20 en 21 voor. So ook die waarde 20.99999999999. Daar is

dus ’n oneindige hoeveelheid waardes tussen 20 en 21. Om hierdie rede sal die “kolomme”

vir die moontlike waardes wat respondente tussen 20 en 21 kon kies, ook oneindig wees.

In ’n kontinue verspreiding is daar geen spasies tussen die “kolomme” nie. Die volgende is

voorbeelde van kontinue data wat grafies voorgestel is:

Figuur 5.4: Grafiese voorstelling van kontinue data



Die normaalverdeling is ’n spesiale tipe kontinue verspreiding. In hierdie verspreiding is die

gemiddeld, mediaan en modus gelyk aan mekaar. Dit beteken dat die meeste waardes reg

in die middel van die verspreiding voorkom. Hoe verder ’n waarde van die middel (en dus

gemiddeld) af beweeg, hoe minder van hierdie waardes kom in die verspreiding voor. ’n

Normaalverdeling sal dus soos volg lyk:

Figuur 5.5: Grafiese voorstelling van ’n normaalverdeling

’n Normaalverdeling is spesiaal. Dit bevat die volgende eienskappe:

• ’n Normaalverdeling is simmetries. Dit beteken dat die linkerkant van die verdeling

(tot by die gemiddeld) presies dieselfde is as die regterkant. Ons sal later sien

waarom hierdie eienskap baie nuttig kan wees.

• Die oppervlakte van ’n normaalverdeling kan gebruik word om ’n waarskynlikheid

voor te stel. Dus: die oppervlakte tussen twee punte op ’n normaalverdeling = die

waarskynlikheid dat ’n ewekansig-gekose waarde tussen hierdie twee punte sal

voorkom. Hierdie is een van die belangrikste eienskappe van ’n normaalverdeling.

• Die oppervlakte van ’n normaalverdeling is 0. Die linkerkant (tot by die gemiddeld) se

oppervlakte is dus 0.5. Omdat die normaalverdeling simmetries is, is die regterkant

ook 0.5, soos wat in die onderstaande figuur aangedui word:

Gemiddeld



Figuur 5.6: Simmetrie van ’n normaalverdeling

� Twee tipes normaalverdelings

Ons onderskei hoofsaaklik tussen twee tipes normaalverdelings:

• Die standaard-normaalverdeling. Hierdie verdeling word nie tipies in praktyk

aangetref nie, maar is baie belangrik vir die berekeninge wat ons doen. Die

gemiddeld van ’n standaard-normaalverdeling is 0 en die standaardafwyking is 1.

• Normaalverdelings in praktyk. Data wat in praktyk versamel word, sal tipies nie ’n

gemiddeld van presies 0 en ’n standaardafwyking van 1 hê nie.

Bereken waarskynlikhede in ’n normaalverspreiding

Ons sal begin om waarskynlikhede te bereken deur van die standaard-normaalverdeling

gebruik te maak. Daarna sal ons, soos wat meer in die praktyk die geval is, waarskynlikhede

bereken in normaalverdelings waar die gemiddeld en standaardafwyking nie 0 en 1,

onderskeidelik, is nie. Die berekening van ’n waarskynlikheid sal met behulp van die

volgende voorbeeld verduidelik word:

Bereken ’n waarskynlikheid deur middel van die standaard-normaalverdeling

Vraag:

’n Sekere datastel is normaal verdeel met ’n gemiddeld van 0 en ’n standaardafwyking van

1. Wat is die waarskynlikheid dat ’n ewekansige waarde wat uit die verdeling gekies word,

tussen 0 en 0.22 sal voorkom?

Antwoord:

Die eerste stap sal wees om hierdie spesifieke area op ’n skets van die normaalverdeling

aan te dui. Onthou: om ’n waarskynlikheid te bereken moet ons altyd die normaalverdeling

se skets teken. Dit maak die berekening soveel makliker:



Om die waarskynlikheid dat ’n waarde tussen 0 en 0.22 lê te vind, moet ons die oppervlakte

van die deel van die grafiek tussen 0 en 0.22 vind. Dit is die deel wat met vraagtekens

aangedui is. Maar hoe bereken ons hierdie oppervlakte?

Om die oppervlakte van ’n reghoek te bereken is maklik (oppervlakte = lengte x breedte).

Om ’n sirkel se oppervlakte te bereken is ook nie so moeilik nie (oppervlakte = Πr2). Maar

om die oppervlakte van die area tussen 0 en 0.22 te bereken (die deel wat met die

vraagtekens aangedui is) is ’n uitdaging.

Om hierdie rede sal daar nie van jou verwag word om self, met ’n formule, hierdie

oppervlakte te bereken nie. Aan die einde van hierdie gids word ’n tabel verskaf – al die

moontlike oppervlaktes vir ’n groot verskeidenheid waardes op die x-as word verskaf.

Bereken ’n oppervlakte met behulp van ’n z-tabel

Om die oppervlakte te bereken is dit altyd nuttig om eers die normaalverdeling te skets –

soos wat ons hierbo gedoen het. Onthou dat die oppervlaktes wat verskaf word, vir alle

waardes tussen 0 en getalle groter as 0 verskaf word. Die tabel verskaf nie oppervlaktes vir

waardes soos byvoorbeeld die volgende nie:

• tussen 0.22 en 0.33

• tussen 0 en -0.41

• groter as 0.22

• kleiner as 0.22

• tussen -0.22 en -0.33

Vir hierdie berekeninge sal ons ons begrip van ’n normaalverdeling se eienskappe moet

inspan om daardie oppervlaktes (en dus waarskynlikhede) te vind. Die waarskynlikheid dat

’n waarde tussen 0 en 0.22 sal voorkom, kan egter net so van die tabel afgelees word.

0 0.22

???



0.22 staan bekend as die z-waarde. Om ’n oppervlakte (en dus waarskynlikheid) op ’n

normaalverdeling te vind, benodig ons hierdie z-waarde.

Die tabel bestaan uit ’n aantal rye en kolomme. Die struktuur van die tabel lyk soos volg:

Die eerste kolom stel die eerste twee syfers van die z-waarde voor. In ons voorbeeld se

geval sal dit die 0.2 van 0.22 wees. Die eerste ry stel die tweede desimaal van die z-waarde

voor. In ons geval sal dit die 0.02 van ons 0.22 wees. Die middelste deel van die tabel

verskaf al die verskillende oppervlaktes, gebaseer op die z-waardes. Ons vind dus die

oppervlakte (en dus die antwoord vir ons vraag) op die plek waar die 0.2-ry en 0.02-kolom

mekaar kruis.

Alle oppervlaktes vir waardes tussen 0 en 4.09 word in die z-tabel aangetref. Jy sal ook sien

dat, hoe groter die z-waarde word, hoe nader die oppervlakte (en waarskynlikheid) aan 0.5

kom. Hoe groter die spasie tussen 0 en die z-waarde word, hoe groter word die oppervlakte.

Die totale oppervlakte aan die regterkant van die normaalverdeling is 0.5 en daarom sal die

oppervlakte tussen 0 en ’n ander waarde nooit 0.5 oorskry nie.

0.087



Probeer dit self

Vraag:

Deur van die z-tabel gebruik te maak, vind die waarskynlikhede vir die volgende:

1. P(0 < z < 1.54)

2. P(0 < z < 1.96)

3. P(0 < z < 0.99)

Antwoord:

1. Die vraag benodig die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 0 en

1.54 sal lê. Die grafiek sal soos volg lyk:

Ons benodig die oppervlakte tussen 0 en 1.54. Op die z-tabel gaan soek ons die ry waar 1.5

voorkom, asook die kolom waar 0.04 voorkom (want 1.54 = 1.5 + 0.04). Waar hierdie ry en

kolom kruis, vind ons die waarde 0.4382. Hierdie is die oppervlakte wat deur die

vraagtekens in die skets voorgestel word. Die waarskynlikheid dat ’n ewekansig-gekose

waarde tussen 0 en 1.54 sal voorkom, is dus 0.4382. Belangrik: onthou dat ons in hierdie

geval aanneem dat die data normaal verspreid is, met ’n gemiddeld van 0 en

standaardafwyking van 1.

Vraag 2 en 3 word op dieselfde wyse bereken. Kyk of jy die volgende antwoorde kry:

2. P(0 < z < 1.96) = 0.475

3. P(0 < z < 0.99) = 0.3389

0 1.54

???



Bereken waarskynlikhede wat nie tussen 0 en z voorkom nie.

In al die bogenoemde gevalle was die oppervlakte tussen 0 en een of ander z-waarde. Dit is

egter nie altyd die geval nie. Soms is die oppervlak wat ons wil bereken in ’n ander deel van

die normaalkurwe (grafiek). ’n Paar moontlike gevalle sal hieronder bespreek word.

Geval 1:

Bereken die waarskynlikheid dat ’n ewekansig-gekose waarde groter as 1.54 is.

Antwoord:

Deur die normaalverdeling te teken kan ons duidelik sien watter waarskynlikheid (en dus

oppervlakte) ons moet bereken:

Ons wil dus die oppervlakte regs van 1.54 bereken: P (1.54 < z < ∞). Ons kan nie hierdie

waarde direk van die tabel aflees nie omdat die tabel slegs vir ons die waardes tussen 0 en

die z-waarde (in hierdie geval 1.54) verskaf. In hierdie geval soek ons die z-waarde tussen

1.54 en ∞. Ons gebruik dus nou ons kennis van die normaalverdeling om die probleem op te

los:

• Die totale oppervlak van ’n normaalverdeling is 1. Omdat die normaalverdeling egter

simmetries is aan weerskante van die gemiddeld, weet ons dus dat die oppervlakte

van die regterkant 0.5 is.

• Ons kan die oppervlakte van die gedeelte tussen 0 en 1.54 van die tabel aflees. Ons

het dit reeds hierbo gedoen en die oppervlakte 0.4382 gevind (sien skets).

Om dus die oppervlakte van die gedeelte tussen 1.54 en ∞ te vind, kan ons die 0.4382 van

0.5 aftrek. Dus:

P (1.54 < z < ∞) = 0.5 – 0.4382 = 0.0618

0 1.54

???

0.4382



Geval 2:

Wat is die waarskynlikheid dat ’n ewekansige-gekose waarde tussen 0 en -1.96 voorkom?

Antwoord:

Weereens kan die grafiese voorstelling van die normaalverdeling help om die vraag beter te

verstaan:

Die feit dat die z-waarde negatief is, dui daarop dat die oppervlakte aan die linkerkant van

die gemiddeld (en dus 0) is. Die waarskynlikheid wat ons dus wil bereken is:

P(-1.96 < z < 0)

Die eienskappe van die normaalverdeling kan ons help om hierdie probleem op te los. Ons

weet dat die normaalverdeling se twee helftes simmetries is. As ons dus die oppervlakte

tussen 0 en (positiewe) 1.96 kan bereken, sal hierdie oppervlakte presies dieselfde wees vir

die afstand tussen 0 en (negatiewe) -1.96. Ons het reeds die oppervlakte tussen 0 en 1.96

bereken: P(0 < z < 1.96) was 0.475. Dus sal die waarskynlikheid P(-1.96 < z < 0) ook 0.475

wees.

Geval 3:

Wat is die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 1.54 en 1.96 voorkom?

Antwoord:

Die normaalverdeling sal soos volg lyk:

0 -1.96

???



Ons is dus weereens nie op soek na ’n oppervlakte tussen 0 en ’n z-waarde nie. Ons is nou

op soek na die oppervlakte tussen twee z-waardes. Om hierdie probleem op te los is

makliker as wat dit lyk:

• Ons kan die oppervlakte tussen 0 en 1.96 van die z-tabel aflees.

• Ons kan die oppervlakte tussen 0 en 1.54 van die z-tabel aflees.

• Die oppervlakte tussen 1.54 en 1.96 is dan die verskil tussen hierdie twee

oppervlaktes.

Dus:

P(1.54 < z < 1.96) = P(0 < z <1.96) – P(0 < z < 1.54)

= 0.475 – 0.4382

= 0.0368

Geval 4:

Bereken die waarskynlikheid dat ’n ewekansig-gekose waarde tussen -1.96 en 1.54 sal val.

Antwoord:


0 1.96

???

1.54



Hier is ons op soek na ’n oppervlakte wat in beide die linker- en regterkant van die

normaalverdeling voorkom. Om hierdie oppervlakte te bereken sal ons die volgende stappe

volg:

• Bereken die oppervlakte tussen 0 en 1.54: Ons kan dit van die tabel aflees.

• Bereken die oppervlakte tussen 0 en -1.96: Omdat die linkerkant en regterkant

simmetries is, kan ons die oppervlakte tussen 0 en 1.96 (positief) van die tabel

aflees. Die oppervlakte tussen 0 en -1.96 sal dieselfde wees.

• Tel nou hierdie twee oppervlaktes bymekaar.

P(-1.96 < z < 1.54) = P (0 < z < 1.54) + P (-1.96 < z < 0)

= 0.4382 + 0.475

= 0.9132

Gebruik die oppervlakte om die z-waarde te bereken

Die z-tabel kan ook gebruik word om die z-waarde te vind as jy die oppervlakte het. Kyk na

die volgende voorbeeld:

Die waarskynlikheid dat ’n ewekansig-gekose waarde tussen 0 en x voorkom, is 0.4505. Wat

is x?

Om hierdie vraag te antwoord kan ons bloot die oppervlakte 0.2088 in die middelste deel

van die z-tabel vind. Sodra ons die sel met die oppervlakte gevind het, kan ons die z-waarde

van die ry en kolom aflees:

0 -1.96

??????

1.54



Figuur 5.5: Vind van ‘n waarde op die z-tabel

Die oppervlakte van 0.2088 korrespondeer dus met die 0.5 ry en die 0.05 kolom. Die z-

waarde is dus 0.55.

Berekening van waarskynlikhede van niestandaard-normaalverdelings

In praktyk sal ons tipies nie standaard-normaalverdelings kry nie. Dink daaraan: as ons vir

respondente vra wat hul salaris is, is dit heel onwaarskynlik dat die gemiddeld R0.00 is. (As

daar een persoon is wat ’n salaris verdien, moet daar ten minste een persoon wees wat

minder as R0.00 as ’n salaris verdien!) En die standaardafwyking sal ook nie in normale

omstandighede R1.00 wees nie.

Kyk na die volgende voorbeeld:

’n Navorser het data oor ’n groep respondente se ouderdomme versamel. Hierdie data is

normaal verdeeld. Die navorser vind ’n gemiddelde ouderdom van 18 met ’n

standaardafwyking van 8 jaar. Wat is die waarskynlikheid dat ’n ewekansig-gekose

respondent tussen 18 en 32 jaar oud sal wees?

Die normaalverdeling vir hierdie geval sal soos volg lyk:



Hoe nou gemaak? Daar is nie ’n z-waarde van 32 op die z-tabel nie! Die rede hiervoor is die

feit dat ons nie met ’n standaard-normaalverspreiding werk nie. Die gemiddeld is nie 0 nie,

die standaardafwyking is nie 1 nie, en dus is die 32 nie ’n z-waarde nie. Hoe bereken ons

dan die oppervlakte?

Om die oppervlakte tussen 18 en 32 te bereken, het ons ’n z-waarde nodig. 32 is nie ’n

geldige z-waarde nie, omdat die gemiddeld nie 0 is nie en die standaardafwyking nie 1 is

nie. Daar is egter ’n formule wat ons bestaande normaalverdeling kan “transformeer” na ’n

standaard-normaalverdeling en vir ons ’n z-waarde kan gee. Die formule is:

z = ��67

waar:

• x die waarde is wat na ’n z-waarde verander moet word (dus 32)

• μ die gemiddeld van ons normaalverdeling is (dus 18)

• σ die standaardafwyking voorstel (dus 8)

Die z-waarde kan dus nou soos volg bereken word:

z = ��67

= 8��33

= 1.75

Die z-waarde is dus 1.75. Ons kan nou bloot die z-waarde gebruik om die oppervlakte op die

z-tabel te vind.

P(0 < z < 1.75) = 0.4599

Daar is dus ’n waarskynlikheid van 0.4599 dat ’n ewekansig-gekose respondent se

ouderdom tussen 18 en 32 sal wees.

18 32

???



Probeer self

Die salarisse van ’n groot groep werknemers is normaal verdeeld, met ’n gemiddeld van

R18 500 en standaardafwyking van R1 200.

Vraag 1:

Wat is die waarskynlikheid dat ’n ewekansig-gekose werknemer se salaris tussen R18 000

en R20 000 sal wees?

Vraag 2:

Wat is die waarskynlikheid dat ’n werknemer wat ewekansig gekies word, se salaris groter

as R20 000 sal wees?

Antwoord 1:

Die eerste stap sal altyd die skets van ’n normaalverdeling insluit:

Omdat hierdie nie ’n standaard-normaalverdeling is nie, moet ons die z-waarde bereken.

z = 9�:;

= �� 3 <��

= 1.25

Ons kan nou die z-waarde van 1.25 gebruik en die waarskynlikheid van die z-tabel aflees.

P(0 < z < 1.25) = 0.3944

Daar is dus ’n waarskynlikheid van 0.3944 dat ’n ewekansig-gekose werknemer se salaris

tussen R18 500 en R20 000 sal voorkom.

R18 500 R20 000

???



Vraag 2:


Hierdie berekening behoort nie moeilik te wees nie omdat ons soortgelyke probleme met ’n

standaard-normaalverdeling hanteer het. Die berekening van die z-waarde is ook dieselfde.

Die z-waarde is 1.25. Om die oppervlakte tussen R20 000 en ∞ te bereken kan ons bloot die

oppervlakte tussen R18 500 en R20 000 van 0.5 aftrek.

Met die z-waarde van 1.25 wat ons bereken het, sal die berekening soos volg lyk:

P(1.25 < z < ∞) = 0.5 – P(0 < z < 1.25)

= 0.5 – 0.3944

= 0.1056

Onthou: sodra jy die z-waarde bereken het, word die oppervlakte op presies dieselfde wyse

bereken as wat die geval met ’n standaard-normaalverdeling sou wees.

In die res van hierdie studie gaan ons gereeld na die normaalverdeling verwys. Die

normaalverdeling word dikwels in navorsing gebruik om hipoteses (stellings) te toets. Is

voltydse studente meer suksesvol as deeltydse studente? Maak ouer bestuurders minder

ongelukke as jonger bestuurders? Was die ekstra klasse wat aan studente gebied is werklik

suksesvol? Hierdie tipe vrae kan deur navorsing en statistiese analises beantwoord word.

Voordat ons egter data kan analiseer, moet daardie data versamel word. Ons het reeds

verwys na populasies en steekproewe, maar die volgende hoofstuk gaan ’n bietjie uitbrei op

steekproewe en hoe hierdie steekproewe geneem gaan word. Die volgende hoofstuk is kort,

maar vorm ’n baie belangrike grondslag vir enige navorsing wat gedoen word.

R18 500 R20 000

???



Notas


©akademia (MSW)| Hoofstuk 6: Steekproewe 167

HHOOOOFFSSTTUUKK 66:: SSTTEEEEKKPPRROOEEWWEE

Onderwerpe

6.1 Steekproefneming

6.2 Ewekansige steekproefmetodes

Eenvoudige ewekansige steekproefneming

Sistematiese steekproefneming

Gestratifiseerde steekproefneming

Trossteekproefneming

6.3 Nie-ewekansige steekproefneming

Geriefsteekproefneming

Oordeelsteekproefneming

Kwota-steekproefneming

Sneeubalsteekproefneming

6.4 Waarom is steekproefneming belangrik?


168 Hoofstuk 6: Steekproewe | ©akademia (MSW)

Gevallestudie, vervolg…

“Enige nuus oor die oorsese vakansie?”

Michael en Sonja drink ’n koppie koffie by StatInc se koffiewinkel. Vanessa het ’n

vergadering aangevra en dit duidelik gemaak dat beide Michael en Sonja die vergadering

moet bywoon. Vanessa, wat feitlik nooit laat is nie, is deur ’n groot verkeersknoop vertraag.

Michael en Sonja het solank koffie bestel.

Sonja skud haar kop. “Die kompetisie sluit eers oor ’n week. Dan gaan hulle al die

inskrywings analiseer en ’n wenner kies.”

“Ek hou duim vas. Ek is klaar besig om my verlof op te gaar.”

Sonja lag. “Jy is ’n kontrakwerker – jy het nie verlof nie.”

“Onbetaalde verlof,” sê Michael ongestoord. “As jy die kompetisie met my lande wen, gaan

ek saam.”

Sonja verander die onderwerp. “Waaroor wil Vanessa ons sien?”

“Sy het nie gesê nie. Ek is seker dit het iets met statistiek te doen.”

Sonja sluk benoud. “Weet sy hoe voel ek oor syfers?”

Michael wil net antwoord as Vanessa vervaard instorm.

“Jammer ek is laat! Die verkeer is ’n nagmerrie. Ek kort ’n groot cappuccino,” sê sy in een

asem terwyl sy die kelner nader wink. Sy bestel koffie en verduidelik aan die kelner hoe

belangrik dit is, vir haar eie gesondheid, maar ook vir syne, dat sy sou gou as moontlik

kafeïen moet inkry. Die kelner het haar ernstig opgeneem en oomblikke later sit Michael,

Sonja en Vanessa (met ’n groot cappuccino) en gesels oor Vanessa se nuwe projek.

“Ons is baie nuuskierig om te hoor waaroor jy met ons wil praat. Sonja is bang dat ons van

haar gaan verwag om standaardafwykings te bereken.” Michael lag as Sonja se oë rek.

“Dit sal nie nodig wees nie, “ stel Vanessa haar gerus. “Ek wil met julle gesels oor nuwe

sagteware wat ons wil aankoop.”

Sonja is nie gerusgestel nie. “Dis nog erger. Ek is nog minder gemaklik met programmering

as met statistiek.”

“Ontspan. Al wat ons van jou nodig het, is jou kennis in bemarking.” Vanessa maak ’n

gebruikershandleiding oop. “SamplingSoft is spesialisprogrammatuur wat geskep is om

steekproewe te vind. Dit het nuttige funksies wat ons kan help om ’n verskeidenheid

ewekansige steekproefmetodes te gebruik. Dit help selfs met nie-ewekansige



steekproefmetodes.”

Michael sien die verwarde uitdrukking op Sonja se gesig en verduidelik: “Met ewekansige

steekproefneming benodig jy ’n steekproefraamwerk. As jy byvoorbeeld ’n steekproef wil trek

uit al die werknemers van StatInc, benodig jy die name van al die werknemers in StatInc.

Sodoende het elke werknemer dieselfde kans om vir die steekproef gekies te word.”

Vanessa kyk na Sonja. “Julle werk blykbaar aan ’n nuwe marknavorsingsprojek?”

Sonja knik. “Ons kyk na sakeondernemings wat by die plaaslike sakekamer geregistreer is.

Ons wil kyk hoeveel van die ondernemings navorsing doen en van StatInc se dienste

gebruik sal kan maak.”

“Wat is die populasie?”

“Daar is meer as wat ek gedink het. Daar is sowat drie-en-’n-half-duisend ondernemings.”

“Julle sal dus nie 'n sensus kan gebruik nie,” sê Michael.

“Nee, ons sal ’n steekproef moet trek. Maar dit is moeilik om te besluit wie ons in die

steekproef wil insluit.”

“Wonderlik,” sê Vanessa, “ons kan verskillende opsies met SampleSoft probeer. Drie-en-’n-

half-duisend is klein genoeg om die programmatuur uit te toets. Vasvat Versekeraars se

miljoen kliënte bied nie die ideale omstandighede om nuwe programmatuur te toets nie.”

“Ek’s in,” sê Sonja opgewonde. “Wat het julle van my nodig?”

“Sal jy ’n lys kan kry van al die ondernemings wat by die sakekamer geregistreer is?”

Sonja knik en maak ’n nota in haar dagboek. “Dit is openbare inligting. Dit behoort nie

moeilik te wees om dit in die hande te kry nie. In watter formaat het julle dit nodig?”

“Dit maak nie saak nie – ons sal dit omskakel in die regte formaat. Maar as jy dit in ’n

sigblad-formaat kan kry, sal dit help.”

Sonja knik opgewonde. Sy sien daarna uit om saam met Vanessa en Michael te werk.

6.1 Steekproefneming

Steekproefneming is nie ’n onbekende begrip nie. Ons doen dit gereeld. Kyk na die

volgende voorbeelde:

• ’n Sekretaresse vra tien van die personeellede wat hulle tydens die jaareindfunksie

wil doen. Wat die tien personeellede kies, word dan gedoen.



• ’n Restaurant handig vraelyste aan kliënte uit om die diens te evalueer. Slegs sowat

10% van alle kliënte voltooi die vraelyste.

• ’n Onderwyser vra leerders in een van sy klasse wat hul opinie van die skool se

nuwe sportvelde is.

Al drie hierdie gevalle is voorbeelde van steekproefneming. In elke geval is daar ’n populasie

(alle personeellede, alle kliënte van die restaurant en alle leerders by die skool) en word

daar ’n kleiner steekproef uit hierdie populasie getrek (tien werknemers, 10% van die

restaurant se kliënte en die leerders in een klas). As dit dan so maklik is, waarom word ’n

hele hoofstuk aan steekproefneming gewy?

Die realiteit is dat steekproefneming nie so eenvoudig is nie. Die belangrikste doel van ’n

steekproef is om ’n gevolgtrekking oor die populasie te maak. Indien die steekproef nie

verteenwoordigend van die populasie is nie, sal hierdie gevolgtrekkings verkeerd wees.

Beskou die volgende geval:

Voorbeeld

’n Universiteit wil weet of daar ’n behoefte bestaan aan ’n ondersteuningsentrum vir studente

wat hul eie sakeondernemings wil begin. Die universiteit besluit dat, indien daar meer as

20% van alle studente is wat hul eie sakeondernemings wil begin, die sentrum geopen sal

word.

’n Dosent doen navorsing om te bepaal of studente belangstel om hul eie ondernemings te

begin. Die dosent verkry ’n steekproef onder studente wat op ’n spesifieke dag in die

kafeteria is. Wat die dosent nie weet nie, is dat al die studente wat Sakebestuur studeer, op

daardie spesifieke dag ’n uitstappie na ’n maatskappy onderneem het. Die Sakebestuur-

studente is dus nie by die steekproef ingesluit nie.

Die dosent vind dat 16% van die studente in die steekproef wel ’n onderneming wil begin. Hy

maak ook die gevolgtrekking dat hierdie getal dieselfde sal wees vir die groter populasie,

met ander woorde, al die studente by die universiteit. Die universiteit besluit dat daar te min

belangstelling is om met die ondersteuningsentrum voort te gaan.

Wat is die probleem met die bogenoemde steekproef? Daar is twee belangrike probleme:

• Die steekproef was nie verteenwoordigend van die populasie nie. Die populasie het

’n groot hoeveelheid Sakebestuur-studente gehad. Die steekproef nie.

• Die dosent het gevolgtrekkings ten opsigte van die populasie gemaak wat nie deur

die steekproef ondersteun is nie.



Laasgenoemde is die grootste gevaar van foutiewe steekproewe: die feit dat gevolgtrekkings

ten opsigte van die populasie op die steekproef gebaseer word. As die steekproef nie

dieselfde “lyk” as die populasie nie, kan daar nie met sekerheid gevolgtrekkings oor die

populasie op die steekproef gebaseer word nie. Hierdie hoofstuk sal ’n aantal

steekproefmetodes bespreek.

Wegner (2013) som agt belangrike steekproefmetodes soos volg op:

Ewekansige steekproefneming

Elke lid van die populasie het ŉ ewe groot

kans om deel van die steekproef uit te maak.

Nie-ewekansige steekproefneming

Elke lid van die populasie het nie dieselfde

kans om deel van die steekproef uit te maak

nie.

Eenvoudige ewekansige steekproefneming

(Simple random sampling)

Geriefsteekproefneming (Convenience

sampling)

Sistematiese steekproefneming (Systematic

random sampling)

Oordeelsteekproefneming (Judgement

Sampling)

Gestratifiseerde steekproefneming (Stratified

random sampling)

Kwota-steekproefneming (Quota sampling)

Trossteekproefneming (Cluster random

sampling)

Sneeubalsteekproefneming (Snowball

sampling)

6.2 Ewekansige steekproefmetodes

Die ewekansige steekproefmetodes sal deur middel van Sonja, Michael en Vanessa se

ervaring met die SampleSoft-programmatuur verduidelik word.

Voorbeeld

Vanessa, Sonja en Michael sit by Vanessa se tafel en kyk na haar rekenaarskerm.

Die skerm lyk soos volg:



“Die steekproefraamwerk is opgelaai. Ons kan nou kies watter steekproefmetode ons wil

gebruik,” kondig Vanessa trots aan.

“Is dit net vir ewekansige steekproefmetodes waar ons die steekproefraamwerk nodig het?”

vra Sonja.

“Ja. Vir nie-ewekansige steekproefmetodes kan ’n mens aanneem dat die navorser nie

daardie inligting beskikbaar gehad het nie,” antwoord Vanessa. “Sal ons die eenvoudige

steekproef probeer?”

“Ek kan nie wag nie,” sê Michael en Vanessa kies die opsie wat sê Simple Random

Sampling. Nadat sy op die create sample list-knoppie geklik het, word die volgende skerm

vertoon:



“Hoeveel vraelyste wil julle uitstuur?” vra Michael vir Sonja.

“Ten minste tien persent van die populasiegrootte. Kom ons speel veilig en maak dit

vyfhonderd.”

Vanessa sleutel 500 in die spasie en klik op Continue >>. Oomblikke later word ’n lys met

name gegenereer. Sy druk die lys uit en gee dit vir Sonja.

Sonja lees vir ’n oomblik deur die lys. “Dit is heeltemal random,” sê sy. “Ek sien geen

patroon nie. Hoe het die program die name gekies?”

Michael lag. “Heeltemal random.”

Vanessa verduidelik: “Met enige vorm van ewekansige steekproefneming moet elke element

in die populasie ’n ewe groot kans hê om gekies te word. Met eenvoudige ewekansige

steekproefneming of simple random sampling in Engels, kies die rekenaarprogram

vyfhonderd name. Daar is geen patroon of volgorde nie. Dit is die punt.”

“Dit kan werk,” sê Sonja. “Wat behels die ander opsies?”

“Dit sal interessant wees om te sien hoe die steekproef wat deur die ander metodes

gegenereer word met mekaar vergelyk,” voeg Michael by.

Vanessa kies die opsie Systematic sampling. Sy sleutel weer die waarde 500 in en sien die

volgende terugvoer:

Sonja kyk verras na die skerm. “Hoekom word elke sewende element gekies?”

“Dit is hoe sistematiese steekproefneming werk. Drieduisend-vyfhonderd gedeel deur



vyfhonderd, is sewe. Daarom word elke sewende element gekies.”

“Dis wonderlik!”

“Nie altyd nie,” waarsku Michael. “As jy ’n steekproef trek van die daaglikse omset van ’n

maatskappy, sal elke sewende element op dieselfde dag val.”

“En dan sal jou steekproef nie verteenwoordigend van die populasie wees nie,” voeg

Vanessa by.

“Ek sien,” antwoord Sonja. “Wat is stratified sampling?”

“Gestratifiseerde steekproefneming trek ’n steekproef op dieselfde wyse as eenvoudige

ewekansige steekproefneming. Die verskil hier is dat jou populasie eers in kleiner dele

volgens sekere velde, of eienskappe, verdeel word.”

“’skuus, jy het my verloor,” sê Sonja aan Vanessa.

“Kom ons kyk na hoe die program dit doen,” stel Michael voor. Vanessa klik op Stratified

sampling en sien die volgende skerm:

“Om jou steekproef meer verteenwoordigend te maak, kan jy die populasie opdeel in kleiner

groepe volgens sekere kriteria, byvoorbeeld die grootte van die maatskappy,” verduidelik

Vanessa.

“Wat sal gebeur as ek company size kies?”

“Dan sal die drieduisend-vyfhonderd ondernemings in drie groepe opgedeel word: klein,

medium en groot. En die program sal dan ’n derde van die totale steekproef uit elke groep



trek.”

“Elke groep word dan ’n stratum genoem,” voeg Michael by.

“Goed,” antwoord Sonja, “kom ons kies company size.”

Vanessa klik op die skerm, sleutel 500 in die spasie en klik op Continue >>. ’n Lys met 500

name word weer gegenereer. Aan die bokant van die lys verskyn die volgende woorde:

Sonja verstaan. “So die program het outomaties, op ’n ewekansige wyse, ewe veel groot,

medium en klein besighede vir die steekproef gekies. Maar in totaal is dit nog steeds

vyfhonderd.”

“Presies,” bevestig Vanessa. “Die verskil tussen gestratifiseerde steekproefneming en

eenvoudige ewekansige steekproefneming is die feit dat ons nou seker gemaak het dat elke

grootte onderneming eweveel verteenwoordig is. Met ons eerste steekproef wat ons geneem

het, was dit nie noodwendig die geval nie.”

“Hoe verskil dit van cluster sampling?”

Michael het ’n antwoord gereed. “Trossteekproefneming, soos dit in Afrikaans bekend staan,

deel ook jou populasie in groepe op. Maar in hierdie geval is die groepe soortgelyk aan

mekaar, en die elemente binne-in elke steekproef verskil van mekaar.”

“Kan ons dit probeer?” vra Sonja. “Ek verstaan beter as ek sien hoe dit gedoen word.”

Vanessa klik op Cluster sampling en kry die volgende skerm:



Sonja kyk na die skerm. Michael trek ’n stuk papier nader en teken die volgende diagram om

vir Sonja te verduidelik:

“Gestel ons kies slegs die maatskappy-grootte,” verduidelik hy. “Die program verdeel nou jou

hele populasie volgens die kriteria wat jy verskaf het. Dan, deur middel van eenvoudige

ewekansige steekproefneming, kies die program ’n aantal van die trosse – of clusters – wat

in jou steekproef ingesluit sal word.”

Noorde van die stad

10 x klein maatskappye

10 x mediumgrootte

maatskappye

5 x groot maatskappye

Suide van die stad


12 x mediumgrootte

maatskappye


Weste van die stad


13 x mediumgrootte

maatskappye


Ooste van die stad


10 x mediumgrootte

maatskappye


Sentraal


10 x mediumgrootte

maatskappye




“Die verskillende trosse kan miskien geografies ingedeel word soos wat Michael in sy skets

aangedui het,” sê Vanessa. “Hoewel elke tros in ’n ander gebied voorkom, is die groepe

soortgelyk wanneer hulle met mekaar vergelyk word.”

“So, die program sal miskien die maatskappy in die Noorde en in die Ooste kies as

steekproef? En omdat die res van die maatskappy soortgelyk is aan dié in die Ooste en

Noorde, sluit ons hulle nie by die steekproef in nie?” vra Sonja.

“Presies,” sê Michael. “So, die verskil tussen gestratifiseerde steekproefneming en

trossteekproefneming is...”

“Die elemente in strata is soortgelyk. Dus trek ek my dele van my steekproef uit al die

strata. Die data in trosse is verskillend: elke tros is verteenwoordigend van die populasie.

Daarom kan ek een of meer trosse kies vir my steekproef.”

“Jy leer vinnig,” glimlag Michael.

� Opsomming van ewekansige steekproefneming

Die ewekansige steekproefmetodes is deur middel van die StatInc-gevallestudie en ’n

rekenaarprogram verduidelik. In kort kan die verskillende steekproefmetodes soos volg

opgesom word.

Daar bestaan vier ewekansige steekproefmetodes. Met ’n ewekansige steekproefmetode:

• moet elke element in die populasie ’n gelyke kans hê om in die steekproef opgeneem

te word; en

• word ’n steekproefraamwerk (sampling frame) benodig.

Met eenvoudige ewekansige steekproefneming word die steekproefraamwerk (alle

elemente in die populasie) gebruik en word elemente vir die steekproef op ’n ewekansige

wyse verkry. Dit kan vergelyk word met die praktyk om ’n klomp name in ’n hoed te gooi en

dan name uit die hoed te trek. Die nasionale lotery se wennommers word op hierdie manier

verkry.

Sistematiese steekproefneming kies elke k’de element in die populasie. Om ’n steekproef

van 500 uit ’n populasie van 3 500 te verkry, sal elke sewende element uit die populasie vir

die steekproef gekies word. Dit is egter belangrik om seker te maak dat hierdie 7 (of k) nie ’n

spesifieke betekenis het nie. Elemente wat volgens dae van die week ingedeel is, sal

problematies wees as ’n k van 7 gebruik word, omdat al die elemente in die steekproef dan

op dieselfde dag sal val.



Met gestratifiseerde steekproefneming word die hele populasie in verskillende homogene

groepe of strata ingedeel (byvoorbeeld, volgens geslag). Die groepe of strata verskil van

mekaar, maar elemente binne-in elke groep is soortgelyk. Dan word eenvoudige ewekansige

steekproefneming gebruik om ’n deel van die steekproef uit elke groep (of stratum) te verkry.

Trossteekproefneming verdeel die populasie in groepe waarvan elke groep min of meer

verteenwoordigend van die populasie is. Eenvoudige ewekansige steekproefneming word

dan gebruik om ’n aantal groepe of trosse in hul geheel by die steekproef in te sluit. Die

elemente in die trosse verskil van mekaar en is verteenwoordigend van die populasie, maar

die groepe self is soortgelyk aan mekaar.

6.3 Nie-ewekansige steekproefneming

Een van die vereistes vir ewekansige steekproefneming is die beskikbaarheid van ’n

steekproefraamwerk of sampling frame. Dit is egter nie altyd beskikbaar nie. Dit is dus nie

altyd moontlik om van ewekansige steekproefneming gebruik te maak nie. As ’n reël is

steekproewe wat met ewekansige steekproefneming geskep is, meer verteenwoordigend

van die populasie. Daar is egter ’n aantal metodes wat gebruik kan word indien ewekansige

steekproefneming nie beskikbaar is nie.

� Geriefsteekproefneming

Hierdie wyse van steekproefneming (convenience sampling in Engels) behels die verkryging

van ’n steekproef op ’n wyse wat die maklikste en gerieflikste vir die navorser is. Enige

element van die populasie wat op ’n spesifieke tydstip beskikbaar is, word by die steekproef

ingesluit, byvoorbeeld:

• ’n Restaurant eienaar wil navorsing oor ’n spesifieke item op die spyskaart doen. Die

eienaar vra vir elke kliënt wat op ’n spesifieke dag die item bestel wat hul opinie van

die produk is.

• ’n Hoërskoolleerder wil navorsing doen oor gunsteling televisieprogramme van

volwassenes. Sy vra elke onderwyseres in haar skool om ’n vraelys in te vul. (In

hierdie geval is die populasie alle volwassenes in ’n sekere area, maar die steekproef

sluit slegs onderwysers by ’n spesifieke skool in. Die steekproef is dus glad nie

verteenwoordigend nie).

Die grootste nadeel van geriefsteekproefneming is dat dit geen meganismes bevat wat die

verteenwoordigheid van die steekproef kan verbeter nie.



� Oordeelsteekproefneming

In hierdie geval word daar van die kundigheid van die navorser gebruik gemaak om te

besluit wie in die steekproef ingesluit moet word. ’n Navorser wat wil bepaal of studente

belangstel om hul eie sakeondernemings te begin, kan besluit om slegs studente wat

Ondernemingsbestuur studeer, in te sluit. Die navorser sal dan natuurlik sy/haar eie redes

hê waarom hierdie besluit geneem word.

Deur op die oordeel van ’n navorser staat te maak verseker nie dat die steekproef

verteenwoordigend is nie, maar dit kan wel in ’n mate bydra om elemente in die steekproef

wat nie verteenwoordigend is nie, te verminder.

� Kwota-steekproefneming

Nog ’n stap om seker te maak dat ’n steekproef sover as moontlik verteenwoordigend van

die populasie is, is om sekere eienskappe van die populasie te identifiseer. Die navorser sal

dan seker maak dat die steekproef elemente met hierdie eienskappe bevat.

Gestel daar was nie ’n steekproefraamwerk vir die sakeondernemings beskikbaar nie

(verwys na die StatInc-gevallestudie). Sonja sou wel geweet het dat daar onderskei kon

word tussen klein, medium en groot sakeondernemings. Sy sou kwotas kon saamstel vir

haar steekproef, byvoorbeeld: ten minste 200 klein sakeonderneming, ten minste 150

mediumgrootte ondernemings en ten minste 150 groot sakeondernemings. Hierdie

steekproef sal baie meer verteenwoordigend van die populasie wees as wat die geval met

gewone geriefsteekproefneming sou wees.

� Sneeubalsteekproefneming

Met sneeubalsteekproefneming sal ’n navorser ’n aantal respondente identifiseer. Wanneer

die respondente die vraelys of onderhoud voltooi het, sal die navorser vir verwysings vra.

Die respondent sal dan vriende of familie kan verwys wat dan by die steekproef ingesluit

word. Die steekproef word dus nie saamgestel voordat die navorsing gedoen word nie, maar

groei soos wat die navorser besig is totdat die nodige steekproef bereik is.

6.4 Waarom is steekproefneming belangrik?

Ons weet reeds dat dit belangrik is dat ’n steekproef verteenwoordigend van die populasie

moet wees. Die realiteit is egter dat geen steekproef altyd eenhonderd persent

verteenwoordigend van die populasie sal wees nie. Ons kan hierdie probleem op twee

wyses hanteer:



• Ons kan verseker dat ons steekproef so verteenwoordigend as moontlik is. Hoewel

ons nie verseker kan wees dat die steekproef eenhonderd persent

verteenwoordigend van die populasie is nie, kan ons stappe neem om

verteenwoordigheid te verbeter. Dit kan gedoen word deur behoorlike

steekproefneming.

• Ons kan ook die probleem benader deur met omsigtigheid gevolgtrekkings te maak.

In die res van hierdie gids sal ons sekere statistieke met steekproefdata bereken, en

dan gevolgtrekkings ten opsigte van die populasie maak. Ons sal egter hierdie

gevolgtrekkings kwalifiseer deur aan te dui hoe seker ons kan wees dat die

gevolgtrekking wel op die populasie van toepassing is. In plaas daarvan om ’n

stelling soos “die populasie se gemiddelde ouderdom is 18.75 jaar” te maak, sal ons

eerder sê: “Ons kan met 95% sekerheid sê dat die populasie se ouderdom 18.75 is.”

Hierdie sekerheid word in praktyk deur die steekproefmetode beïnvloed, maar ten

opsigte van ons berekeninge sal die standaardafwyking en grootte van die

steekproef ’n groot rol speel.

Hoofstuk 7 gaan hierop uitbrei. Ons gaan ’n steekproefgemiddeld bereken en ’n interval vir

die populasie se gemiddeld daarmee beraam. In Hoofstuk 8 tot 11 gaan ons sekere stellings

met steekproefdata toets en dan bepaal of dieselfde bevinding vir ons populasie sal waar

wees.


©akademia (MSW)| Hoofstuk 7: Vertrouensintervalle 181

HHOOOOFFSSTTUUKK 77:: VVEERRTTRROOUUEENNSSIINNTTEERRVVAALLLLEE

Onderwerpe

7.1 Om ‘n gevolgtrekking oor die populasie te maak

7.2 Wat is ‘n vertrouensinterval?

Bereken ‘n vertrouensinterval

Bereken ’n vertrouensinterval as σ onbekend is


182 Hoofstuk 7: Vertrouensintervalle | ©akademia (MSW)

Gevallestudie, vervolg…

“Hier is iets interessant.”

Michael kyk op. Vanessa trek ’n stoel nader en gaan sit by sy lessenaar. Vandat Michael se

kontrak by StatInc verleng is, het hy by Vanessa se kantoor ingetrek. Haar kantoor is so

groot dat vier ekstra lessenaars daar kan inpas sonder om die plek beknop te laat voel.

“Hierdie artikel is ook interessant,” sê hy. “Hulle het ’n korrelasie gevind tussen die wyse

waarop mense...” Michael bly stil as Vanessa hom glimlaggend aanstaar.

“Nie so interessant soos wat ek hier het nie.”

Michael se belangstelling is dadelik geprikkel. Hy neem die dokument wat Vanessa na hom

uithou en kyk vlugtig na die inhoud. Daar is ’n verskeidenheid grafieke en iets wat soos

beskrywende statistiek lyk.

Vanessa verduidelik: “Ons is nie die eerste onderneming wat Vasvat Versekeraars genader

het nie. ’n Jaar of wat gelede het hulle hierdie verslag ontvang. Hulle het hul besluite daarop

baseer en miljoene verloor.” Michael kyk na die dokument en sien ’n aanbeveling.

Aanbeveling: Bemarkingsaksies moet gefokus word op persone wat sestig jaar oud is. Dit is

die gemiddelde ouderdom van die populasie in die omgewing.

Michael kyk vraend na Vanessa. “Dit klink na ’n geldige aanbeveling.”

Vanessa se glimlag word groter. Michael vermoed onraad. “Mits die statistiese berekeninge

korrek was.”

Vanessa knik.

“En dit is nie die geval nie?”

“Ek sal graag jou objektiewe opinie wil hoor,” sê Vanessa. Dit is duidelik dat daar een of

ander groot tekortkoming in die navorsing is. Sy wil egter hê dat Michael dit self moet

ontdek.

Michael dink vir ’n oomblik. “Goed. Ek neem aan hulle het ’n steekproef geneem. Die

steekproef was verteenwoordigend van die populasie. Hulle het toe, met die nodige

statistiese omsigtigheid, die steekproefgemiddeld op die populasiegemiddeld van toepassing

gemaak.”

“Jy is halfpad reg. ‘Statistiese omsigtigheid’ is nie ’n woord wat by my opgekom het toe ek

hierdie verslag gelees het nie.”

Michael sug. “Ek wens ek het die rou data van die navorsingsprojek gehad.”



“Pasop waarvoor jy wens,” sê Vanessa met ’n ondeunde lag. “Aanhangsel A.”

Michael blaai vinnig na die agterkant van die dokument. Hy vind Aanhangsel A. Wat hy sien

laat hom na sy asem snak.

“Tien?”

“Jip.” Dit is duidelik dat Vanessa dieselfde reaksie gehad het toe sy die verslag gelees het.

Sy geniet egter Michael se skok en verontwaardiging.

“Net tien?”

“Net tien.”

“Hoe maak jy ’n gevolgtrekking oor ’n populasie van duisende met ’n steekproef van tien?”

“Dis nog net die begin. Kyk ’n bietjie na die tien waardes wat versamel is.”

Michael kyk na die individuele waardes en sien die volgende:

“Al die respondente was tussen vyftig en sestig jaar oud. Behalwe Respondent ses en sewe.

Enige persoon kan dadelik sien dat die gemiddelde kliënt tussen vyftig en sestig jaar oud is.”

“Nie enige persoon nie. Om een of ander rede het niemand in Vasvat die moeite gedoen om

na die berekeninge te kyk nie. Hulle sou twee keer gedink het voordat hulle die

bemarkingsveldtog geloods het.”

“En die statistikus? Het die vertrouensintervalle nie ’n groot rooi lig laat flikker nie?”

Vanessa bars uit van die lag. Michael verstar.

“Daar is geen vertrouensintervalle nie,” besef hy.

“En geen standaardafwykings nie. Daar is niks. ’n Steekproefgemiddeld van sestig en ’n half



jaar en ’n steekproefgrootte van tien. Die ‘statistikus’ was ’n vriend van ’n vriend van ’n

vriend wat by Vasvat gewerk het.”

“En niemand het sy kwalifikasies nagegaan nie?”

“Die persoon wat dit moes doen, is intussen onder verdagte omstandighede by die

onderneming weg. Die statistikus het soos mis voor die son verdwyn nadat hy sy geld gekry

het. Vasvat het hierdie as ’n duur les afgeskryf en besluit om in die toekoms deskundiges te

gebruik.”

“En dit is waar jy in die prentjie pas,” sê Michael glimlaggend. Hoewel Vanessa baie beskeie

is, het sy ’n reputasie as ’n formidabele navorser – plaaslik, maar ook in die internasionale

arena. Hy kan steeds nie sy geluk glo dat Vanessa sy mentor is nie.

“Ons,” antwoord Vanessa. Beskeie, soos gewoonlik. “Kom ons maak eers seker dat ons

presies verstaan wat die vorige statistikus verkeerd gedoen het. Hoewel sommige van sy

foute gruwelik nalatig was, is dit nie unieke foute nie. Dit is foute wat amateur statistici

steeds kan maak en, as ons nie versigtig is nie, kan ons in dieselfde slaggat trap.”

Michael het sy bedenkinge oor Vanessa se geneigdheid om in enige slaggate te trap, maar

laat dit daar. Hy kyk weer na die dokument. “Reg, kom ons aanvaar dat hierdie piepklein

steekproef wel verteenwoordigend van die populasie is – en ek wil dit duidelik maak dat ek

nie vir een oomblik dink dit was nie.”

“Dit was nie. Die statistikus het ’n groep vriende by ’n rugby-reünie gevra. Al die mense wat

dit bygewoon het, was mans wat in dieselfde rugbyspan gespeel het. Die twee ouer mense

was die destydse klubbestuurder en -sekretaris.”

Michael hap na lug – hy kan sy ore nie glo nie.

Vanessa onderbreek haarself: “Maar kom ons veronderstel vir ’n oomblik die steekproef was

verteenwoordigend.”

“Die eerste ding waarna die statistikus moes kyk, is die rou data. Dit is duidelik dat die

meeste respondente tussen vyftig en nege-en-vyftig jaar oud was. Die twee ouer

respondente is dus uitskieters.”

“Dit is maklik om te doen met ’n klein steekproef,” merk Vanessa op.

“Met ’n groter steekproef is dit ook maklik. Deur bloot ’n standaardafwyking te bereken, sou

dit duidelik wees hoe vêr die gemiddelde respondent se ouderdom van die gemiddeld af is.

Is hierdie gemiddeld darem korrek?” wil Michael weet.

“Dit is die enigste korrekte statistiek in die verslag.”



"Goed. Dan bereken ons gou ’n standaardafwyking.” Michael gryp ’n pen en papier en voeg

daad by die woord terwyl Vanessa geamuseerd toekyk.

Oomblikke later oorhandig hy die papier aan Vanessa. “Nes ek gedink het,” sê hy

triomfantlik, “meer as sewentien jaar.”

“Mooi,” antwoord sy, “ons weet dus dat die respondente oor die algemeen baie vêr van die

gemiddeld af is.”

“Enige Statistiekstudent behoort dit te weet. Dit is hoofstuk een in enige Statistiekhandboek.”

“Maar as die steekproef ten volle verteenwoordigend van die populasie is, sal die populasie

ook so ’n groot standaardafwyking hê,” sê Vanessa.

“Ja, maar dit beteken dat die standaardafwyking êrens in berekening gebring moet word

wanneer ons gevolgtrekkings oor die populasie se gemiddeld wil maak.”

“Verduidelik.”

“Ons weet nie wat die populasie se gemiddeld is nie,” verduidelik Michael. “Ons moet raai

wat die populasie se gemiddeld is. Die beste manier om dit te raai, is deur ’n goeie

steekproef te trek en dan al die nodige statistieke met die steekproef te doen.”

“En dit is presies wat hierdie statistikus gedoen het.”

“Nee, dit is nie. Hierdie statistikus,” sê Michael terwyl hy met sy vinger op die gewraakte

verslag tik, “het sonder om te blik of te bloos aangeneem dat die steekproef se gemiddeld

outomaties ook die populasie se gemiddeld is.”

“En hy kan dit nie doen nie, want...?”

“Want hy het geen versekering dat die populasie en steekproef identies is nie. Hy moet

sekere verskille in ag neem. Veral moontlike foute wat hy kon maak toe hy die steekproef

geneem het.”

“En hoe doen hy dit?” wil Vanessa weet.

“Hipotesetoetse. Vertrouensintervalle. Om net twee moontlikhede te noem.”

“Aha! Kom ons begin by vertrouensintervalle. Sal jy ’n vertrouensinterval vir die

populasiegemiddeld kan bereken?”

“Is die hemel blou?” glimlag Michael.



7.1 Om ’n gevolgtrekking oor die populasie te maak

Een van die grootste uitdagings waarmee ’n statistikus gekonfronteer word, is die

onsekerheid wat die populasie bied. Ons weet nie hoe die populasie lyk nie. Ons weet nie

wat die gemiddelde ouderdom van ’n populasie is nie. Ons weet nie wat die

standaardafwyking betrokke by daardie gemiddeld is nie. Ons weet letterlik niks.

Die beste wat ons kan doen, is om te raai. En hoewel dit altyd ’n raaiskoot sal bly, bied

statistiek vir ons ’n aantal metodes wat die waarskynlikheid dat ons reg sal raai, vergroot.

Een van hierdie metodes is ewekansige steekproefneming. Deur ’n verteenwoordigende

steekproef te neem, het ons data tot ons beskikking. Ons kan dan hierdie data gebruik om

statistieke te bereken. Op grond van hierdie statistieke kan ons dan meer akkurate

aannames oor die populasie maak. Die belangrikste om te onthou is egter:

Ons kan nooit 100% seker wees dat ’n aanname wat ons oor die populasie maak,

korrek is nie.

Die enigste uitsondering tot hierdie stelling is as ons al die data van die hele populasie

beskikbaar het en die statistiese berekeninge met die populasie se data doen. As ons egter

’n steekproef moet gebruik omdat die populasie se data te veel is of as dit nie beskikbaar is

nie, kan ons nooit hierdie aannames met 100% sekerheid maak nie.

Beteken dit dat ons niks oor die populasie kan sê nie? Nee, glad nie. Deur van die regte

statistiese metodes gebruik te maak, kan ons die vlak van sekerheid waarmee ons

gevolgtrekkings maak, verhoog. Vertrouensintervalle is so ’n tegniek.

Om vertrouensintervalle te verstaan is dit belangrik om net weer na ’n tipiese

navorsingprojek te kyk. In enige navorsingsprojek sal die navorsing begin deur sekondêre

navorsing te doen. Hier sal die navorser na die bevindinge van vorige navorsingsprojekte

kyk. Daarna sal die navorser met die primêre navorsing begin. Dit is hier waar Statistiek

belangrik is. ’n Tipiese primêre navorsingsproses sal soos volg lyk:

• Identifiseer die populasie en die statistieke (of inligting) wat oor die populasie

benodig word.

• Onttrek ’n steekproef uit hierdie populasie. Hoe meer verteenwoordigend die

steekproef van die populasie is, hoe meer akkuraat is die gevolgtrekkings wat ons

oor die populasie maak. Ewekansige steekproefneming bied gewoonlik meer

verteenwoordigende steekproewe.



• Bereken die nodige statistieke (byvoorbeeld die gemiddeld) met die data wat in die

steekproef voorkom. (Onthou dat hierdie statistieke nie sonder meer op die populasie

van toepassing gemaak kan word nie.)

• Bepaal met watter vlak van sekerheid jy die gevolgtrekkings oor die populasie wil

maak. Hoe seker wil jy wees dat jy nie ’n fout maak as jy ’n gevolgtrekking maak nie?

Wil jy 99% seker wees? 95%? 90%? Hoewel 100% ideaal sou wees, is dit nie

moontlik nie.

• Doen nou ’n hipotesetoets (later bespreek) of ’n vertrouensinterval en baseer die

gevolgtrekkings van die populasie daarop.

Kom ons kyk vir ’n oomblik waar die onbevoegde navorser by Vasvat foute gemaak het:

Stap in die navorsingsproses Wat die onbevoegde navorser gedoen het

Identifiseer die populasie en die

statistieke.

Ons kan aanneem dat die amateur statistikus ’n idee

gehad het wie die populasie was. Hy het ook geweet

dat die gemiddelde ouderdom vir die statistiek van

belang was.

Onttrek ’n steekproef uit hierdie

populasie.

Hier het die amateur statistikus reusefoute gemaak.

Daar is geen manier dat hierdie steekproef

verteenwoordigend van die populasie was nie. Die

steekproef is in die eerste plek te klein. Tweedens het

die (lui) amateur statistikus die eerste geleentheid wat

opgeduik het, gebruik om ’n steekproef te versamel.

Logika moes dit duidelik gemaak het dat die hele

populasie nie uit mans tussen 50 en 60, wat deel van

’n rugbyspan gevorm het, sou bestaan nie.

Hierdie is ’n eerste groot struikelblok in ons poging om

gevolgtrekkings oor die populasie te maak. Die tipe

gevolgtrekking wat die amateur statistikus gemaak het,

is soortgelyk aan ’n stelling soos “omdat ’n groep van

21-jarige studente daarvan hou om ’n sportmotor te

bestuur, sal driejarige kleuters ook daarvan hou.”

Bereken die nodige statistieke met

die data wat in die steekproef

voorkom.

Hierdie deel het die amateur statistikus reg gedoen. Hy

het ’n gemiddeld van 60.5 gevind. Dit was egter nie

genoeg nie. Enige gemiddeld moet met sorg



geïnterpreteer word. Sonder ’n standaardafwyking is

dit nie moontlik nie.

Bepaal met watter vlak van

sekerheid jy die gevolgtrekkings

oor die populasie wil maak.

Die amateur statistikus het aangeneem dat sy vlak van

sekerheid 100% is. Dit was ’n reusefout.

Doen nou ’n hipotesetoets of ’n

vertrouensinterval.

Die statistikus het hierdie stap geïgnoreer (of was nie

bewus van die stap nie).

Die amateur statistikus se gevolgtrekking is verkeerd en waardeloos. Vasvat het

verkeerdelik na die raad geluister en hul bemarkingsveldtog op 60-jariges gefokus. Daar was

geen 60-jariges in die steekproef nie!

7.2 Wat is ’n vertrouensinterval?

’n Statistikus moet vrede maak met die feit dat hy of sy nie met 100% sekerheid ’n stelling

oor die populasie kan maak nie. Dit beteken nie dat ons geen stellings oor die populasie kan

maak nie. Deur middel van ’n vertrouensinterval kan dit wel gedoen word.

Gestel ons het ’n steekproef van 200 respondente (n = 200) met ’n gemiddelde ouderdom

van 34.5 jaar en ’n standaardafwyking 11.5. Ons het ’n steekproef geneem en alles in ons

vermoë gedoen om die steekproef so verteenwoordigend as moontlik te maak. Die amateur

statistikus sou die volgende gesê het: Omdat die steekproefgemiddeld 34.5 is, kan ons

aanneem dat die populasiegemiddeld ook 34.5 is.

Hierdie stelling is nie noodwendig waar nie. Beskou die volgende, versigtiger stelling:

Ons kan met 95% sekerheid sê dat die populasiegemiddeld tussen 32.91 en 36.09 jaar is.

Hierdie stelling dui op ’n benadering van ’n populasiegemiddeld, gebaseer op die

steekproefgemiddeld. Daar is ’n paar aspekte wat in hierdie stelling na vore kom:

• Die vlak van sekerheid: Die navorser wat hierdie stelling maak, het besluit dat hy/sy

95% seker wil wees dat die interval wat hy/sy gestel het (vir die populasiegemiddeld)

wel korrek is. Dit is ’n subjektiewe keuse en word bepaal deur die aard van die

navorsing (en die gevolge van ’n foutiewe aanname).

• Die waardes 32.91 en 36.09: Hierdie waardes word met ’n formule bereken (en word

hieronder bespreek). Die steekproef se gemiddeld, die vlak van sekerheid, die

standaardafwyking en die steekproefgemiddeld is hiervoor gebruik.

Die verskil tussen die twee stellings – die ‘verkeerde’ en ‘korrekte’ stellings – kan dus grafies

soos volg voorgestel word:



VERKEERD REG

Hierdie is my steekproefgemiddeld. Daarom

is dit ook my populasiegemiddeld:

My steekproefgemiddeld is 34.5. Ek kan met

95% sekerheid sê dat my

populasiegemiddeld hier êrens lê:

Figuur 7.1: Gebruik ‘n steekproef om ‘n gevolgtrekking oor ‘n populasie te maak

� Bereken ’n vertrouensinterval

Die formule vir die onderste en boonste grens van ’n vertrouensinterval is:

μ = x ± z7√�

’n Ander wyse om hierdie formule voor te stel (as ’n interval) is:

x – z7√� ≤ μ ≥ x + z

7√�

waar:

μ = die populasie se gemiddeld

x = die steekproef se gemiddeld

z = die z-waarde wat ons in die z-tabel vind (ons benodig die vlak van sekerheid hiervoor)

σ = die populasie se standaardafwyking (meer hieroor later)

n = die steekproefgrootte

Om die z-tabel en die z-statistiek te kan gebruik benodig ons die populasie se

standaardafwyking (σ). As ons nie die populasie se standaardafwyking tot ons beskikking

het nie, moet ons die steekproef se standaardafwyking(s) gebruik. Ons kan dan ook nie die

z-statistiek en z-tabel gebruik nie, maar moet die t-statistiek en t-tabel gebruik. Ons sal wel

’n voorbeeld van beide gevalle doen.

| | | | | |

33.5 34 34.5 35 35.5 36

| | | | | | | |

32.9 33 33.5 34 34.5 35 35.5 36.09



Voorbeeld

’n Navorser wil bepaal wat die gemiddelde ouderdom van ’n sekere populasie is. Hy onttrek

’n ewekansige steekproef en doen alles in sy vermoë om die steekproef so

verteenwoordigend van die populasie as moontlik te maak. Die navorser vind die volgende:

• Steekproefgemiddeld: 21.8 jaar

• Steekproefgrootte: 144 respondente

Die navorser wil bepaal wat die populasiegemiddeld is. Hy wil 95% seker wees van hierdie

gevolgtrekking. Bereken ’n vertrouensinterval vir die populasiegemiddeld. Jy kan aanneem

dat die populasie se standaardafwyking 5.9 jaar is.

Antwoord:

Die formule vir die vertrouensinterval is:

x – z7√� ≤ μ ≥ x + z

7√�

waar:


x = 21.8

z = die z-waarde wat ons in die z-tabel vind

σ = die populasie se standaardafwyking = 5.9

n = 144

Stap 1: Bereken eers die z-waarde

Ons het in Hoofstuk 5 gesien hoe ’n z-waarde bereken word as ons die oppervlakte (en dus

waarskynlikheid) het. Beskou die volgende normaalverdeling:



Hierdie diagram dui aan hoe ons ’n gevolgtrekking oor die populasiegemiddeld gaan maak,

gebaseer op die steekproefgemiddeld, en hoe akkuraat hierdie gevolgtrekking moet wees.

As ons 95% seker wil wees dat die vertrouensinterval wat ons gaan skep, korrek is, is daar

’n 5% (0.05) kans dat ons aanname verkeerd gaan wees. Ons grense kan te hoog wees,

maar dit kan ook te laag wees. Ons fout kan dus aan die linkerkant of regterkant van die

verdeling plaasvind. Daarom verdeel ons die 5% tussen die twee kante van die

normaalverdeling. Hierdie sal altyd die geval vir vertrouensintervalle wees.

Ons vind dus die z-waardes wat op die grense tussen ’n korrekte en foutiewe aanname is.

Verwys weer na Hoofstuk 5 oor hoe ons hierdie z-waardes bereken:

• Die normaalverdeling is simmetries. As ons dus die z-waarde aan die regterkant

bereken, sal die z-waarde aan die linkerkant identies, maar negatief wees.

• Ons weet dat die totale oppervlakte van die normaalverdeling 1 (dus 100%) is.

Omdat die normaalverdeling simmetries is, is die oppervlakte aan die linkerkant en

regterkant beide 50% (of 0.5). Die regterkantste deel van die verdeling sonder die

2.5% (of 0.025), is dus 0.5 – 0.025 = 0.475.

• Ons vind nou die oppervlakte van 0.475 in die middel van die z-tabel. Die ry en

kolom wat kruis by 0.475, verskaf dan aan ons die z-waarde. In hierdie geval kruis

die ry by 1.9 en die kolom by 0.06 by die oppervlakte van 0.475. Dus is die z-waarde

1.96. Die z-waarde aan die linkerkant is dus -1.96. Dit sal soos volg op die

bogenoemde grafiek aangedui word.

0 z

95%

Waarskynlikheid dat die

aanname korrek is

Waarskynlikheid van ’n

foutiewe aanname

2.5%


foutiewe aanname

2.5%

z



Stap 2: Bereken die vertrouensinterval

Ons kan nou die vertrouensinterval met die formule bereken:

x – z7√� ≤ μ ≥ x + z

7√�

21.8 – 1.96<.=√�44 ≤ μ ≥ 21.8 + 1.96

<.=√�44

21.8 – 0.964 ≤ μ ≥ 21.8 + 0.964

20.836 ≤ μ ≥ 22.764

Die steekproefgemiddeld was 21.8 jaar. Ons kan met 95% sekerheid sê dat die

populasiegemiddeld tussen 20.836 en 22.764 lê.

Vlak van sekerheid en alfa(αααα)-waarde

Die vlak van sekerheid dui aan hoe seker ons oor ons gevolgtrekking oor die populasie wil

wees. Dit sal dus gewoonlik 90%, 95% of 99% wees. Dit kan ook voorgestel word as

waarskynlikhede van 0.9, 0.95 of 0.99.

Die alfawaarde (voorgestel deur die simbool αααα) kan soms in plaas van die vlak van

sekerheid gebruik word. Hierdie is die waarskynlikheid dat ons verkeerd gaan wees, met

ander woorde die waarskynlikheid dat ons ’n fout sal maak. Hierdie waarde word as ’n

waarskynlikheid verskaf en word bereken deur die vlak van sekerheid van 1 af te trek. Dus:

0 1.96

95%

Waarskynlikheid dat die

aanname korrek is


foutiewe aanname

2.5%


foutiewe aanname

2.5%

-1.96



Vlak van sekerheid αααα

99% (of 0.99) 0.01

95% (of 0.95) 0.05

90% (of 0.90) 0.1

Probeer dit self

’n Navorser wil die gemiddelde salaris van ’n groep werknemers in ’n sekere beroep bepaal.

Die navorser onttrek ’n steekproef van 225 werknemers en doen alles in haar vermoë om die

steekproef so verteenwoordigend as moontlik te maak. Uit hierdie steekproef vind sy ’n

gemiddelde salaris van R28 950. Jy kan aanneem dat die populasie se standaardafwyking

R2 500 is.

Bereken ’n vertrouensinterval vir die populasiegemiddeld deur ’n α-waarde van 0.05 te

gebruik.

Antwoord:

Stap 1: Bepaal die z-waarde

Die vlak van sekerheid is 95% (want die alfawaarde is 0.05). Ons het reeds die z-waarde in

die vorige voorbeeld bereken – dit was ±1.96.

Stap 2: Bereken die vertrouensinterval

Die formule vir die vertrouensinterval is

x – z;√/ ≤ μ ≥ x + z

;√/

waar:


x = 28 950

z = 1.96

σ = die populasie se standaardafwyking = 2 500

n = 225

Dus:



28 950 – 1.96� <��√��< ≤ μ ≥ 28 950 + 1.96

� <��√��<

28 950 – 326.67 ≤ μ ≥ 28 950 + 326.67

R28 623.33 ≤ μ ≥ R29 276.67

Ons kan dus met 95% sekerheid sê dat die populasie se gemiddeld tussen R28 623.33 en

R29 276.67 lê.

Hoe beïnvloed die verskillende veranderlikes die vertrouensinterval?

Die steekproefgemiddeld:

Die steekproefgemiddeld (byvoorbeeld R28 950 in die voorbeeld hierbo) sal altyd presies in

die middel van die vertrouensinterval lê. Dit maak sin omdat ons presies dieselfde waarde

(z;√/) by die steekproefgemiddeld tel en van die steekproefgemiddeld aftrek om die twee

grense van die vertrouensinterval te vind. Die steekproefgemiddeld beïnvloed dus nie die

grootte van die vertrouensinterval nie, maar dui aan waar die middelpunt van hierdie interval

sal wees.

Die vlak van sekerheid:

Hoe groter ons vlak van sekerheid is, hoe meer moontlike waardes sal ons in die

vertrouensinterval moet insluit om seker te maak dat ons nie ’n verkeerde afleiding maak

nie. ’n Verhoging in die vlak van sekerheid sal dus ’n vergroting in die

vertrouensinterval tot gevolg hê.

Kyk na die volgende vertrouensintervalle. Elk is bereken met ’n gemiddeld van 10, ’n

standaardafwyking van 1 en ’n steekproefgrootte (n) van 144. Die vlakke van sekerheid

verskil egter vir elk:

Vlak van

sekerheid

Vertrouensinterval:

onderste grens

Vertrouensinterval:

bogrens

Grootte van interval

(bogrens –

ondergrens)

90% 9.86 10.14 0.28

95% 9.84 10.16 0.32

99% 9.79 10.21 0.42

Dit is dus duidelik dat die vertrouensinterval vergroot het soos wat die vlak van sekerheid



verhoog is.

Standaardafwyking:

Die standaardafwyking het ook ’n invloed op die grootte van die vertrouensinterval. Onthou:

die standaardafwyking is ’n aanduiding van hoe die waardes rondom die gemiddeld versprei

is. Met ’n klein standaardafwyking is die verskillende waardes naby aan die gemiddeld

versprei. Met ’n groot standaardafwyking is die waardes verder van die gemiddeld af. Dit

maak dus sin dat, as die data wyd verspreid is ten opsigte van die gemiddeld, die

vertrouensinterval ook ’n groter area sal moet dek.

Om hierdie punt statisties te demonstreer, beskou die volgende vertrouensintervalle. Die

steekproefgemiddeld van 10 is gebruik, met ’n steekproefgrootte van n = 144. Die vlak van

sekerheid is op 95% gehou. Die standaardafwyking is telkens verander.

Standaardafwyking Vertrouensinterval:

onderste grens

Vertrouensinterval:

bogrens

Grootte van

interval (bogrens –

ondergrens)

2 9.67 10.33 0.66

4 9.35 10.65 1.3

6 9.02 10.98 1.94

12 8.04 11.96 3.92

Die steekproefgrootte:

Groter steekproewe is dikwels meer verteenwoordigend van die populasie omdat dit meer

moontlike elemente wat in die populasie voorkom, bevat. Om hierdie rede sal ’n groter

steekproef die risiko van ’n verkeerde afleiding verminder. En omdat die kans vir ’n fout

kleiner is, sal ’n groter steekproef ook die afleidings ten opsigte van die populasie meer

akkuraat maak. Soos wat die steekproef groter raak, sal die vertrouensinterval dus kleiner

word.

Beskou die volgende vertrouensintervalle. Die steekproefgemiddeld is 10, die

standaardafwyking is 1, die vlak van sekerheid is 95%. Die steekproefgrootte verander

telkens.

Steekproefgrootte

(n)

Vertrouensinterval:

onderste grens

Vertrouensinterval:

bogrens

Grootte van interval

(bogrens –

ondergrens)

10 9.38 10.62 1.24



100 9.8 10.2 0.4

1 000 9.94 10.06 0.12

1 000 000 9.998 10.002 0.004

� Bereken ’n vertrouensinterval as σ onbekend is

Al die probleme wat ons hierbo opgelos het, aanvaar dat die populasie se

standaardafwyking bekend is. Dit is natuurlik selde die geval in ’n navorsingsprojek. Soos

wat die steekproef se gemiddeld gebruik moet word om die populasie se gemiddeld te

benader, sal ons ook in die meeste gevalle die steekproef se standaardafwyking bereken.

As ons egter nie die populasie se standaardafwyking gebruik nie, kan ons nie die z-toets

gebruik nie. Ons sal dus die alternatief, die t-waarde, moet bereken.

Die t-tabel werk op ’n soortgelyke wyse as die z-tabel. Ons benodig egter die volgende om ’n

t-waarde te bereken:

• Die grade van vryheid (df). Die grade van vryheid word bereken as n – 1. Vir 'n

steekproef van 20 respondente sal die grade van vryheid dus 20 – 1 = 19 wees. Let

daarop dat daar verskillende gevalle is waar die t-toets gebruik moet word. Dit is

soms moontlik dat ’n ander formule vir die grade van vryheid sal bestaan,

afhangende van waarvoor die toets gebruik word. Vir die doel van ’n

vertrouensinterval sal die grade van vryheid altyd een minder as die

steekproefgrootte, of n, wees.

• Die α-waarde. Soos reeds genoem, word α verkry deur 1 minus die vlak van

sekerheid. Vir 95% sekerheid sal α 0.05 wees. Ons sal egter steeds die α-waarde

deur twee deel omdat ’n fout by ons vertrouensinterval aan beide kante van die

normaalverdeling kan voorkom.

Die t-tabel lyk ook anders as die z-tabel. Waar die z-tabel die verskillende oppervlaktes in

die middel gehad het, het die t-tabel slegs die α-waardes van 0.1, 0.05, 0.025, 0.01, 0.005

en 0.0025. Hierdie waardes word as kolom-opskrifte gebruik (en is dus nie in die binnekant

van die tabel nie). Onthou dat ’n vertrouensinterval tweekantig is. Soos wat ons die

alfawaarde in twee gedeel het met die berekening van die z-waarde, sal ons ook die

alfawaarde in twee deel met die vind van ’n t-waarde.

Die rye stel elk ’n verskillende graad van vryheid voor. Die binnekant van die tabel bevat al

die t-waardes. Dit is die waarde waarna ons op soek is. Om die t-waarde te vind, doen die

volgende:



• Maak seker dat jy die korrekte α-waarde het. Vir vertrouensintervalle word hierdie

waarde deur twee gedeel omdat ’n vertrouensinterval tweekantig is. Dus sal 95%

sekerheid ’n α-waarde van 0.05 gee, maar ons sal dit deur twee deel vir die vind van

ons t-waarde: dus α = 0.025.

• Vind nou die kolom wat deur hierdie α-waarde voorgestel word.

• Bereken nou die grade van vryheid. Gestel ons het ’n steekproefgrootte van n = 25,

dan sal die grade van vryheid 25 – 1 = 24 wees.

• Vind nou die ry wat deur die grade van vryheid voorgestel word, dus die df = 24 ry.

• Waar hierdie ry (df = 24) en kolom (α = 0.025) kruis, word die t-waarde gevind (in

hierdie geval t = 2.064).

Voorbeeld

’n Navorser wil bepaal wat die ouderdom van ’n sekere populasie is. Die navorser

identifiseer ’n ewekansige steekproef en bereken die volgende:

• Steekproefgemiddeld: 21.8

• Steekproef-standaardafwyking: 5.9

• Steekproefgrootte (n): 40

Bereken, teen ’n 95% vlak van sekerheid, ’n vertrouensinterval vir die populasiegemiddeld.

Antwoord:

Ons het nie die populasie-standaardafwyking (σ) nie, wat beteken dat ons die t-waarde gaan

moet bereken (en nie die z-waarde nie). Die formule vir die vertrouensinterval moet nou

aangepas word om die steekproef-standaardafwyking en die t-waarde te reflekteer. Die

beginsels bly egter dieselfde:

x – t*√� ≤ μ ≥ x + t

*√�

waar:


x = die steekproef se gemiddeld

t = die t-waarde wat ons in die t-tabel vind

s = die steekproef se standaardafwyking




Stap 1: Vind die t-waarde

Soos hierbo verduidelik, benodig ons die α-waarde en die steekproefgrootte (n) om die t-

waarde te bereken:

• α = 0.05. Omdat ons ’n vertrouensinterval bereken (wat tweekantig is) moet ons die

α deur 2 deel: 0.05 / 2 = 0.025.

• Die steekproefgrootte is 40. Die grade van vryheid is: df = n – 1 = 40 – 1 = 39

Ons gaan soek nou die kolom waar α = 0.025 en die ry waar df = 39. Waar hierdie ry en

kolom kruis, vind ons die t-waarde. Die t-waarde is 2.023.

Stap 2: Vind die vertrouensinterval

Ons vervang nou die waardes in die formule van die vertrouensinterval.

x – t*√� ≤ μ ≥ x + t

*√�

21.8 – 2.2023<.=√4� ≤ μ ≥ 21.8 + 2.2023

<.=√4�

21.8 – 2.054 ≤ μ ≥ 21.8 + 2.054

19.746 ≤ μ ≥ 23.854

Ons kan dus met 95% sekerheid sê dat die populasiegemiddeld tussen 19.746 en 23.854 lê.

Probeer dit self

’n Navorser wil bepaal hoeveel geld kliënte op ’n maandelikse basis by ’n sekere winkel

spandeer. Die populasie is natuurlik baie groot en die begroting vir die navorsingsprojek is

klein. Die navorser besluit dus om ’n steekproef van 36 kliënte te neem. Hy vind ’n

gemiddelde bedrag van R510 met ’n steekproef-standaardafwyking van R120.

Bereken, teen ’n 90% vlak van sekerheid ’n vertrouensinterval vir die populasiegemiddeld.

Antwoord:

Omdat ons nie die populasie se standaardafwyking het nie, sal ons die t-waarde en dus die

t-toets moet gebruik.

Stap 1: Vind die t-waarde

Die vlak van sekerheid is 90%. Dit beteken ’n α-waarde van 0.1. Omdat ons egter ’n



vertrouensinterval (wat tweekantig is) wil bereken, moet ons die α-waarde in twee deel. Die

α-waarde wat ons gaan gebruik om die t-waarde te vind, is dus 0.1 / 2 = 0.05.

Die steekproefgrootte is 36. Die grade van vryheid is dus:

df = n – 1

= 36 – 1

= 35

Die t-waarde op die plek waar die α = 0.05 kolom en die df = 35 kruis, is: 1.690

Stap 2: Vind die vertrouensinterval

Die formule vir die vertrouensinterval wat t-waardes gebruik is:

x – t*√� ≤ μ ≥ x + t

*√�

510 – 1.690��√85 ≤ μ ≥ 510 + 1.690

��√85

510 – 33.8 ≤ μ ≥ 510 + 33.8

476.20 ≤ μ ≥ 543.80

Ons kan dus met 90% sekerheid sê dat die gemiddelde kliënt in die populasie tussen

R476.20 en R543.80 per maand by die spesifieke winkel spandeer.

Probeer self

’n Navorser wil bepaal hoeveel boeke hoërskoolleerders per jaar lees. Hy vind ’n steekproef

van die populasie. Hy vra vir elk van die leerders in die steekproef om aan te dui hoeveel

boeke hulle in die laaste jaar gelees het. Hy vind die volgende resultate:

RESPONDENT HOEVEEL BOEKE RESPONDENT HOEVEEL

BOEKE

Respondent 1 7 Respondent 13 6














Respondent 25 7

Bereken, teen ’n 90% vlak van sekerheid, ’n vertrouensinterval vir die gemiddelde

hoeveelheid boeke wat die populasie in die laaste jaar gelees het.

Antwoord:

Hierdie vraag mag intimiderend voorkom, maar dit hoef nie die geval te wees nie. Die

enigste opsig waarin hierdie vraag van die vorige vraag verskil, is die feit dat jy self die

waardes wat ons vir die formule benodig, moet bereken. Die waardes wat ons benodig, word

in die volgende tabel opgesom:

Waarde benodig Waar vind ons dit?

Steekproefgemiddeld Kan bereken word met data

Steekproef-standaardafwyking Kan bereken word met data

Steekproefgrootte Kan bereken word met data

t-waarde Kan bereken word met α, n en df

α Kan van vlak van sekerheid afgelei word

df Kan bereken word met steekproefgrootte

Steekproefgemiddeld:

Soos reeds aan die begin van hierdie hoofstuk bespreek is, word die steekproefgemiddeld

bereken deur al die waardes bymekaar te tel en te deel deur n (in hierdie geval 25 omdat

daar 25 waardes in die steekproef is). Jy behoort ’n antwoord van 8 boeke te vind.

x = 8



Steekproef-standaardafwyking:

Deur die formule vir ’n standaardafwyking (verwys na Hoofstuk 3) te gebruik, word ’n

steekproef-standaardafwyking van 5.463 gevind.

s = 5.463

Steekproefgrootte:

Die steekproefgrootte word gevind deur bloot die hoeveel respondente te tel. In hierdie geval

is dit 25.

n = 25

t-waarde:

Om die t-waarde te bereken benodig ons eerstens die grade van vryheid:

df = n – 1

= 25 – 1

= 24

Ons benodig ook die α-waarde. Hierdie waarde kan van die vlak van sekerheid afgelei word.

Die vlak van sekerheid is 90% (of 0.9), dus is die α-waarde 0.1. ’n Vertrouensinterval neem

egter moontlik foute aan beide kante van die normaalverdeling in ag, daarom sal ons die α-

waarde deur twee deel om een kant se t-waarde te vind. In die tabel sal ons dus die α-

waarde van 0.05 gebruik.

Die plek in die t-tabel waar die 0.05-kolom en die 24-ry kruis, gee aan ons ’n t-waarde van

1.711.

t = 1.711

Ons kan nou die formule van die vertrouensinterval hier toepas:

x – t*√� ≤ μ ≥ x + t

*√�

8 – 1.711<.458√�< ≤ μ ≥ 8 + 1.711

<.458√�<

6.131 ≤ μ ≥ 9.869



7.3 Ten slotte

’n Vertrouensinterval is ’n nuttige statistiese hulpmiddel wat ons kan gebruik om die

omgewing van die populasiegemiddeld te skat. Hierdie hulpmiddel het natuurlik sekere

beperkings. In die eerste plek word die akkuraatheid van die vertrouensinterval direk

beïnvloed deur hoe verteenwoordigend die steekproef van die populasie is. As die regte

stappe om verteenwoordiging te verseker nie gevolg word nie, sal selfs ’n vertrouensinterval

van 90% steeds nie die nodige akkuraatheid verskaf nie.

In die tweede plek word die vertrouensinterval beïnvloed deur die arbitrêre keuse van ’n vlak

van sekerheid. Die vertrouensinterval sal die onder- en bogrense verskaf, maar dit is steeds

die verantwoordelikheid van die navorser om te bepaal met watter vlak van sekerheid hierdie

vertrouensinterval bereken moet word. Dit kan ’n moeilike keuse wees. Gestel ’n

vertrouensinterval se grense is 10 en 20 teen ’n 99% vlak van sekerheid. Hoewel daar slegs

’n 5% kans is dat die werklike populasiegemiddeld buite hierdie grense sal val, is dit steeds

’n moontlikheid. Die navorser moet dus bepaal wat ’n foutiewe vertrouensinterval (ongeag

van hoe hoog die vlak van sekerheid is) se gevolge sal wees.

Die volgende hoofstukke fokus op hipotesetoetse. Elk van die hipotesetoetse wat in die

volgende vyf hoofstukke bespreek gaan word, sal dieselfde vyf stappe volg. Elk van die

hipotesetoetse sal egter vir ’n ander scenario gebruik word. Maak seker dat jy verstaan in

watter situasie watter hipotesetoets gebruik word. ’n Hipotesetoets is anders as ’n

vertrouensinterval, omdat dit ’n spesifieke stelling toets. Kyk na die verskil tussen die twee

maatstawwe:

Voorbeelde van vrae wat elk beantwoord:

Vertrouensinterval: Wat is die grense waarin ek die populasie se gemiddeld sal aantref

indien ek 95% seker wil wees dat ek nie ’n fout maak nie?

Hipotesetoets: Kan ek met 95% sekerheid sê dat die populasie se gemiddeld groter as 20

is?

Voorbeelde van antwoorde wat deur elk verskaf word:

Vertrouensinterval: Die populasiegemiddeld sal tussen 10.55 en 15.98 voorkom. Ek kan

hierdie stelling met 95% sekerheid maak.

Hipotesetoets: Daar is voldoende bewyse om, teen ’n 95% vlak van sekerheid, te aanvaar

dat die populasiegemiddeld groter is as 20.

Hoofstuk 8 sal hipotesetoetsing beskryf.


©akademia (MSW)| Hoofstuk 8: Hipotesetoetsing van een veranderlike 203

HHOOOOFFSSTTUUKK 88:: HHIIPPOOTTEESSEETTOOEETTSSIINNGG VVAANN EEEENN VVEERRAANNDDEERRLLIIKKEE

Onderwerpe

8.1 Wat is ‘n hipotesetoets?

8.2 ‘n Hipotesetoets vir een veranderlike

8.3 Hipotesetoets vir een veranderlike; populasie-

standaardafwyking bekend

8.4 Hipotesetoets vir een veranderlike; populasie-

standaardafwyking onbekend

8.5 Sonja se hipotese


204 Hoofstuk 8: Hipotesetoetsing van een veranderlike | ©akademia (MSW)

Gevallestudie…

Sonja se kantoor is uniek. Vir ’n buitestaander sal dit soos absolute chaos lyk. Haar kollegas

word egter nie deur die hope papier, lêers en ornamente om die bos gelei nie. Sonja weet

presies wat en waar alles is. Sy word ook deur haar kollegas gerespekteer as iemand wat

weet wat sy doen.

Michael is egter nie een van daardie kollegas nie. Hy staan ’n oomblik in die deur en kyk na

die chaos. Sonja is op die foon besig met iemand wat soos ’n voornemende kliënt klink. Die

kantoor is betreklik klein, met meer stoele as wat raadsaam is. Nie dat dit saak maak nie.

Twee van die stoele is weggesteek onder ’n berg van promosie-artikels.

Sonja beduie vir Michael om te sit en hy kan nie help om te lag nie. Met die uitsondering van

die vloer in die hoekie naby die deur, is daar geen plek vir hom om te sit nie.

“Ja, ons kan dit in die kontrak insluit,” sê Sonja. “Dis geen probleem nie. Ek e-pos die

kontrak sommer dadelik.” Sy luister terwyl sy vinnig iets op die rekenaar tik. “Ja, dit sal ook

ingesluit wees. Die e-pos behoort binne ’n minuut of wat by julle te wees. Reg so. Totsiens.”

“Klink soos ’n suksesvolle transaksie,” sê Michael.

“Net so oor die driehonderdduisend rand,” antwoord sy. “En dit is een van die kleintjies.”

Michael se oë rek. “Hoeveel geld maak die maatskappy.”

“Vertroulike inligting. Maar glo my, dit is genoeg. As ek nie kommissie gekry het nie, sou ek

vir ’n verhoging gevra het.”

“Ek hoop jy het my laat kom oor die vakansie.” Sonja se oproep aan Michael was baie kort

en die boodskap kripties.

“Ongelukkig nie. Ek het jou raad nodig.”

Michael probeer sy teleurstelling verberg. Hy sou ’n oorsese vakansie geniet het. Sonja kom

niks agter nie en pluk ’n lêer behendig onder ’n groot stapel uit. Dat die hoop lêers nie omval

nie, is ’n wonderwerk.

“Ons het ons eie stukkie navorsing gedoen. En ek...” Sy stop as sy sien dat Michael effe

verlore in die middel van die vertrek staan. Sy spring op en haal ’n pak pamflette van een

van die stoele af. “Ekskuus, ons het ’n groot ekspo en ek wil nie hierdie goed in ’n

stoorkamer gaan bêre nie.” Sy wag ’n oomblik tot Michael gaan sit het en verduidelik verder.

“Ons wou kyk hoeveel die gemiddelde maatskappy op navorsing spandeer. Na aanleiding

van ons gesprek oor steekproewe het ons alles in ons vermoë probeer doen om ’n

verteenwoordigende steekproef te kry.”



“Wie was julle populasie en wie was die steekproef?” Michael is dadelik geïnteresseerd.

“Die populasie is alle medium en groot maatskappye in die hoofstede van die nege

provinsies wat by die stad se mees prominente handelskamer geregistreer is.”

“Steekproefraamwerk?”

“Ons was gelukkig. Al die handelskamers het vir ons ’n lys van hul lede gestuur. Die lyste

mag dalk ’n maand of ses verouderd wees, maar dit is oor die algemeen redelik akkuraat –

as ons die handelskamers mag glo.”

“Hoe groot was die finale steekproef?”

“Ons het sewehonderd maatskappye genader. Tweehonderd-en-een maatskappye het ons

vrae beantwoord.”

“Het hulle sonder meer hul finansiële state aan julle beskikbaar gestel?” vra Michael in

ongeloof.

“Nee, ons het nie ’n spesifieke bedrag gevra nie,” antwoord Sonja. “Ons wou net weet watter

persentasie van hul totale uitgawes aan navorsing spandeer word. En die meeste

maatskappye het nie ’n probleem gehad om daardie inligting te verskaf nie.”

“Interessant. Ek sou dink dat hulle baie meer geheimsinnig sou wees. Wat was die

resultate?” wil hy weet

“Ek het gewag vir daardie vraag. Dit is waar ons jou hulp nodig het.” Sy oorhandig ’n

dokument aan Michael. “Hierdie is ons steekproefdata.”

Michael sien die volgende:

Steekproefgrootte(n): 201

Steekproefgemiddeld: 4.874

Steekproef-standaardafwyking: 1.25

Sonja verduidelik: “Ek het 'n artikel gelees waar soortgelyke navorsing gedoen is. Die

navorsers het na ’n aantal ontwikkelende lande gekyk en gevind dat die medium en groot

sakeondernemings in daardie lande minder as vyf persent van hul jaarlikse uitgawes aan

navorsing toeken. Ek wou kyk of ons dieselfde resultate in Suid-Afrika sou vind.”

“Ek sien,” antwoord Michael. “En jy wou nie sonder meer aanneem dat jou resultate die

vorige navorsing ondersteun nie?”

“Die standaardafwyking is redelik groot as dit met die gemiddeld vergelyk word. Ek is ook nie

gemaklik met die relatief klein steekproef nie. My steekproefgemiddeld is kleiner as vyf,



maar nie soveel kleiner dat ek sonder meer my resultaat op die populasiegemiddeld van

toepassing kan maak nie. Sê nou my gemiddeld is net kleiner as vyf as gevolg van my

steekproefneming?”

“Dit is ’n baie geldige vraag. En dit is die vraag wat ’n statistikus van ’n amateur skei. Die

amateur sou na die steekproefgemiddeld gekyk het en sonder meer besluit het dat die

populasiegemiddeld ook minder as vyf persent is. Die statistikus sal eers ’n hipotesetoets

doen.”

“Wat?”

“Hipotesetoetsing. Kom ek wys jou.” Michael trek ’n vel papier nader en begin verduidelik.

8.1 Wat is ’n hipotesetoets?

’n Hipotese is ’n stelling wat waar of vals kan wees. Hierdie hipotese is gewoonlik iets wat

van belang is vir die navorser en wat deur ’n statistiese berekening getoets kan word.

Voorbeeld van hipoteses sluit in:

• By Hoërskool X is die gemiddelde punt in Wiskunde laer as die gemiddelde punt in

Wetenskap.

• Die gemiddelde ouderdom van ’n universiteitstudent is laer as 25.

• Daar is geen verskil tussen die gemiddelde ouderdom van manlike en vroulike

direkteure van openbare maatskappye nie.

’n Goeie hipotese sal slegs een aspek toets. ’n Hipotese wat stel dat “die gemiddelde

ouderdom van students sal hoër as 25 wees en nie dieselfde as die gemiddelde ouderdom

van skoliere wees nie”, toets inderwaarheid meer as een aspek en is nie ’n goeie hipotese

nie. Onthou: die hipotese in sy totaliteit gaan waar of vals wees.

’n Hipotesetoets bepaal of die hipotese aanvaar kan word al dan nie. Om ’n hipotesetoets te

doen word die volgende veranderlikes vereis:

• Vlak van sekerheid (en α-waarde). Die navorser moet besluit hoe seker hy/sy wil

wees dat, as die hipotese aanvaar word, hierdie aanname korrek sal wees. Soos ons

reeds vroeër genoem het, kan ons nooit 100% seker wees dat ’n aanname wat ons

oor die populasie maak, korrek sal wees nie. Tipiese vlakke van sekerheid is 0.99,

0.95 en 0.90 (of 99%, 95%, en 90%). Die α-waarde word weereens verkry deur die

vlak van sekerheid van 1 af te trek. Dus sal 0.99, 0.95 en 0.90 α-waardes van 0.01,

0.05 en 0.1 respektiewelik hê.



• ’n Kritiese waarde. Die kritiese waarde maak gebruik van die tabelle (byvoorbeeld die

t-tabel en z-tabel), asook die vlak van sekerheid (of α-waarde). Die doel van die

kritiese waarde word hieronder bespreek.

• ’n Toetsstatistiek: Afhangende van die tipe toets, kan hierdie ’n z-statistiek, t-

statistiek, F-statistiek of χ-statistiek wees. Elke toetsstatistiek het ’n formule wat

bepaal word deur die aard van die hipotesetoets. In hierdie hoofstuk sal ons slegs die

z-statistiek en die t-statistiek gebruik.

Die hipotesetoets sal dan die toetsstatistiek met die kritiese waarde vergelyk en op grond

van hierdie vergelyking die hipotese verwerp of aanvaar.

8.2 ’n Hipotesetoets vir een veranderlike

In hierdie hoofstuk (en in Sonja se probleem wat hierbo bespreek word), het ons te doen met

’n hipotesetoets wat ’n enkele veranderlike met ’n spesifieke getal vergelyk. Hierdie

veranderlike is ’n steekproefgemiddeld. Die tipe hipotese wat hier ter sprake is, toets die

stelling dat ’n populasiegemiddeld groter as, gelyk aan, of kleiner as ’n sekere getal is.

Voorbeelde van hipoteses, in hierdie geval, sluit in:

• Die populasiegemiddeld is kleiner as 50

• Die populasiegemiddeld is groter as 76

• Die populasiegemiddeld is gelyk aan 100

Omdat ons nie weet wat die populasiegemiddeld is nie, en ons slegs die

steekproefgemiddeld het om die populasiegemiddeld te benader, moet ’n hipotesetoets

gedoen word.

’n Hipotesetoets bestaan uit die volgende stappe:

• Stap 1: Definieer die nul- en alternatiewe hipotese

• Stap 2: Vind die kritiese waarde en area van aanvaarding

• Stap 3: Vind die toetsstatistiek

• Stap 4: Besluit of nulhipotese verwerp kan word

• Stap 5: Maak ’n gevolgtrekking

Belangrik:

Die stappe wat hierbo gevolg word, geld vir elke hipotesetoets wat ons in hierdie gids doen.

Die inhoud van elke stap sal verskil, afhangende van die aard van die toets.



Elke stap word in meer besonderhede hieronder bespreek:

Stap 1: Definieer die nul- en alternatiewe hipotese

Om ’n stelling statisties te toets, moet die stelling in twee hipoteses opgedeel word, die

nulhipotese en die alternatiewe hipotese. Die nulhipotese verteenwoordig die status quo,

tipies die stelling wat sal aanvaar word as ons navorsing “niks” gevind het nie. Om dit meer

eenvoudig te stel:

• Die alternatiewe hipotese sal die besigheidsprobleem (dit was ons wil toets) bevat.

• Die nulhipotese sal die teenoorgestelde van die alternatiewe hipotese wees.

• Die enigste uitsondering in hierdie geval is waar ’n =-teken in ’n hipotese voorkom.

Die nulhipotese sal altyd die =-teken bevat.

Voorbeeld

Vraag 1:

’n Navorser vermoed dat die gemiddelde ouderdom van kliënte van ’n maatskappy groter as

50 sal wees. Stel die nul- en alternatiewe hipotese.

Antwoord 1:

Die alternatiewe hipotese sal die besigheidsprobleem bevat. In hierdie geval is die navorser

se stelling (of besigheidsprobleem): “Die gemiddelde ouderdom van die populasie is ouer as

50.” Die nul- en alternatiewe hipotese (voorgestel deur H0 en H1 onderskeidelik), sal soos

volg wees:

H0: μ ≤ 50

H1: μ > 50

Let daarop dat die nul- en alternatiewe hipoteses alle moontlike opsies bevat. Die

waarskynlikheid dat die H0 of H1 waar is, is dus 1 (of 100%). Jy sal ook sien dat die

nulhipotese (H0) die =-teken bevat. (μ ≤ 50 beteken dieselfde as “μ < 50 of μ = 50”.)

Vraag 2:

’n Navorser vermoed dat die gemiddelde salaris van ’n sekere populasie kleiner is as

R10 000 per maand. Stel die nul- en alternatiewe hipotese.

Antwoord 2:

Die besigheidsprobleem (wat die navorser vermoed) is dat die populasie se gemiddeld

kleiner is as R10 000. Dit is dus die alternatiewe hipotese.



H0: μ ≥ 10 000

H1: μ < 10 000

Weereens is die alternatiewe hipotese en nulhipotese die presiese teenoorgesteldes van

mekaar.

Vraag 3:

’n Navorser vermoed dat die gemiddelde punt wat studente vir ’n toets behaal het, 65 is. Stel

die nul- en alternatiewe hipoteses.

Antwoord 3:

Hierdie vraag verskil van die vorige twee omdat daar ’n =-teken in die besigheidsprobleem

voorkom: Die navorser vermoed dat μ = 65. Hierdie is ’n uitsondering op die reël dat die

besigheidsprobleem die alternatiewe hipotese vorm, omdat die nulhipotese altyd die =-teken

sal bevat. In hierdie geval sal die hipoteses soos volg lyk:

H0: μ = 65

H1: μ ≠ 65

Die doel van die hipotesetoets is om te kyk of daar voldoende statistiese bewys is om die

nulhipotese te verwerp. Die uitslag van ’n hipotesetoets sal dus altyd een van die volgende

wees:

• Daar is voldoende statistiese bewys (statistical support) om die nulhipotese te

verwerp ten gunste van die alternatiewe hipotese.

• Daar is nie voldoende bewys om die nulhipotese te verwerp nie.

Ons sê dus nie “ek aanvaar die alternatiewe hipotese” nie. Hierdie bewoording sal in meer

besonderhede tydens Stap 4 en Stap 5 bespreek word.

� Linkskantige, regskantige en tweekantige hipoteses

’n Hipotese kan linkskantig, regskantig of tweekantig wees. Hierdie onderskeid is belangrik,

omdat dit die kritiese waarde wat ons in Stap 2 bereken, beïnvloed. Die alternatiewe

hipotese bied vir ons ’n aanduiding of ’n hipotese linkskantig, regskantig of tweekantig is.

Die volgende voorbeelde dui aan wanneer ’n hipotesetoets linkskantig, regskantig of

tweekantig is. Moenie bekommerd wees as jy nie die notas op die grafiek verstaan nie – dit

word meer breedvoerig in Stap 2 tot Stap 5 bespreek.



Regskantig

H1 = μ > 50

Hierdie is ’n regskantige hipotese. Die toets kan grafies soos volg voorgestel word (meer

inligting hieroor tydens Stap 2):

Figuur 8.1: Grafiese voorstelling van ’n regskantige hipotesetoets

Linkskantig

H1 = μ < 50

Hierdie is ’n linkskantige hipotesetoets. Die toets kan grafies soos volg voorgestel word:

Figuur 8.2: Grafiese voorstelling van ’n linkskantige hipotesetoets

As die z-stat hier val,

word my H0 nie verwerp

nie.

As die z-stat in hierdie

area val, word H0

verwerp.

z-crit



nie. As die z-stat in hierdie

area val, word H0

verwerp.

z-crit



Tweekantig

H1 = μ ≠ 50

Figuur 8.3: Grafiese voorstelling van ’n tweekantige hipotesetoets

Stap 2: Vind die kritiese waarde en area van aanvaarding

Vir die toets van ’n hipotesetoets met een veranderlike, sal ons die t-toets of z-toets gebruik.

Hiervoor sal ons dus die z-tabel of t-tabel gebruik:

• Indien die populasie-standaardafwyking bekend is, sal ons kritiese waarde ’n z-

waarde wees. Hierdie kritiese waarde word kortliks as z-crit voorgestel.

• Indien die populasie-standaardafwyking nie bekend is nie, sal ons kritiese waarde ’n

t-waarde wees. Hierdie kritiese waarde word kortliks as t-crit voorgestel.

Vir die doel van hierdie verduideliking van die stappe van ’n hipotesetoets sal ons slegs na

die z-toets verwys. Met die voorbeelde wat daarop volg, sal beide die z-toets en t-toets egter

in meer besonderhede bespreek word.

Voorbeeld 1: Bepaal ’n kritiese waarde (z-crit)

Beskou die volgende hipoteses:

H0: μ ≤ 50

H1: μ > 50



nie.


area val, word H0

verwerp.

z-crit


area val, word H0

verwerp.

z-crit



Die navorser wil die hipotese toets teen ’n 95% vlak van sekerheid.

Om die kritiese waarde te bereken benodig ons die vlak van sekerheid. Ons moet ook weet

of dit ’n eenkantige of tweekantige hipotesetoets is. Uit die alternatiewe hipotese kan ons

sien dat dit wel ’n eenkantige hipotesetoets is. Die hipotesetoets sal dus grafies voorgestel

kan word as:

Ons moet nou bepaal wat die z-crit is. Hoe sal ons dit doen? Ons weet die volgende van die

bogenoemde normaalverdeling:

• Die hele normaalverdeling se oppervlakte is 1.

• Ons wil 95% seker wees dat ons nie die nulhipotese verkeerdelik verwerp nie.

Daarom is die groot area (area van aanvaarding) 0.95. Die kleiner area stel dus die

oorblywende 0.05 van die area voor.

• Ons het reeds geleer hoe om die z-waarde te bepaal as ons die oppervlakte het. Ons

sal slegs die regterkant van die normaalverdeling gebruik. Omdat die

normaalverdeling simmetries is, is die regterkant van die verdeling 0.5. Ons weet dat

die deel regs van z-crit 0.05 is. Dus is die oppervlakte tussen die gemiddeld en die

z-crit 0.45. Deur hierdie oppervlakte in die z-tabel op te soek, vind ons ’n z-waarde

van 1.645.

Die normaalverdeling hierbo kan nou soos volg aangepas word:



nie. As die z-stat in hierdie

area val, word H0

verwerp.

z-crit

95% 5%



Voorbeeld 2:

Beskou nou die volgende hipotesetoets:

H0: μ ≥ 50

H1: μ < 50


Weereens moet ons bepaal of dit ’n eenkantige of tweekantige hipotesetoets is. Die

alternatiewe hipotese gee vir ons ’n aanduiding. Die <teken is ’n aanduiding dat hierdie ’n

eenkantige hipotesetoets is – meer spesifiek, die hipotese is linkskantig. Die

normaalverdeling wat ons vir die hipotesetoets gaan gebruik, lyk dus soos volg.



nie.


area val, word H0

verwerp.

z-crit

95% 5%

As die z-stat hier val, word

my H0 nie verwerp nie.


area val, word H0

verwerp.

1.645

95% 5%



Omdat ’n normaalverdeling simmetries is en die waardes wat ons gebruik presies dieselfde

is as die eerste voorbeeld hierbo, is dit nie eens nodig om die z-crit te bereken nie. Ons weet

dat die z-crit vir ’n regskantige toets teen ’n 0.95 vlak van sekerheid 1.645 is. Dus sal ’n

linkskantige toets met dieselfde waardes -1.645 wees. Die normaalverdeling sal dus soos

volg aangepas word vir die hipotesetoets:

Voorbeeld 3: Vind ’n z-crit vir ’n tweekantige hipotese

Beskou die volgende hipotesetoets:

H0: μ = 50

H1: μ ≠ 50


Die 95% is dieselfde as die vorige twee voorbeelde. Wat wel verskil, is die feit dat hierdie

hipotese tweekantig is. Die hipotese kan dus deur die volgende normaalverdeling

voorgestel word:


word H0 nie verwerp nie.


area val, word H0

verwerp.

-1.645

95% 5%



Die totale oppervlakte van aanvaarding van die nulhipotese bly 0.95 (of 95%). Maar, soos in

die geval van die vertrouensintervalle, moet die oorblywende 0.05 (of 5%) tussen die linker-

en regterkante verdeel word. Die oppervlaktes is dus 0.95 in die middel en 0.025 aan die

twee kante.

Om die z-crit te bereken werk ons dus nou met 0.475 en 0.025 aan elke kant van die

verdeling (want 0.475 + 0.025 = 0.5). Die z-crit sal dus die z-waarde wees waar 0.475 in die

z-tabel voorkom. z-crit is dus 1.96.

Stap 3: Bepaal die toetsstatistiek

Die toetsstatistiek word met ’n formule bereken. Hierdie formule gebruik ’n aantal

veranderlikes wat uit die steekproef verkry word. Die z-statistiek sal dan met die kritiese

waarde vergelyk word. Hierdie stap sal ’n bietjie later met ’n voorbeeld verduidelik word.

Stap 4: Besluit of die nulhipotese verwerp kan word

Die nulhipotese is meestal die teenoorgestelde van ons besigheidsprobleem. As ons dus die

nulhipotese kan verwerp, kan ons aanvaar dat die alternatiewe hipotese waar is. Hierdie

stap sal ’n bietjie later met behulp van ’n voorbeeld verduidelik word.

Stap 5: Maak ’n gevolgtrekking

Stap 4 behels ’n statistiese besluit wat gemaak word. Jy moet egter die bevinding in die

“taal” van die besigheidsprobleem stel. Waar Stap 4 sal eindig met “Daar is voldoende

bewyse om die nulhipotese te verwerp”, sal Stap 5 eerder soos volg bewoord word: “Die




area val, word H0

verwerp.

z-crit


area val, word H0

verwerp.

z-crit

95% 2.5% 2.5%



gemiddelde ouderdom van ’n kliënt is dus wel hoër as 50 jaar.” Hierdie stap sal in meer

besonderhede in die voorbeelde hieronder bespreek word.

8.3 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking bekend

Al die hipotesetoetse in hierdie hoofstuk behels ’n populasiegemiddeld en ’n spesifieke

getal. Die hipotesetoets bepaal dan of die populasiegemiddeld groter as, kleiner as of gelyk

aan daardie spesifieke getal is.

Ons kan egter ook die hipotesetoetse wat ons in hierdie hoofstuk gaan doen, in twee

kategorieë opdeel: gevalle waar die populasie-standaardafwyking bekend is en gevalle waar

die populasie-standaardafwyking nie bekend is nie.

As die populasie-standaardafwyking wel bekend is, kan ons die z-toets gebruik. Ons sal dus

die z-tabel gebruik om ’n z-crit te vind. Ons sal ook die formule vir die z-toets gebruik om die

toetsstatistiek (die z-stat) te bereken.

Die formule vir die z-stat, in hierdie geval, is:

z-stat = �� 67√�

waar:

x = die steekproefgemiddeld

μ = die populasiegemiddeld soos deur die nulhipotese verwag

σ = die populasie-standaardafwyking


Met hierdie formule kan ons nou ons eerste hipotesetoets doen:

Voorbeeld: ’n Hipotesetoets van een veranderlike; σ bekend

Vraag 1:

Beskou die volgende:

’n Navorser vermoed dat die gemiddelde ouderdom van studente by ’n spesifieke universiteit

groter as 21 is. Hy onttrek ’n steekproef van 120 studente en probeer om hierdie steekproef

so verteenwoordigend as moontlik van die populasie te maak. Hy vind ’n

steekproefgemiddeld van 21.5. Jy kan aanneem dat die populasie-standaardafwyking 2.34

jaar is.



Doen ’n hipotesetoets om, teen ’n vlak van sekerheid van 95%, te bepaal of die navorser se

vermoede korrek is.

Antwoord:

Om hierdie vraag te beantwoord sal ons die vyf stappe van 'n hipotesetoets uitvoer.

Stap 1: Vind die nul- en alternatiewe hipotese

H0: μ ≤ 21

H1: μ > 21

Hierdie is ’n regskantige (en dus eenkantige) hipotese.

Stap 2: Vind die kritiese waarde

Die vlak van sekerheid is 0.95 en die α-waarde is dus 0.05. Omdat hierdie ’n eenkantige

hipotesetoets is (regskantig), hoef die α-waarde nie in twee gedeel word nie. Ons vind dus

die z-waarde waar die oppervlakte 0.45 is (0.5 – 0.05). Hierdie z-waarde, en dus z-crit, is

1.645.

Hierdie z-crit kan soos volg op die normaalverdeling aangedui word:

Stap 3: Bereken die toetsstatistiek

Die toetsstatistiek, z-stat, se formule is:

z-stat = �� 67√�

waar:





area val, word H0

verwerp.

z-crit = 1.645

95% 5%






Dus:

z-stat = ��.�� .��√��

= 2.341

Stap 4: Besluit of die nulhipotese verwerp moet word

Om te besluit of die nulhipotese verwerp moet word, moet die z-stat op die normaalverdeling

geplaas word. Sodoende is dit maklik om met die blote oog te sien of die nulhipotese

verwerp kan word:

Die z-stat is aan die regterkant van die z-crit. Hierdie waarde lê dus in die area van

verwerping soos wat ons in Stap 2 vasgestel het. Die waarskynlikheid dat ons dus H0

verkeerdelik gaan verwerp, is dus kleiner as 0.05. Ons kan dus maar voortgaan en H0

verwerp:

Daar is voldoende statistiese bewys om H0 te verwerp ten gunste van H1.

Stap 5: Gevolgtrekking

Daar is voldoende statistiese bewyse om te kan sê dat die gemiddeld van al die studente by

die betrokke universiteit (die populasie) groter is as 21.




area val, word H0

verwerp.

z-crit = 1.645

95% 5%

z-stat = 2.341

X



Vraag 2:

’n Navorser vermoed dat die gemiddelde onderwyser minder as 30 dae per jaar vakansie

neem. Deur informele gesprekke het dit aan die lig gekom dat onderwysers geneig is om

tydens skoolvakansies te werk en agterstallige administrasie in te haal. Die navorser besluit

om hierdie vermoede met ’n hipotesetoets te toets. Sy besluit om eers op die onderwysers in

die Wes-Kaapprovinsie te fokus en dus onderwysers in hierdie provinsie haar populasie te

maak. Sy onttrek ’n steekproef van 340 onderwysers in die Wes-Kaap. Sy vind dat, uit

hierdie populasie, onderwysers gemiddeld 29 dae per jaar ten volle vakansie neem. Jy kan

aanneem dat die populasie-standaardafwyking 5.12 dae is.

Toets die navorser se vermoede met ’n hipotesetoets. Gebruik ’n 90% vlak van sekerheid.

Antwoord 2:


H0: μ ≥ 30

H1: μ < 30

Hierdie is ’n linkskantige (en dus eenkantige) hipotese.


Die vlak van sekerheid is 0.90 en die α-waarde is dus 0.1. Omdat hierdie ’n eenkantige

hipotesetoets is (linkskantig), hoef die α-waarde nie in twee gedeel word nie. Ons vind dus

die z-waarde waar die oppervlakte 0.4 is (0.5 – 0.1). Hierdie z-waarde is 1.28. Maar omdat

dit ’n linkskantige toets is, sal die z-waarde aan die linkerkant van die gemiddeld voorkom en

dus negatief wees. Die z-crit is dus -1.28.

Hierdie z-crit kan soos volg op die normaalverdeling aangedui word:





z-stat = �� 67√�

waar:





Dus:

z-stat = �� .��√��

= -3.601

Let wel: die antwoord is ’n negatiewe waarde.




verwerp kan word:




area val, word H0

verwerp.

z-crit = -1.28

90% 10%



Dit is duidelik dat -3.601 kleiner is as die z-crit van -1.28 en dus in die area van verwerping

val. Daar is dus voldoende bewyse om H0 te verwerp.

Daar is voldoende bewyse om H0 te verwerp ten gunste van H1.


Daar is voldoende bewyse om te bevestig dat die gemiddelde onderwyser in die Wes-

Kaapprovinsie minder as 30 dae per jaar op vakansie gaan.

Voorbeeld 3:

’n Navorser vermoed dat die gemiddelde salaris van ’n sekere populasie R25 000 is. Hy

neem ’n steekproef van 140 werknemers en vind ’n gemiddeld van R25 500. Jy kan

aanneem dat die populasie se standaardafwyking R2 500 is.

Toets die navorser se vermoede teen ’n 95% vlak van sekerheid.

Antwoord 3:


H0: μ = 25 000

H1: μ ≠ 25 000

Hierdie is ’n tweekantige hipotese.




area val, word H0

verwerp.

z-crit = -1.28

90% 10%

z-stat = -3.601

X




Die vlak van sekerheid is 0.95 en die α-waarde is dus 0.05. Omdat hierdie ’n tweekantige

hipotesetoets is, moet die α-waarde wel in twee gedeel word. Ons vind dus die z-waarde

waar die oppervlakte 0.475 is (0.5 – 0.025). Hierdie z-waarde, en dus z-crit, is ± 1.96.

Hierdie z-crit kan soos volg op die normaalverdeling voorgestel word:


Let wel: die formule en berekening van die z-statistiek word nie beïnvloed deur die feit dat

ons met ’n tweekantige hipotesetoets werk nie.


z-stat = �� 67√�

waar:





Dus:

z-stat = �< <��< ��> ?@@√AB@




area val, word H0

verwerp.


area val, word H0

verwerp.

95% 2.5% 2.5%

z-crit = -1.96 z-crit = 1.96



= 2.366




verwerp kan word:

Die z-stat van 2.366 is duidelik groter as die positiewe z-crit van 1.96. Die z-stat val dus in

die area waar H0 verwerp word.

Daar is voldoende statistiese bewys om H0 te verwerp ten gunste van H1.


Die navorser se vermoede word nie deur die statistiese data ondersteun nie: Die gemiddelde

salaris is nie gelyk aan R25 000 nie.

Let wel: hierdie hipotesetoets toets slegs of die gemiddelde salaris gelyk is aan R25 000. Dit

is egter gevaarlik om aan te neem dat, omdat die gemiddelde salaris nie R25 000 is nie, die

populasie se gemiddelde salaris groter as R25 500 sal wees. Dit is nie wat ons getoets het

nie. ’n Nuwe, regskantige hipotesetoets sal eers hierdie aanname moet toets voordat dit

aanvaar kan word.




area val, word H0

verwerp.


area val, word H0

verwerp.

95% 2.5% 2.5%

z-crit = -1.96 z-crit = 1.96

z-stat = 2.366

X



8.4 Oefening: Hipotesetoets vir een veranderlike; populasie-standaardafwyking onbekend

Soos wat ons reeds met vertrouensintervalle gesien het, sal ons in praktyk dikwels nie die

populasie se standaardafwyking tot ons beskikking hê nie. En aangesien die populasie se

standaardafwyking ’n vereiste is om die z-toets te gebruik, sal ons, wanneer die populasie-

standaardafwyking nie beskikbaar is nie, die t-toets as alternatief moet gebruik.

Die stappe vir die hipotesetoets bly onveranderd in hierdie geval. Al wat aan die toets

verander word, is:

• die kritiese waarde (Stap 2): ons gebruik t-crit in plaas van z-crit; en

• die toetsstatistiek (Stap 3): ons gebruik die t-stat in plaas van die z-stat.

Die formule vir die t-stat, in hierdie geval, is:

t-stat = ��6*√�

waar:

x = steekproefgemiddeld

μ = populasiegemiddeld soos deur die nulhipotese gestel

s = die steekproef-standaardafwyking


Soos met vertrouensintervalle, sal ons ook die grade van vryheid (df) benodig om die t-tabel

te gebruik. Onthou die formule vir grade van vryheid:

df = n – 1

Die volgende voorbeelde illustreer die gebruik van ’n t-toets om ’n hipotese te toets.

Voorbeeld: Hipotesetoets vir een veranderlike indien die populasie-

standaardafwyking nie bekend is nie

Vraag 1:

’n Navorser vermoed dat kliënte van ’n sekere winkel gemiddeld meer as 5 minute per

besoek in die winkel spandeer. Die navorser trek ’n steekproef van 81 kliënte en bepaal hoe

lank elkeen van hierdie kliënte in die winkel spandeer. Die navorser vind ’n gemiddeld van

6.1 minute en ’n steekproef-standaardafwyking van 2.2 minute.

Toets, teen ’n 95% vlak van sekerheid, of die navorser se vermoedens reg was.



Antwoord:


H0: μ ≤ 5

H1: μ > 5

Hierdie is ’n eenkantige (regskantige) hipotese.


Om die kritiese waarde te bereken benodig ons twee veranderlikes: α en df

df = n – 1

= 81 – 1

= 80

Uit die vlak van sekerheid van 95% kan ons ’n α van 0.05 aflei. Omdat dit ’n eenkantige

hipotese is wat getoets word, is dit nie nodig om hierdie waarde deur twee te deel nie.

Ons vind nou in die t-tabel die waarde waar die 0.05-kolom en die 80-ry mekaar kruis. Dit is

1.664.


t-stat = ��6*√�

waar:





Dus:

t-stat = �.��.�√ �

= 4.5


Om hierdie besluit te neem is dit altyd nuttig (en nodig) om die normaalverdeling te teken.

Die t-crit en t-stat moet beide op hierdie grafiek aangedui word.



Uit die bogenoemde skets is dit duidelik dat die t-stat binne die verwerpingsgebied lê omdat

4.5 groter is as 1.664.

Daar is dus voldoende bewyse om H0 te verwerp ten gunste van H1.


Daar is voldoende bewys om te kan aanneem dat kliënte wel meer as 5 minute per besoek

in die winkel spandeer.

Vraag 2:

’n Navorser vermoed dat ’n tipiese kliënt minder as R100 per besoek aan ’n winkel

spandeer. Die navorser versamel ’n steekproef van 25 kliënte en bepaal hoeveel elkeen by

die winkel spandeer het. Sy vind ’n steekproefgemiddeld van R96. Sy vind ook ’n steekproef-

standaardafwyking van R15. Bepaal, teen ’n 95% vlak van sekerheid, of die navorser se

vermoede bevestig kan word.


H0: μ ≥ 100

H1: μ < 100

Hierdie is ’n eenkantige (linkskantige) hipotesetoets.


Die α-waarde is weereens 0.05 en, aangesien dit ’n eenkantige hipotesetoets is, hoef hierdie

waarde nie in twee gedeel te word nie. Die grade van vryheid is:

As die t-stat hier val,


As die t-stat in hierdie

area val, word H0

verwerp.

t-crit =1.664

95% 5%

t-stat =4.5

X



df = n – 1

= 25 – 1

= 24

Die t-waarde waar die 24-ry en die 0.05-kolom kruis, is 1.708. Omdat hierdie ’n linkskantige

toets is, sal die t-waarde aan die linkerkant van die normaalverdeling voorkom en dus

negatief wees. Die diagram hieronder verskaf meer duidelikheid:

Die t-crit is dus -1.708.


t-stat = ��6*√�

waar:





Dus:

t-stat = ��√��

= -1.333




area val, word H0

verwerp.

t-crit = -1.708

95% 5%




Die t-stat van -1.333 val dus binne die area van aanvaarding.

Daar is nie voldoende bewys om H0 te verwerp nie.


Daar is nie voldoende statistiese bewys om te kan sê dat die gemiddelde kliënt minder as

R100 per besoek spandeer nie.

Vraag 3:

’n Navorser lees ’n akademiese artikel oor demografiese kenmerke van personeel wat in ’n

spesifieke bedryf in Amerika werksaam is. Hierdie artikel beweer dat die gemiddelde

ouderdom van finansiële adviseurs in Amerika 49 jaar is. Sy wil bepaal of die Suid-

Afrikaanse finansiële bedryf soortgelyke resultate sal lewer. Sy onttrek dus ’n steekproef van

36 uit al die finansiële adviseurs in die land en vind ’n gemiddelde ouderdom van 46 jaar,

met ’n steekproef-standaardafwyking van 9.4 jaar.

Toets, teen ’n 95% vlak van sekerheid, of die populasiegemiddeld wel 49 is.

Antwoord:

Hierdie vraag demonstreer waarom ’n hipotesetoets altyd gedoen moet word wanneer ’n

gevolgtrekking oor die populasie op die steekproef van toepassing gemaak word. ’n Mens se

eerste instink is om na die 46 te kyk en onmiddellik tot die gevolgtrekking te kom dat die

populasiegemiddeld nie 49 is nie. Dit is egter ’n gevaarlike gevolgtrekking as dit sonder die




area val, word H0

verwerp.

t-crit = -1.708

95% 5%

t-stat = -1.333

X



nodige hipotesetoets gedoen word, omdat die invloed van die steekproefmetode, die hoë

standaardafwyking en die klein steekproefgrootte nie in ag geneem word nie.


H0: μ = 49

H1: μ ≠ 49

Hierdie is ’n tweekantige hipotese.


Die grade van vryheid is:

df = n – 1

= 36 – 1

= 35

Die α-waarde is 0.05, maar omdat dit ’n tweekantige hipotesetoets is, moet hierdie waarde

in twee gedeel word. Ons gebruik dus ’n α-waarde van 0.025 om die t-crit te bereken. Die

plek in die t-tabel waar die 0.025-kolom en die 35-ry kruis, bevat ’n t-waarde van 2.030.

Omdat dit ’n tweekantige toets is, is die t-waarde ± 2.030. Die diagram hieronder stel dit

grafies voor.




area val, word H0

verwerp.


area val, word H0

verwerp.

95% 2.5% 2.5%

t-crit = -2.030 t-crit = 2.030




t-stat = ��6*√�

waar:





Dus:

t-stat = ��.�√��

= -1.915


Om hierdie stap te voltooi is dit nodig om die t-stat met die t-crit te vergelyk. Die beste wyse

om dit te doen is op die normaalverdeling:

Die t-stat lê dus binne die aanvaardingsgebied.

Daar is nie voldoende bewyse om H0 te verwerp nie.




area val, word H0

verwerp.


area val, word H0

verwerp.

95% 2.5% 2.5%

t-crit = -2.030 t-crit = 2.030

t-stat = -1.915

X




Die gemiddelde ouderdom van Suid-Afrikaanse finansiële adviseurs is 49 jaar.

Hierdie gevolgtrekking mag as ’n verrassing kom. Die steekproef se gemiddeld was dan nie

49 nie! Wat hier gebeur het, is dat ons nie voldoende statistiese ondersteuning gevind het

om die nulhipotese te verwerp nie. Hoewel daar steeds ’n moontlikheid is dat

populasiegemiddeld nie 49 is nie, is hierdie moontlikheid nie 95% of groter nie. Ons sal

egter eerder veilig speel en by die nulhipotese bly. Hierdie ingesteldheid word later in hierdie

hoofstuk bespreek.

8.5 Terug by Sonja se hipotese

Aan die begin van hierdie hoofstuk het Sonja vir Michael gevra om ’n hipotesetoets te doen.

Kyk of jy die hipotesetoets self kan doen voordat jy na die oplossing hieronder kyk! (Jy kan

’n 95% vlak van sekerheid hiervoor gebruik.)

Michael se antwoord:

Kyk weer na die waardes wat Michael tot sy beskikking gehad het:

Steekproefgrootte(n): 201

Steekproefgemiddeld: 4.874

Steekproef-standaardafwyking: 1.25

Die hipotese kan afgelei word uit iets wat Sonja oor vorige navorsing gesê het: “Die

navorsers het na ’n aantal ontwikkelende lande gekyk en gevind dat die medium en groot

sakeondernemings in daardie lande, minder as vyf persent van hul jaarlikse uitgawes aan

navorsing toeken. Ek wou kyk of ons dieselfde resultate in Suid-Afrika sou vind.” Wat ons

dus wil toets is of die Suid-Afrikaanse populasie van ondernemings ook ’n gemiddeld van

minder as 5% van hul uitgawes aan navorsing spandeer.

Sonja het nie aangedui teen watter vlak van sekerheid sy haar hipotese wou toets nie. Ons

gaan vir die doel van hierdie bespreking ’n 95% vlak van sekerheid gebruik.

Ons kan nou die vyf stappe van hipotesetoetsing op Sonja se probleem van toepassing

maak:


H0: μ ≥ 5

H1: μ < 5





Ons moet die t-tabel gebruik omdat die populasie se standaardafwyking nie bekend is nie.

Ons benodig die grade van vryheid en die α-waarde hiervoor.

df = n – 1

= 201 – 1

= 200

α = 0.05 en, omdat ons met ’n eenkantige hipotesetoets werk, hoef ons nie die 0.05 in twee

te deel nie.

Die plek waar die 0.05-kolom en die 200-ry kruis, is by ’n t-waarde van 1.653. Hierdie is

egter ’n linkskantige hipotesetoets, wat beteken dat die t-crit negatief moet wees:

t-crit = -1.653


t-stat = ��6*√�

waar:





Dus:

t-stat = �. ��.��√��

= -1.429


Die t-crit en t-stat kan soos volg op die normaalverdeling aangedui word:



Die t-stat lê dus nie binne die verwerpingsarea nie.



Die populasiegemiddeld is nie minder as 5% nie.

Dus, hoewel Sonja se steekproefgemiddeld wel minder as 5 was, was die verskil nie groot

genoeg om vir moontlike foutiewe aannames voorsiening te maak nie.

’n Hipotesetoets: Die hofsaak

’n Maklike manier om na ’n hipotesetoets te verwys is om dit met ’n hofsaak te vergelyk. Jy

sal oplet dat ons nooit sê “die alternatiewe hipotese word aanvaar” nie. Die rede hiervoor is

omdat ons streng gesproke nooit die alternatiewe hipotese direk toets nie. Ons kyk na die

moontlikheid dat die nulhipotese nie waar is nie – die waarskynlikheid dat dit verwerp kan

word. En as ons die nulhipotese verwerp (en dit dus vals is), is daar geen alternatief

behalwe die feit dat die alternatiewe hipotese waar is nie.

Gestel jy is ’n regter. Die hipotesetoets is ’n hofsaak. Die wet wat jy gebruik is die kritiese

waarde (z-crit of t-crit). Die beskuldigde is die nulhipotese. Die nulhipotese word daarvan

beskuldig dat hy vals is. Indien die nulhipotese skuldig bevind word, word hy verwerp (na ’n

donker tronksel vir die res van sy lewe gestuur). Omdat die straf baie swaar is, wil ons egter

voldoende bewyse hê voordat ons besluit dat die nulhipotese verwerp word. Elke hofsaak is

anders: sommige hofsake vereis ’n 95% sekerheid, ander 99% en ander 90%.




area val, word H0

verwerp.

t-crit = -1.653

95% 5%

t-stat = -1.429

X



As jy besluit om die nulhipotese te verwerp (en in ’n donker tronksel se sit), los jy ’n gaping

in die plek waar hierdie nulhipotese eens was (voordat hy weggeneem is na die tronksel

toe). Die enigste beskikbare persoon om hierdie gaping te vul, is die alternatiewe hipotese.

Die rede waarom ons die alternatiewe hipotese as die waarheid aanvaar, is dus nie omdat

ons die alternatiewe hipotese getoets het nie. Dit is omdat die nulhipotese net eenvoudig nie

kan waar wees nie en die alternatiewe hipotese die enigste ander moontlike antwoord is.

8.6 Ten slotte

’n Hipotesetoets is baie nuttig om meer akkurate gevolgtrekkings ten opsigte van ’n

populasie te maak. Hierdie hoofstuk het slegs na een tipe hipotesetoets gekyk: een

veranderlike (’n gemiddeld) en een steekproef. Daar is egter ’n verskeidenheid van

hipotesetoetse. Die res van hierdie gids word toegewy aan hipotesetoetse. Dit is belangrik

dat jy hierdie hoofstuk onder die knie het voordat jy na ander hipotesetoetse gaan kyk. Al die

toetse volg dieselfde stappe, maar elkeen het ’n ander benadering.

Hoofstuk 9 gaan jou bekendstel aan ’n hipotesetoets vir twee steekproewe (en dus twee

populasies). Daar gaan steeds slegs een veranderlike (’n gemiddeld) wees, maar ons gaan

na die volgende kyk:

• Die verskil tussen die gemiddelde van twee populasies: Hier sal ons weer onderskei

tussen ’n t-toets en z-toets, afhangende van of die populasie se standaardafwyking

bekend is. Ons gaan toets of een populasie se gemiddeld groter as, kleiner as of

gelyk aan die gemiddeld van ’n ander populasie is.

• Die verandering van ’n veranderlike, gemeet by dieselfde populasie op twee

verskillende tye.


©akademia (MSW)| Hoofstuk 9: Hipotesetoets vir twee steekproewe 235

HHOOOOFFSSTTUUKK 99:: HHIIPPOOTTEESSEETTOOEETTSS VVIIRR TTWWEEEE SSTTEEEEKKPPRROOEEWWEE

Onderwerpe

9.1 Hipotesetoets vir een veranderlike, twee populasies;

populasie-standaardafwyking is bekend

9.2 Hipotesetoets vir twee steekproewe indien σ nie

bekend is nie

9.3 Die gepaarde t-toets (matched pair t-test)


236 Hoofstuk 9: Hipotesetoets vir twee steekproewe | ©akademia (MSW)

Gevallestudie…

“Ek hoor die Bemarkingsdepartement is baie beïndruk met hulle nuwe statistikus.”

Michael frons. Hy is nie bewus van enige iemand van hul departement wat by Bemarking

werk nie. “Wie is dit?”

Vanessa knip nie ’n oog nie. “Ek weet nie. Ek hoor net hy het hulle van totale ondergang

gered deur vir Sonja te leer hoe om ’n hipotesetoets te doen.”

Dan besef Michael dat Vanessa besig is om sy been te trek. Hy speel saam.

“Ek hoop dat die statistikus genooi is om op ’n Europese vakansie te gaan, sou ’n sekere

persoon in die Bemarkingsdepartement die kompetisie wen. Anders sal hy hulle moet

faktureer en ek hoor sy fooie is onbekostigbaar.”

Vanessa lag. “Ek het gehoop om dieselfde statistikus te gebruik vir ’n nuwe uitdaging.”

“Fooie is onderhandelbaar,” sê Michael vinnig.

“Mooi. Want ons het ’n paar hipotesetoetse om uit te voer.”

“Kan nie wag nie.” Michael maak ’n plek op die tafel skoon en Vanessa haal ’n paar

dokumente uit haar tas.

“Vasvat Versekeraars is steeds besig met ’n profiel van hul kliënte. Ongelukkig is daar nie

voldoende data beskikbaar om sommige van hul vrae te beantwoord nie. Ons sal self hierdie

data moet versamel en dit sal slegs deur ’n steekproef kan gebeur.”

“Wat wil hulle weet?”

“Vraag een: Hoe gereeld koop kliënte motors?”

“Dit is ’n eenvoudige toets,” sê Michael. “Waarmee wil hulle dit vergelyk?”

“Dit is die uitdaging. Vasvat wil kyk na verskillende profiele van kliënte en kyk of daar ’n

verskil is tussen die frekwensies waarteen hulle motors koop.”

“Watter tipe vraag sal ons vir die kliënte vra? Hoeveel motors het jy al gekoop?”

“Daardie vraag sal problematies wees as ons kliënte van verskillende ouderdomme vra. Ek

het gedink om te vra: ‘Hoeveel motors het jy in die laaste vyf jaar gekoop?’ En ons vra dit

slegs vir kliënte wat vir vyf jaar of langer oud genoeg is om te bestuur.”

“Ek stem saam,” antwoord Michael. “Wie is die verskillende groepe wat vergelyk moet

word?”

“Wel, terwyl jy die Bemarkingsdepartement van ondergang gered het, het ons veldwerkers



reeds inligting versamel vir ’n ander projek. Hulle het hierdie vraelys gestuur aan kliënte wat

vir die Vat-dit-Kalm- en die Pasgemaakte pakkette ingeskryf is.”

Michael kyk na die vraelys en sien, onder andere, die volgende vrae:

“Op die volgende bladsy is vrae oor die kliënt se pakket en inkomste,” beduie Vanessa. “Ek

het die rou data aangevra en ’n paar beskrywende statistieke verkry.” Sy oorhandig nog ’n

vel papier vir Michael. Hy sien die volgende:

Vat-dit-kalm Pasgemaak

Gemiddelde motorkoop-

frekwensie (motors per 5

jaar)

1.32 1.89

Standaardafwyking (s) 0.45 0.76

Steekproefgrootte (n) 46 36



Michael kyk vir ’n oomblik na die statistieke. “Ons kan ’n twee-steekproef t-toets doen om te

kyk of daar ’n verskil tussen die gemiddelde is. Dit hang natuurlik af wat Vasvat wil weet. Wil

hulle weet of daar ’n verskil is?”

“Hulle glo dat Pasgemaak-kliënte meer gereeld motors koop as die Vat-dit-kalm-kliënte. Ek

dink dus ons sal ’n regskantige hipotesetoets doen.”

“Tjop-tjop,” sê Michael selfversekerd. “Wat is die tweede vraag?”

“Vasvat het ’n opleidingsprogram vir hul bemarkingspersoneel aangebied. Hulle wil weet of

dit suksesvol was.”

“En hoe meet hulle sukses?”

“Maklik. Hulle kyk of die personeel se verkope toegeneem het. In randwaarde.”

“En het hulle daardie data beskikbaar? Dit sal makliker wees as ons nie ’n steekproef hoef te

doen nie, maar al die data kan gebruik.”

“Ongelukkig nie.” Vanessa het duidelik ook aan hierdie moontlikheid gedink. “Ons sal ’n

steekproef moet neem. Die goeie nuus is dat al die personeel wat die opleiding bygewoon

het, ’n bewys van hul laaste ses maande se verkope moes saambring. Ons het dus daardie

inligting beskikbaar. Ons sal ’n steekproef neem van almal wat die kursus bygewoon het en

hul laaste paar maande se verkoopsyfers aanvra.”

“En dan kan ons die verkoopsyfers voor die opleiding en die verkoopsyfers ná die opleiding

met mekaar vergelyk.”

“Korrek.”

Michael kyk weer na die inligting oor die frekwensie van motor-aankope. “Kan ek solank

hiermee begin?”

“Natuurlik,” antwoord Vanessa.

Om die vrae wat Vasvat Versekeraars hierbo vra te beantwoord, sal ons twee tipes

hipotesetoetse nodig hê. Die eerste vraag vergelyk bloot die gemiddelde van twee

populasies en bepaal of die een gemiddeld groter as die ander is. Die tweede vraag vergelyk

’n spesifieke veranderlike (verkope) by dieselfde populasie, maar die steekproef word twee

keer (oor ’n spesifieke tydperk) geneem.



9.1 Hipotesetoets vir een veranderlike, twee populasies; populasie-standaardafwyking is bekend

Soos wat die geval met vorige hipotesetoetse was, kan ons ’n z-toets en t-toets gebruik om

die verskil tussen twee populasiegemiddelde te bepaal. Ons gebruik die t-toets as ons slegs

die steekproef se standaardafwyking het en die populasie se standaardafwyking onbekend

is. As die populasie se standaardafwyking bekend is, kan ons egter die z-toets gebruik.

In laasgenoemde geval word die z-crit op presies dieselfde wyse bereken as wat ons met

Hoofstuk 8 se hipotesetoetse gedoen het. Die z-stat se formule is egter anders:

z-stat = �� 6�� 6��

C7�� D 7��

waar:

x1 = die eerste steekproef se gemiddeld

x2 = die tweede steekproef se gemiddeld

x1 – x2 = die verskil tussen die steekproefgemiddelde

μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag. (Dit

behoort dus die meeste van die tyd 0 te wees omdat die nulhipotese verwag dat daar geen

verskil tussen die twee populasies se gemiddelde is nie. Die alternatiewe hipotese sal die

verskil aandui.)

σ1 en σ2 = die populasie-standaardafwykings van die twee populasies

n1 en n2 = die steekproefgroottes van die twee steekproewe

Die normaalverdeling word steeds gebruik om die z-stat met die z-crit te vergelyk. Die

volgende voorbeelde sal hierdie tipe hipotesetoets verduidelik:

Voorbeeld: Hipotesetoets vir twee populasies; σ bekend

Vraag 1:

’n Navorser vermoed dat ervare akteurs meer geld verdien as beginner-akteurs. Hy trek

twee steekproewe: 81 ervare akteurs en 121 beginner-akteurs. Die gemiddelde inkomste

van die ervare akteurs is R1 850 vir ’n dag se werk, terwyl die beginner-akteurs gemiddeld

R1 650 per dag verdien. Jy kan aanneem dat die populasie-standaardafwykings vir ervare

akteurs se vergoeding R255 is en dat die populasie-standaardafwyking vir beginner-akteurs

se vergoeding R280 is.



Bepaal, teen ’n 95% vlak van sekerheid, of ervare akteurs wel meer as beginner-akteurs

verdien het.

Antwoord:

Die verskillende veranderlikes en ooreenkomstige waardes mag verwarrend voorkom as dit

in paragraaf-formaat verskaf word. Daarom is dit belangrik om eers die waardes op te som:

Veranderlike Steekproef/populasie 1

(Ervare akteurs)

Steekproef/populasie 2

(Beginner-akteurs)

Steekproefgemiddeld (x) R1 850 R1 650

Populasie-

standaardafwyking (σ) R255 R280


Nou kan ons dieselfde stappe volg wat ons in Hoofstuk 8 se hipotesetoetse gevolg het:


Die nulhipotese sal beweer dat daar geen verskil tussen die twee populasiegemiddelde is

nie. Die alternatiewe hipotese sal die besigheidsprobleem – dit wat die navorser vermoed –

toets:

H0: μ1 – μ2 ≤ 0

H1: μ1 – μ2 > 0

Die alternatiewe hipotese beweer dat daar wel ’n verskil is en dat die ervare akteurs

(populasie 1) se gemiddelde inkomste hoër sal wees as dié van beginner-akteurs.

Hierdie is ’n eenkantige (regskantige) hipotesetoets.


Omdat die populasie se standaardafwyking bekend is, kan ons die z-tabel gebruik. Ons

gebruik dieselfde metode as wat ons in Hoofstuk 8 gebruik het. Die vlak van sekerheid is

95%, wat beteken dat ons α-waarde 0.05 is. Omdat dit ’n eenkantige hipotesetoets is, hoef

die 0.05 nie in twee gedeel te word nie. Die z-crit is dus 1.645. Die z-crit word weereens

soos volg op die normaalverdeling aangedui:




Die formule vir die z-stat is anders as wat die geval van een populasie was. Die formule vir

die z-stat is:

z-stat = �� 6�� 6��

C7�� D 7��

waar:



μ1 – μ2 = die verskil tussen die populasiegemiddelde soos deur die nulhipotese verwag



Ons kan nou die waardes in die formule invervang:

z-stat = ��

&�� D � ��

��

= 5.251


Om hierdie besluit te neem word die z-stat weer met die z-crit vergelyk. Onthou om altyd ’n

normaalverdeling te teken voordat hierdie vergelyking gedoen word:




area val, word H0

verwerp.

z-crit =1.645

95% 5%



Die z-stat val binne die verwerpingsgebied. Dus:

Daar is voldoende statistiese ondersteuning om H0 te verwerp ten gunste van H1.


Ervare akteurs verdien inderdaad ’n hoër inkomste per dag as beginner-akteurs.

Vraag 2:

’n Navorser is geïnteresseerd in die hoeveelheid aanhangers wat sepiesterre op hul

Facebook-blaaie het. Die navorser kyk na twee gewilde sepies, wat vir die doel van hierdie

navorsing slegs Sepie 1 en Sepie 2 genoem sal word. Gebaseer op die kykergetalle van die

sepies, het die navorser rede om te glo dat akteurs wat in Sepie 1 speel, gemiddeld minder

Facebook-aanhangers sal hê as akteurs wat in Sepie 2 speel.

Die navorser trek twee steekproewe van alle akteurs wat in die laaste vyf jaar op die sepie

verskyn het en vind die volgende data:


(Sepie 1)


(Sepie 2)

Steekproefgemiddeld (x) 41 600 aanhangers 43 100 aanhangers

Populasie-

standaardafwyking (σ) 11 000 8 500


Toets die navorser se vermoede (dat die gemiddelde hoeveelheid aanhangers van ’n Sepie




area val, word H0

verwerp.

z-crit =1.645

95% 5%

z-stat =5.251

X



1-akteur minder sal wees as die gemiddelde hoeveelheid aanhangers van ’n Sepie 2-akteur)

teen ’n 95% vlak van sekerheid.

Antwoord:


H0: μ1 – μ2 ≥ 0

H1: μ1 – μ2 < 0



Die kritiese waarde is gebaseer op die α van 0.05. Omdat dit ’n eenkantige hipotesetoets is,

hoef hierdie waarde nie deur twee gedeel te word nie. Ons weet uit die vorige vraag die

ooreenkomstige z-waarde vir α = 0.05 is 1.645. Omdat hierdie egter ’n linkskantige

hipotesetoets is, sal die z-waarde negatief wees. Dus:

z-crit = -1.645


Dieselfde formule word vir die z-stat gebruik:

z-stat = �� 6�� 6��

C7�� D 7��

waar:






Ons kan nou die waardes in die formule invervang:

z-stat = $�� % � �

&�� D ��

��

= -0.986




Die z-stat word met die z-crit vergelyk. Die normaalverdeling word weereens hiervoor

gebruik:

Die z-stat is nie binne die verwerpingsgebied nie. Dus:



Die gemiddelde Sepie 1-akteur het nie minder aanhangers as die gemiddelde Sepie 2-

akteur nie.

Vraag 3:

’n Vervaardiger van ’n sepie wil seker maak dat daar nie teen akteurs gediskrimineer word

op grond van geslag nie. Die produksiemaatskappy het reeds ’n baie regverdige

vergoedingstelsel ontwikkel. Daar is egter sommige akteurs wat beweer dat daar nie

gelykheid is ten opsigte van die hoeveelheid woorde wat manlike en vroulike akteurs moet

leer nie. Die vervaardiger verskil van hierdie akteurs: hy glo dat die hoeveelheid woorde wat

manlike en vroulike akteurs moet leer, gelyk is.

Hy neem ’n steekproef van 100 tekste en tel die hoeveelheid woorde wat manlike en vroulike

akteurs moet sê. Hy vind die volgende:




area val, word H0

verwerp.

z-crit = -1.645

95% 5%

z-stat = -0.986

X




(Manlike akteurs)


(Vroulike akteurs)

Steekproefgemiddeld (x) 2 205 woorde 2 295 woorde

Populasie-

standaardafwyking (σ)

450 510


Toets die vervaardiger se aanname – dat manlike akteurs en vroulike akteurs dieselfde

hoeveelheid woorde moet leer – teen ’n 95% vlak van sekerheid.

Antwoord:


Die nulhipotese sal die =-teken bevat:

H0: μ1 – μ2 = 0

H1: μ1 – μ2 ≠ 0

Hierdie is ’n tweekantige hipotesetoets.


Die α-waarde is 0.05. Omdat ons egter ’n tweekantige hipotese toets, moet hierdie 0.05 in

twee gedeel word. Die z-waarde vir ’n α-waarde van 0.025 (dus 0.05 gedeel deur twee) is

±1.96.


Die toetsstatistiek se berekening word nie deur die aard van die hipotese beïnvloed nie. Ons

gebruik dus dieselfde formule:

z-stat = �� 6�� 6��

C7�� D 7��

waar:








z-stat = $� �� % � �

&�� D ��

��

= -1.323


Om hierdie besluit te neem moet die z-stat met die z-crit vergelyk word:

Die z-stat val dus nie in die gebied van verwerping nie:



Daar is geen verskil tussen die gemiddelde hoeveelheid woorde wat manlike en vroulike

akteurs moet leer nie.

9.2 Hipotesetoets vir twee steekproewe indien σ nie bekend is nie

Wanneer die populasie se standaardafwyking nie bekend is nie, kan ons nie die z-crit en

z-stat gebruik nie. In hierdie geval moet ons ’n t-toets (met ’n t-crit en t-stat) gebruik. Die




area val, word H0

verwerp.


area val, word H0

verwerp.

95% 2.5% 2.5%

z-crit = -1.96 z-crit = 1.96

z-stat = -1.323

X



t-toets vir twee steekproewe werk op dieselfde beginsel as vir een steekproef, maar die

volgende veranderings word aangetref:

• Die grade van vryheid wat vir die berekening van die t-crit benodig word, verskil van

dié van een steekproef.

• Die t-stat se formule verskil redelik baie van die z-stat wanneer ’n hipotesetoets vir

twee steekproewe gedoen word.

Grade van vryheid:

Die grade van vryheid vir een steekproef is maklik om te bereken. Ons gebruik die formule:

df = n – 1

In hierdie geval werk ons egter nie met slegs een steekproef nie, en die grade van vryheid

benodig ’n formule wat beide steekproewe in ag neem. Die formule vir die grade van vryheid

in hierdie geval is:

df = n1 + n2 – 2

Formule vir t-stat:

Die formule vir die t-stat lyk soos volg:

t-stat = �� 6� � 6��

&EF�� D ��

waar:

x1 = die gemiddeld van die eerste steekproef

x2 = die gemiddeld van die tweede steekproef


(hierdie sal in al die voorbeelde in hierdie hoofstuk 0 wees)

n1 = die steekproefgrootte van die eerste steekproef

n2 = die steekproefgrootte van die tweede steekproef

Sp2: Hierdie veranderlike is ’n gesamentlike standaardafwyking wat bereken moet word. Sp

2

het ’n aparte formule:

Sp2 =

�� *�� D �� *��D ��

waar:

n1 = die steekproefgrootte van Steekproef 1




s1 = die standaardafwyking van Steekproef 1


Wenk:

Die formule(s) vir die t-stat in hierdie geval mag intimiderend voorkom. Hierdie formule is

egter niks om voor bang te wees nie. Wanneer jy ’n hipotesetoets soos hierdie doen,

bereken eers met Sp2. As jy hierdie waarde in die t-stat se formule invervang, is die t-stat

formule selfs minder gekompliseerd as die z-stat!

Die volgende voorbeelde sal gebruik word om 'n t-toets te demonstreer:

Voorbeeld: Hipotesetoets vir twee steekproewe as σ onbekend is

Vraag 1:

Die bestuurder van ’n oproepsentrum bied ’n werkswinkel in produktiwiteit aan personeel wat

by die oproepsentrum werk. Die werkswinkel is nie verpligtend nie en daar is ’n groot

hoeveelheid personeel wat nie die werkswinkel bywoon nie. Die bestuurder vermoed egter

dat personeel wat die werkswinkel bygewoon het, gemiddeld meer kliënte per dag help as

personeel wat nie die werkswinkel bygewoon het nie. Die bestuurder trek ’n steekproef uit

elk van die twee populasies en vind die volgende:

Veranderlike


(Personeel wat die

werkswinkel bygewoon het)


(Personeel wat nie die

werkswinkel bygewoon het

nie)

Steekproefgemiddeld (x) 16.7 kliënte per dag gehelp 14.5 kliënte per dag gehelp

Steekproef-

standaardafwyking (s)

2.1 3.3


Bepaal, teen ’n 95% vlak van sekerheid, of die bestuurder se vermoede – dat personeel wat

die werkswinkel bygewoon het meer kliënte op ’n dag help as dié wat nie die werkswinkel

bygewoon het nie – waar is.



Antwoord:

Ons volg dieselfde stappe vir die toets van ’n hipotese:


Die hipotesestellings verskil nie van die voorbeelde wat ons vroeër in hierdie hoofstuk

gedoen het nie.

H0: μ1 – μ2 ≤ 0

H1: μ1 – μ2 > 0

Hierdie is ’n eenkantige (regskantige) hipotesetoets.


Om die kritiese waarde te bereken benodig ons die vlak van sekerheid en die grade van

vryheid. Ons gaan die t-tabel hiervoor gebruik.

Die vlak van sekerheid is 95%, wat vir ons ’n α-waarde van 0.05 gee. Omdat dit ’n

eenkantige hipotesetoets is, hoef die 0.05 nie in twee gedeel te word nie.

Die grade van vryheid vir twee steekproewe se formule is:

df = n1 + n2 – 2

Waar n1 en n2 die groottes van die twee steekproewe voorstel, dus:

df = 40 + 32 – 2

= 70

Ons kan dus nou die t-tabel gebruik. Die plek waar die 0.05-kolom en die 70-ry kruis, verskaf

’n t-waarde van 1.667. Dus:

t-crit = 1.667


Om die toetsstatistiek (t-stat) te bereken benodig ons eerstens Sp2. Die formule is:

Sp2 =

�� *� � D �� *��D ��

waar:







Dus:

Sp2 =

�� .��D �� .�� D ��

= 7.2979

Sodra ons hierdie waarde het, kan ons die t-stat bereken. Die formule vir die t-stat is:

t-stat = �� 6�� 6��

&EF�� D � ��

waar:






Dus:

t-stat = ��.� � ��.�� &�.�� D ��

= 3.438


Die t-crit word met die t-stat vergelyk:



Die t-stat lê dus in die gebied van verwerping. Dus:

Daar is voldoende statistiese bewys om die H0 te verwerp ten gunste van H1.


Die bestuurder se vermoede is bevestig: Personeel wat die werkswinkel bygewoon het, help

gemiddeld meer kliënte per dag as personeel wat nie die werkswinkel bygewoon het nie.

Vraag 2:

’n Bestuurder van ’n internasionale 24-uur oproepsentrum glo dat personeel wat in die nag

werk minder kliënte in ’n skof help as personeel wat in die dag werk. Die bestuurder glo dat

nagskofpersoneel dus minder betaal moet word. Die bewering word deur die

nagskofpersoneel bevraagteken en die bestuurder besluit om die stelling te toets. Sy neem

twee steekproewe uit die dagskof- en nagskofpersoneel onderskeidelik en vind die

volgende:


(Nagskofpersoneel)


(Dagskofpersoneel)

Steekproefgemiddeld (x) 13.1 kliënte per skof gehelp 15.2 kliënte per skof gehelp

Steekproef-


4.1 5.2


Bepaal, teen ’n 95% vlak van sekerheid, of die bestuurder se aanname – dat




area val, word H0

verwerp.

t-crit =1.667

95% 5%

t-stat =3.438

X



nagskofpersoneel minder kliënte per skof help as dagskofpersoneel – korrek is.

Antwoord:

Omdat ons nie die populasie se standaardafwyking tot ons beskikking het nie, moet ons die

t-toets gebruik.


H0: μ1 – μ2 ≥ 0

H1: μ2 – μ2 < 0



Om t-crit te vind benodig ons ’n waarde vir α en die grade van vryheid:

α = 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef die 0.05 nie deur twee gedeel te

word nie.

df = n1 + n2 – 2

= 22 + 20 – 2

= 40

In die t-tabel, op die plek waar die 0.05-kolom en die 40-ry kruis, vind ons 'n waarde van

1.684. Omdat dit egter 'n linkskantige hipotesetoets is, sal die t-crit negatief wees. Dus:

t-crit = -1.684


Om die toetsstatistiek te bereken moet ons eers Sp2 bereken:

Sp2 =

�� *� � D �� *��D ��

= �� 4.�>D �� <.�>

�� D ��

= 21.6693

Ons kan nou die t-stat bereken:

t-stat = �� 6�� 6��

&EF�� D ��

waar:








Dus:

t-stat = ��.� � ��.��

&��.�� D ��

= -1.460


Om hierdie besluit te neem moet die t-stat met die t-crit vergelyk word:

Die t-stat val dus nie in die area van verwerping nie. Dus:



Die bestuurder se aanname is foutief – daar is geen verskil tussen die hoeveelheid kliënte

wat per skof deur die nag- en dagskofpersoneel bedien word nie.

Vraag: Watter steekproef is Steekproef 1?

Hoe weet ’n mens dat die nagskofpersoneel die eerste steekproef moes wees en die

dagskofpersoneel die tweede? Die antwoord is dat dit nie werklik saak maak nie. Indien jy




area val, word H0

verwerp.

t-crit = -1.684

95% 5%

t-stat = -1.460

X



sou besluit dat die dagskofpersoneel Steekproef 1 moes wees, sou die hipotese

regskantig gewees het (dagskofpersoneel bedien meer kliënte as nagskofpersoneel), die

t-crit sou positief gewees het, die t-stat sou positief gewees het, maar die nulhipotese sou

steeds nie verwerp word nie.

Dus, ongeag watter steekproef as Steekproef 1 geklassifiseer word, die gevolgtrekking sal

dieselfde bly. Onthou egter: as jy ’n groep as Steekproef 1 geklassifiseer het, moet jy by

daardie klassifisering bly vir die hele hipotesetoets.

Probeer dieselfde voorbeeld hierbo, maar stel Steekproef 1 as die dagskofwerkers en

Steekproef 2 as die nagskofwerkers. Kyk of jy tot dieselfde gevolgtrekking sal kom.

Vraag 3:

Die bestuurder van ’n oproepsentrum wil bepaal of daar ’n verskil is tussen die gemiddelde

ouderdom van nagskof- en dagskofpersoneel. Die bestuurder onttrek ’n steekproef uit die

twee groepe en vind die volgende:


(Nagskofpersoneel)


(Dagskofpersoneel)

Steekproefgemiddeld (x) 26.9 jaar 31.8 jaar

Steekproef-


3.1 5.5


Bepaal, teen ’n 95% vlak van sekerheid, of daar ’n verskil tussen die gemiddelde ouderdom

van die nagskof- en dagskofpersoneel is.

Antwoord:


H0: μ1 – μ2 = 0

H1: μ1 – μ2 ≠ 0

Hierdie is ’n tweekantige hipotesetoets.


Die α-waarde is 0.05. Omdat dit ’n tweekantige hipotesetoets is, moet die α-waarde deur

twee gedeel word. Ons gebruik dus αααα = 0.025.




df = n1 + n2 – 2

= 18 + 22 – 2

= 38

Die plek in die t-tabel waar die 0.025-kolom en die 38-ry kruis, verskaf ’n t-waarde van

2.024. Omdat dit ’n tweekantige hipotesetoets is, kom die t-crit aan beide kante van die

normaalverdeling voor. Dus:

t-crit = ±2.204


Om die toetsstatistiek te bereken moet ons eers Sp2 bereken:

Sp2 =

�� *�� D �� *��D ��

= �� .��D �� .��

� D ��

= 21.0163

Nou kan ons die t-stat bereken:

t-stat = �� 6�� 6��

&EF�� D ��

= ��.� � ��. � � �

&��.�� D ��

= -3.363


Om hierdie besluit te neem moet die t-stat met die t-crit vergelyk word:



Die t-stat val in die verwerpingsgebied. Dus:

Daar is voldoende bewys om H0 te verwerp ten gunste van H1.


Daar is wel ’n verskil tussen die gemiddelde ouderdom van dagskof- en nagskofpersoneel.

Vraag 4: Vasvat Versekeraars

Kyk weer na die probleem wat Vanessa aan die begin van hierdie hoofstuk met Michael

gedeel het. Tydens ’n steekproef in twee verskillende populasies (Vat-dit-kalm-kliënte en

Pasgemaak-kliënte) is die volgende data gevind:

Vat-dit-kalm Pasgemaak

Gemiddelde motorkoop-

frekwensie (motors per 5

jaar)

1.32 1.89

Standaardafwyking (s) 0.45 0.76


Vasvat Versekeraars vermoed dat die Pasgemaak-kliënte meer gereeld motors koop as die

Vat-dit-kalm-kliënte. Toets nou hierdie hipotese teen ’n 95% vlak van sekerheid.

Antwoord:

Jy kan self besluit watter steekproef jy as Steekproef 1 en Steekproef 2 wil klassifiseer. Vir




area val, word H0

verwerp.


area val, word H0

verwerp.

95% 2.5% 2.5%

t-crit = -2.204 t-crit = 2.204

t-stat = -3.363

X



hierdie voorbeeld sal ons Vat-dit-kalm-kliënte in Steekproef 1 plaas, terwyl die Pasgemaak-

kliënte Steekproef 2 sal wees. Die besigheidsvraag sal dan ook aangepas word: Ons wil

toets of die Vat-dit-kalm-kliënte minder gereeld motors koop as die Pasgemaak-kliënte.


H0: μ1 – μ2 ≥ 0

H1: μ1 – μ2 < 0

Hierdie is ’n eenkantige (linkskantige) hipotese.


Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef hierdie waarde nie in

twee gedeel te word nie.

Die grade van vryheid word soos volg bereken:

df = n1 + n2 – 2

= 46 + 36 – 2

= 80

Die plek in die t-tabel waar die 0.05-kolom en 80-ry kruis, verskaf ’n t-waarde van 1.664.

Omdat hierdie ’n linkskantige hipotesetoets is, sal die t-crit negatief wees. Dus:

t-crit = -1.664


Om die t-stat te bereken moet ons eers Sp2 bereken:

Sp2 =

�� *� � D �� *��D ��

= �� .��D �� .��

�� D ��

= 0.367

Ons kan nou die t-stat bereken:

t-stat = �� 6�� 6��

&EF�� D ��

= ��.�� . �� &�.�� D � ��

= -4.228




Vergelyk die t-stat met die t-crit:

Die t-stat val in die area van verwerping. Dus:



Die Vat-dit-kalm-kliënte koop inderdaad minder gereeld motors as die Pasgemaak-kliënte.

(Hierdie gevolgtrekking kan ook herfraseer word na: Die Pasgemaak-kliënte koop inderdaad

meer gereeld motors as die Vat-dit-kalm-kliënte.)

9.3 Die gepaarde t-toets (matched pair t-test)

’n Tweede vraag wat deur Vasvat versekeraars gevra is, behels die verandering wat ’n

spesifieke populasieverandering oor ’n sekere tydperk ondergaan het. In Vasvat se geval is

dit die gemiddelde ses-maande verkoopsyfers, voor en na die opleiding. Ander vrae wat

deur hierdie spesiale toets beantwoord kan word, is:

• Het studente beter punte behaal na die ekstra klas aangebied is?

• Het pasiënte se witbloedsel-telling toegeneem/afgeneem nadat hulle behandeling

ontvang het?

• Het die voorkoms van padongelukke verminder nadat die bewusmakingsveldtog

geloods is?




area val, word H0

verwerp.

t-crit = -1.664

95% 5%

t-stat = -4.228

X



Hierdie hipotesetoets verskil van die vorige toetse in hierdie hoofstuk in die sin dat ons een

populasie twee keer ondersoek om te bepaal of ’n sekere populasiegemiddeld toegeneem,

afgeneem of dieselfde gebly het.

Die stappe vir ’n hipotesetoets bly dieselfde. Hierdie toets word op dieselfde wyse benader

as die t-toets wat ons in Hoofstuk 8 gedoen het. Die enigste verskil is dat ons

steekproefgemiddeld nie x is nie, maar xd. En xd moet eers bereken word voordat ons met

die hipotesetoets kan begin. Sodra xd gevind word, kan die hipotesetoets op dieselfde wyse

as Hoofstuk 8 se t-toets voltooi word.

Belangrik:

Soos jy uit die bogenoemde bespreking kan aflei, is dit belangrik dat jy Hoofstuk 8 onder die

knie het voordat jy met hierdie hipotesetoets kan voortgaan.

Die volgende voorbeelde verduidelik hoe die gepaarde t-toets gedoen word.

Voorbeeld: Die gepaarde t-toets

Vraag 1:

’n Statistiekdosent wil bepaal of Winterskool ’n positiewe effek op studente se punte het. Die

dosent laat studente ’n toets skryf voordat hulle die Winterskool bywoon. Na die Winterskool

laat die dosent die studente ’n soortgelyke toets skryf. Die dosent wil bepaal of die studente

se punte verbeter het na die Winterskool. Hy neem ’n steekproef van 15 studente en vind elk

se punte voor en na die toets. Die punte word hieronder verskaf:

Leerder Toetspunt voor

Winterskool

Toetspunt na

Winterskool

1 75 79

2 70 74

3 50 55

4 40 45

5 66 62

6 67 65

7 65 68

8 68 74



9 68 66

10 70 72

11 73 72

12 75 77

13 88 85

14 83 90

15 90 89

Bepaal, teen ’n 95% vlak van sekerheid, of die populasie se punte verbeter het na die

Winterskool.

Antwoord:

Voordat ons met die hipotesetoets kan begin, moet ons eers die nodige steekproefstatistieke

bereken. Hierdie is die gemiddeld en standaardafwyking van die verskil in punte. Om die

gemiddeld en standaardafwyking te bereken moet ons dus eers gaan bepaal wat die verskil

in punte vir elke student is. Ons kan dit in tabelvorm doen:

Studente Toetspunt voor

Winterskool

Toetspunt na

Winterskool

Verskil in

punte (Xd)

1 75 79 -4

2 70 74 -4

3 50 55 -5

4 40 45 -5

5 66 62 4

6 67 65 2

7 65 68 -3

8 68 74 -6

9 68 66 2

10 70 72 -2

11 73 72 1



12 75 77 -2

13 88 85 3

14 83 90 -7

15 90 89 1

Wanneer die Xd kolom se waardes bereken is, kan ons die oorblywende twee kolomme

(toetspunt voor die Winterskool en toetspunt na die Winterskool) vir die res van die

hipotesetoets ignoreer. Ons berekening word nou slegs met die Xd kolom se waardes

gedoen.

Studente Toetspunt voor

Winterskool

Toetspunt na

Winterskool

Verskil in punte

(Xd)

1 75 79 -4

2 70 74 -4

3 50 55 -5

4 40 45 -5

5 66 62 4

6 67 65 2

7 65 68 -3

8 68 74 -6

9 68 66 2

10 70 72 -2

11 73 72 1

12 75 77 -2

13 88 85 3

14 83 90 -7

15 90 89 1

Gemiddeld van verskil in punte

Hierdie veranderlike word as xd voorgestel. Dit is die gemiddelde verskil in die punte, met

ander woorde, die gemiddeld van die laaste kolom in die tabel hierbo:



xd = [(-4) + (-4) + (-5) + (-5) + 4 + 2 + (-3) + (-6) + 2 + (-2) + 1 + (-2) + 3 + (-7) + 1] / 15

= -1.667

Let daarop dat hierdie gemiddeld negatief is, wat beteken die gemiddelde verskil tussen die

toetspunt voor die Winterskool en die toetspunt na die Winterskool, is negatief. Dit beteken

dat, gemiddeld, die toetspunt na die Winterskool groter is as die toetspunt voor die

Winterskool.

Standaardafwyking

Die standaardafwyking word bereken met die formule wat in Hoofstuk 3 verskaf word. Die

waardes wat vir die standaardafwyking gebruik word, is ook slegs die Xd kolom se waardes.

Jy kan self die standaardafwyking bereken. Hou in gedagte dat die gemiddeld ’n negatiewe

waarde is. Byvoorbeeld: die eerste waarde in die Xd kolom is -4. Die gemiddeld is -1.667.

Dus sal (xd – xd)2 vir die eerste waarde soos volg bereken word:

[-4 – (-1.667)]2

= (-4 + 1.667)2

= -2.3332

= 5.443

Jy sal hierdie berekening moet herhaal vir elke waarde in die xd kolom om by die

standaardafwyking uit te kom. Die standaardafwyking is:

sd = 3.559

Ons het nou al die nodige veranderlikes om ’n gewone t-toets uit te voer:


H0: μd ≥ 0

H1: μd < 0

Die alternatiewe hipotese beweer dat die gemiddelde toetspunt meer is na die Winterskool

as voor die Winterskool. Met ander woorde, die gemiddelde verskil (toetspunt voor die

Winterskool minus toetspunt na die Winterskool) is negatief.



Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef ons nie die 0.05 in twee

te deel nie.




df = n – 1

= 15 – 1

= 14

Die plek in die t-tabel waar die 0.05-kolom en die 14-ry kruis, gee aan ons ’n t-waarde van

1.761. Omdat dit ’n linkskantige hipotesetoets is, sal hierdie waarde egter negatief wees.

Dus:

t-crit = -1.761


Die formule vir ’n gewone t-toets vir een steekproef kan gebruik word:

t-stat = �G � 6G*G√�

waar:

xd = steekproefgemiddeld vir die verskil

μd = populasiegemiddeld vir die verskil soos deur die nulhipotese gestel

sd = die steekproef-standaardafwyking vir die verskil


Dus:

t-stat = ��.��.��√��

= -1.814


Die t-stat moet met die t-crit vergelyk word:



Die t-stat lê in die area van verwerping. Dus:



Die verskil tussen die punte is inderdaad kleiner as nul. Dit beteken dat die punte wel

toegeneem het na die Winterskool.

Vraag 2: Terug by Vasvat Versekeraars

Gestel Vanessa en Michael het die navorsing soos aan die begin van hierdie hoofstuk

bespreek, uitgevoer. Onthou dat Vasvat Versekeraars wou weet of die werkswinkel wel

personeel se verkoopsyfers beïnvloed het. Meer spesifiek, hulle wou weet of die personeel

se verkope gemiddeld meer was na die werkswinkel as voor die werkswinkel.

Die dataversamelingsproses het die volgende resultate van 20 werknemers gelewer:

Personeel

Ses maande se verkoopsyfers

Voor die werkswinkel Na die werkswinkel

1 R120 000 R130 000

2 R120 500 R110 000

3 R90 500 R110 000

4 R170 000 R190 000




area val, word H0

verwerp.

t-crit = -1.761

95% 5%

t-stat = -1.814

X



5 R220 000 R245 000

6 R77 800 R77 900

7 R230 000 R180 000

8 R330 000 R344 000

9 R176 900 R180 000

10 R580 000 R550 000

11 R150 000 R300 000

12 R160 500 R165 000

13 R155 100 R157 000

14 R322 000 R325 000

15 R221 000 R229 000

16 R276 500 R278 500

17 R113 800 R120 500

18 R167 500 R180 000

19 R340 500 R390 000

20 R75 500 R80 000

Bepaal nou, teen ’n 95% vlak van sekerheid, of die personeel by Vasvat Versekeraars wat

die werkswinkel bygewoon het, se verkoopsyfers wel toegeneem het na die werkswinkel.

Antwoord:

Om die vraag te beantwoord benodig ons weereens die verskil tussen die verkoopsyfers

voor en na die werkswinkel. Dan benodig ons die gemiddeld en die standaardafwyking van

die verskil. Hierdie statistieke word in die onderstaande tabel voorgestel:

Personeel

Ses maande se verskoopsyfers

Voor die werkswinkel Na die werkswinkel xd

1 R120 000 R130 000 -R10 000

2 R120 500 R110 000 R10 500



3 R90 500 R110 000 -R19 500

4 R170 000 R190 000 -R20 000

5 R220 000 R245 000 -R25 000

6 R77 800 R77 900 -R100

7 R230 000 R180 000 R50 000

8 R330 000 R344 000 -R14 000

9 R176 900 R180 000 -R3 100

10 R580 000 R550 000 R30 000

11 R150 000 R300 000 -R150 000

12 R160 500 R165 000 -R4 500

13 R155 100 R157 000 -R1 900

14 R322 000 R325 000 -R3 000

15 R221 000 R229 000 -R8 000

16 R276 500 R278 500 -R2 000

17 R113 800 R120 500 -R6 700

18 R167 500 R180 000 -R12 500

19 R340 500 R390 000 -R49 500

20 R75 500 R80 000 -R4 500

Gemiddeld (xd) -R12 190

Standaardafwyking (sd) R38 059.30

Met hierdie waardes tot ons beskikking, kan ons nou die hipotesetoets doen:


H0: μd ≥ 0

H1: μd < 0



Die α-waarde is 0.05. Omdat dit ’n eenkantige hipotesetoets is, hoef ons nie die 0.05 in twee



te deel nie.

df = n – 1

= 20 – 1

= 19

Die plek in die t-tabel waar die 0.05-kolom en die 19-ry kruis, verskaf ’n t-waarde van 1.729.

Omdat dit ’n linkskantige hipotesetoets is, sal die t-crit ook negatief wees. Dus:

t-crit = -1.729


Die formule vir die toetsstatistiek is:

t-stat = �G � 6G*G√�

waar:

xd = steekproefgemiddeld vir die verskil

μd = populasiegemiddeld vir die verskil soos deur die nulhipotese gestel

sd = die steekproef-standaardafwyking vir die verskil


Dus:

t-stat = �� .��√��

= -1.432


Die t-stat moet met die t-crit vergelyk word:



Die t-stat lê nie in die area van verwerping nie. Dus:

Daar is nie voldoende bewys om H0 te verwerp nie.


Daar is geen verskil tussen die verkoopsyfers voor en na die werkswinkel nie.

9.4 Ten slotte

Ons het in hierdie hoofstuk na twee tipes hipotesetoetse gekyk. Die eerste toets of daar ’n

verskil tussen die gemiddelde van ’n spesifieke veranderlike in twee populasies is. Die

tweede toets of daar ’n toename of afname in ’n spesifieke veranderlike in ’n spesifieke

populasie is. Al die hipotesetoetse in hierdie hoofstuk, asook in Hoofstuk 8, het egter net op

een veranderlike gefokus.

Die volgende hoofstuk bespreek ’n baie spesiale hipotesetoets: ’n toets wat bepaal of twee

veranderlikes in een populasie statisties afhanklik is van mekaar. Hierdie is ’n belangrike

toets: wanneer ’n verwantskap tussen twee veranderlikes ontdek word, is dit die eerste stap

om te kan bepaal of een veranderlike ’n invloed op die ander het. Hoofstuk 10 sal hierdie

hipotesetoets in meer besonderhede bespreek.




area val, word H0

verwerp.

t-crit = -1.729

95% 5%

t-stat = -1.432

X


©akademia (MSW)| Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid 269

HHOOOOFFSSTTUUKK 1100:: HHIIPPOOTTEESSEETTOOEETTSS VVIIRR SSTTAATTIISSTTIIEESSEE AAFFHHAANNKKLLIIKKHHEEIIDD

Onderwerpe

10.1 Statistiese afhanklikheid

10.2 Die χχχχ2-stat


270 Hoofstuk 10: Hipotesetoets vir statistiese afhanklikheid | ©akademia (MSW)

Gevallestudie…

“Michael, ontmoet my suster, Nadia en haar verloofde, Werner. Werner snork.”

Michael staar verward na Sonja. Michael kon aan ’n hele rits redes dink waarom Sonja hom

na StatInc se koffiewinkel genooi het, maar nie een van daardie redes sluit ’n bekendstelling

aan haar familie in nie. En die feit dat Werner snork is ’n stukkie inligting waarop hy nie

voorbereid was nie. Onder normale omstandighede is Michael nie op die bek geval nie,

maar al wat hy nou doen is om skaapagtig na Sonja te sit en staar.

Sonja gaan egter onverpoosd voort. “Dit is ’n belangrike stukkie inligting vir jou, Michael.

Veral omdat jy en Werner ’n kamer sal moet deel.”

“Ek is bevrees jy het my lankal verloor,” is al wat Michael kan uitkry.

“Ek haat dit om ’n kamer te deel met iemand wat snork. Ek het gedink jy sou dit wou weet

voordat jy finaal besluit om saam te gaan.”

“Saamgaan waarheen?”

“Europa toe, natuurlik!”

En dan tref dit Michael.

“Jy’t gewen?”

Sonja is in ekstase. “Natuurlik het ek gewen! En ek is iemand wat my woord hou, so jy is een

van die reisigers wat Nederland, Frankryk en Engeland gaan besoek. Dit is nou as jy nie

omgee om ’n kamer met ’n snorker te deel nie. Vir my sou dit ’n deal breaker wees.”

“Haai,” protesteer Werner. “As jou suster enigsins geglo kan word, is jy ’n kampioen as dit by

balke saag kom.”

Nadia lag. “Werner! Dit is vertroulike inligting. Wat moet Michael van ons dink?”

“Dis fantasties!” Michael sukkel om verhaal te kom.

“Wat is?” skerts Sonja. “Die feit dat Werner dink ek snork of die vakansie?”

“Hierdie is nie een of ander grap nie?” vra Michael.

Werner trek ’n gepynigde gesig. “Ek is bevrees dit is die absolute, reine waarheid. Ek en jy

gaan twee weke in die geselskap van die veeleisendste mense op die planeet deurbring.”

“So ek het reg geraai?”

Sonja knik. “Jy beter jou statistiese vaardighede aanwend om die weer te voorspel. Ek kan

nie vir vier seisoene pak nie. Kom Nadia, ek wil my neus gaan poeier.”



Sonja en Nadia staan op. “Mens gebruik nie meer daardie uitdrukking nie,” skerts Nadia

terwyl hulle wegstap en vir Werner en Michael alleen los.

“Ek hoor jy is ’n Statistiek-fundi,” sê Werner ’n paar oomblikke later.

Michael bloos. “Ek sou nie so sê nie. Ek is ’n eerstejaarstudent.”

“Volgens wat Sonja my vertel het, is jy een stappie onder Einstein. Dis nou as Einstein

Statistiek kon doen.”

“Ek is seker hy kon en ek het nog baie jare om te gaan voordat ek een stappie onder

Einstein met enigiets sal wees.”

Werner kry ’n idee. “Ek en Nadia stry nou al vir maande oor iets. Miskien kan jy ons help om

finaal vrede te kry.”

“Het dit iets met Statistiek te doen?” Michael is dadelik geïnteresseerd.

“Absoluut,” antwoord Werner. “Wie weet, dalk sal jy ons huwelik red,” voeg hy gemaak-

ernstig by.

“Ek sal my bes probeer. Wat is die probleem?”

“Dit is eintlik eenvoudig,” verduidelik Werner. “Ek glo dat die hoeveelheid geld wat ek op

vakansie spandeer, nie altyd dieselfde is nie.”

“Daar is duisende faktore wat jou uitgawes kan beïnvloed.”

“Ek is geïnteresseerd in een van daardie faktore. Die verskil of jy alleen, of saam met

vriende reis. Ek glo dat reisigers wat saam met hul vriende reis nie dieselfde geld spandeer

as reisigers wat alleen reis nie.”

Michael dink ’n oomblik.

“Jy het ’n navorsingsprojek met ’n eksperimentele ontwerp nodig.”

“Kan jy dit doen?”

“Ongelukkig nie. Dit is baie gekompliseerd. As jy wil seker wees dat jou metgeselle, of die

gebrek daaraan, jou uitgawes beïnvloed, moet jy alle ander moontlike faktore in ag neem.

Dit is ’n komplekse proses.”

Werner knik afgehaal. “Ek sien. Ek het so gehoop dat ek ’n antwoord op hierdie

lewensbelangrike vraag kon kry.”

Michael kry 'n idee. “Wat ek wel kan doen, is om te bepaal of die twee veranderlikes

statisties afhanklik is. Ek kan kyk of reisuitgawes en of jy alleen of met vriende reis, aan



mekaar verwant is.”

“Wat is die verskil tussen dit en die eksperimentele ontwerp?”

“’n Eksperimentele ontwerp toets die invloed van een veranderlike op ’n ander een. Een

veranderlike kan nie ’n invloed op ’n ander een hê as die veranderlikes nie statisties

afhanklik is nie.”

“So, as jy vind dat die hoeveelheid geld wat jy op vakansie spandeer wel... uhm... statisties

afhanklik is van of jy alleen of met vriende reis, wat beteken dit?” wil Werner weet.

“Wel, as ons statistiese afhanklikheid vind, is daar ’n moontlikheid dat die een veranderlike

die ander beïnvloed. Dit is egter slegs ’n eerste stap in die toets vir invloed.”

“Maar as ons vind dat die twee veranderlikes nié afhanklik is nie...” huiwer Werner

“...dan kan ons aanneem dat daar geen invloed van die een veranderlike op die ander is

nie,” voltooi Michael die sin.

“Ek sien. So die uitslag sal óf beteken dat Nadia reg is, óf dat ek dalk, dalk miskien reg kan

wees?”

“So iets. Wil jy die kans waag om verkeerd te wees?”

Werner lag en sê dan gemaak-vertroulik: “Ons maak dit ’n geheime navorsingsprojek.”

“Ek begin dadelik,” lag Werner. Hy weet sommer dat die twee weke in Europa ’n vakansie

sal wees wat hy nooit sal vergeet nie.

10.1 Statistiese afhanklikheid

’n Belangrike uitdaging waarmee navorsers gekonfronteer word, is om te bepaal of een

veranderlike ’n invloed op ’n ander veranderlike het. Beïnvloed die wisselkoers Suid-

Afrikaners se besluit om in die buiteland vakansie te hou? Sal maklike krediet veroorsaak

dat ’n kliënt meer geld spandeer? Het die kleur, uitleg en atmosfeer van ’n winkel ’n invloed

op die hoeveelheid geld wat kliënte in die winkel spandeer?

Hierdie vrae is nie maklik om te beantwoord nie. Navorsing wat poog om hierdie vrae te

beantwoord volg ’n eksperimentele ontwerp, iets wat nie binne die raamwerk van hierdie

gids val nie. Wat het hierdie tipe vrae dan met hierdie hoofstuk te doen?

Een van die eerste vereistes (en dus toetse wat uitgevoer word) om te bepaal of een

veranderlike ’n ander beïnvloed, is statistiese afhanklikheid. As daar gevind word dat twee

veranderlikes statisties onafhanklik is, beteken dit dat die veranderlikes mekaar nie



beïnvloed nie. Die toets vir statistiese afhanklikheid is dus ’n eerste stap om te bepaal of

twee veranderlikes mekaar beïnvloed. Dit is belangrik om op die volgende te let:

• Indien twee veranderlikes statisties afhanklik is, is daar ’n moontlikheid dat een

veranderlike die ander kan beïnvloed. Statistiese afhanklikheid is nie voldoende

bewys dat een veranderlike ’n ander beïnvloed nie.

• Indien twee veranderlikes statisties onafhanklik is, kan ons aanneem dat die een nie

die ander sal beïnvloed nie.

• Statistiese afhanklikheid is ’n vereiste wat nodig is, maar nie voldoende is om die

invloed van een veranderlike op ’n ander te toets nie.

Voorbeeld: Die verskil tussen invloed en statistiese afhanklikheid

’n Navorser versamel die verkoopsyfers van ’n bakkery en ’n apteek op ’n vakansiedorpie by

die see. Die navorser vind dat daar een of ander statistiese afhanklikheid tussen die

verkoopsyfers van die bakkery en die apteek is. Wanneer die bakkery se verkoopsyfers

verhoog, blyk dit dat die apteek se syfers ook verhoog, veral tydens Desember. Die

verkoopsyfers van die bakkery en die apteek is dus statisties afhanklik.

Kan die navorser dus tot die gevolgtrekking kom dat die bakkery se brood die mense siek

maak? Natuurlik nie! Daar is wel ’n afhanklikheid tussen die veranderlikes – iets wat nodig is

om die invloed van die een veranderlike op ’n ander veranderlike toe toets, maar statistiese

afhanklikheid is nie voldoende bewys hiervoor nie. Die navorser moet eers alle ander

moontlike veranderlikes (soos die tyd van die jaar, die hoeveelheid besoekers aan die

vakansiedorpie, of advertensies in dieselfde publikasies) in ag neem voordat sy so ’n invloed

kan vind.

Hierdie hoofstuk sal nie die invloed van een veranderlike op ’n ander toets nie. Dit sal egter

toets of daar een of ander statistiese afhanklikheid tussen die veranderlikes is. Die

toetsstatistiek wat ons in hierdie geval gebruik, is die chi-kwadraatstatistiek of χ2-stat (chi-

squared stat).

10.2 Die χχχχ2-stat

Die berekening van die toetsstatistiek verskil van dié van ander hipotesetoetse. Voordat

hierdie statistiek bereken kan word, moet die rasionaal onderliggend aan die toetsstatistiek

eers verstaan word. Om die rasionaal te verduidelik sal die volgende voorbeeld gebruik

word:



’n Navorser wil bepaal of die geslag van ’n kliënt en die kleur motor wat deur daardie kliënt

gekies word, statisties afhanklik is. Die navorser kyk na 350 transaksies en kyk spesifiek na

die geslag van die kliënt en die kleur motor wat gekoop is. Die volgende data word verkry:

Kliënt geslag TOTAAL

Manlik Vroulik

Rooi motor 46 34 80

Silwer motor 90 120 210

Blou motor 33 27 60

TOTAAL 169 181 350

Die nulhipotese van hierdie tipe toets beweer dat daar geen statistiese afhanklikheid is nie.

Dit beteken:

• Daar is ongeveer ewe veel rooi motors deur mans as vroue gekoop.

• Daar is ongeveer ewe veel silwer motors deur mans as vroue gekoop.

• Daar is ongeveer ewe veel blou motors deur mans as vroue gekoop.

Op die oog af lyk dit of die nulhipotese moontlik nie korrek is nie. Daar is veral ’n groot

verskil by die silwer motor se verkope. “Op die oog af” is egter nie ’n akkurate wyse om ’n

hipotese te toets nie. Ons moet steeds ’n toetsstatistiek bereken.

Die χ2 (chi-kwadraat)-toets volg die volgende logika:

• Skep ’n tabel van ’n datastel wat eenhonderd persent statisties onafhanklik is, deur

van die totale in die tabel hierbo gebruik te maak. Hierdie tabel se waardes word

verwagte waardes genoem.

• Vergelyk die data wat ons deur die steekproef verkry het (geobserveerde waardes)

met hierdie verwagte waardes. Indien dit soortgelyk is, is die veranderlikes

onafhanklik. Indien dit drasties verskil, is die veranderlikes afhanklik.



Die skets hieronder poog om hierdie rasionaal grafies voor te stel:

X X X X X X <------- VERGELYK ------>

As hierdie twee dieselfde is,

is die veranderlikes

statisties onafhanklik.

As hierdie twee drasties

verskil, is die veranderlikes

statisties afhanklik.

X X X X X X

X X X X X X X X X X X X

X X X X X X X X X X X X

Hierdie is hoe my

data sou lyk as die

veranderlikes

statisties

ONAFHANKLIK

was.

Ons noem dit die

verwagte waardes.

Jy moet hierdie

waardes self gaan

bereken.

Hierdie is die data

wat ek met my

steekproef

versamel het.

Ons noem dit die

geobserveerde

waardes.

Hierdie waardes

word in die vraag

vir jou gegee.

Figuur 10.1: Grafiese voorstelling van verwagte en geobserveerde waardes

Vir die bogenoemde voorbeeld gaan ons nou die χ2-stat bereken.

Die geobserveerde waardes:

Hierdie waardes is reeds verskaf as deel van die vraag. Dit is die data wat vanaf die

steekproef deur ons dataversameling verkry is. Vir maklike verwysing word hierdie waardes

weer hieronder verskaf:


Manlik Vroulik

Rooi motor 46 34 80

Silwer motor 90 120 210

Blou motor 33 27 60

TOTAAL 169 181 350



Verwagte waardes:

Ons moet nou ’n tabel opstel wat gaan aandui hoe die waardes sou lyk as die veranderlikes

statisties onafhanklik sou wees. Om die verwagte waardes te bereken benodig ons die

totale van die geobserveerde waardes (die tabel hierbo):

Kliënt geslag

TOTAAL

Manlik Vroulik

Rooi motor

80

Silwer motor

210

Blou motor

60

TOTAAL 169 181 350

Nou moet ons die verwagte waardes vir elk van die leë selle gaan bereken. Die formule om

hierdie waardes te bereken, kan soos volg beskryf word:

Verwagte waarde = (Rytotaal x Kolomtotaal) / Totaal

Dus, om die verwagte waarde vir die hoeveelheid manlike kliënte wat rooi motors gekoop

het te bereken, neem ons die rytotaal (80 vir rooi motors), vermenigvuldig dit met die

kolomtotaal (169 vir manlike kliënte) en deel die antwoord deur die totale kliënte (350

kliënte):

(80 x 169) / 350 = 38.629

Dus is die verwagte waarde vir manlike kliënte wat rooi motors koop:

Kliënt geslag

TOTAAL

Manlik Vroulik

Rooi motor 38.629

80

Silwer motor

210

Blou motor

60

TOTAAL 169 181 350



Die verwagte waarde vir manlike kliënte wat silwer motors koop is:


Manlik Vroulik

Rooi motor 80

Silwer motor 101.4 210

Blou motor 60

TOTAAL 169 181 350

of (210 x 169) / 350 = 101.4

Herhaal hierdie proses totdat daar ’n verwagte waarde vir elke leë sel is. Jy kan toets of jy

jou verwagte waardes korrek bereken het deur al die selle se waardes op te tel. Jou ry- en

kolomtotale moet steeds dieselfde wees as die oorspronklike (geobserveerde) waardes. Vir

hierdie voorbeeld sal die verwagte-waardes-tabel soos volg lyk.

Verwagte waardes (indien statisties onafhanklik)


Manlik Vroulik

Rooi motor 38.63 41.37 80

Silwer motor 101.40 108.60 210

Blou motor 28.97 31.03 60

TOTAAL 169 181 350

Die verwagte waardes word deur die simbool fe voorgestel (die “e” staan vir “expected”). Die

geobserveerde waardes sal dan deur fo voorgestel word.

Bereken χ2-stat

Om die verskil tussen die verwagte en geobserveerde waardes te bepaal, gaan die χ2-stat

bereken word. Die formule is:

χχχχ2-stat = ∑ ��H� ��

��

Dit egter makliker om hierdie statistiek met ’n tabel te bereken. Die tabel lyk soos volg:



Geslag Kleur fo fe (fo – fe)2 ��H − ��

��

Manlik Rooi motor

Silwer motor

Blou motor

Vroulik Rooi motor

Silwer motor

Blou motor

χχχχ2-stat

Hierdie tabel word dan nou van die linkerkant na die regterkant ingevul. Die eerste twee

kolomme is maklik: ons het reeds die geobserveerde en verwagte waardes bereken. Ons

kan dit net so uit die onderskeie tabelle oorskryf:

Geslag Kleur fo fe (fo – fe)

2 ��H − ��

��

Manlik Rooi motor 46 38.63

Silwer motor 90 101.40

Blou motor 33 28.97

Vroulik Rooi motor 34 41.37

Silwer motor 120 108.60

Blou motor 27 31.03

χχχχ2-stat

Sodra hierdie waardes oorgedra is, kan ons met die berekeninge voortgaan. Om die

berekeninge te vergemaklik word dit in twee kolomme ingedeel:

• (fo – fe)2: Neem elke waarde in die fo-kolom, trek die waarde in die fe-kolom daarvan

af en kwadreer die antwoord.

• ��H� ��

�� : Neem nou die antwoord wat in die (fo – fe)2-kolom verkry is, en deel dit deur

die waarde in die fe-kolom.



• Tel die waardes in die �JK� JL�>

JL -kolom bymekaar. Die antwoord is die χ2-stat.

As ons hierdie berekeninge gedoen het, sal die finale tabel soos volg lyk:

Geslag Kleur fo fe (f0 – fe)2 ��H − ��

��

Manlik Rooi motor 46 38.63 54.33796 1.406678

Silwer motor 90 101.40 129.96 1.281657

Blou motor 33 28.97 16.22939 0.560186

Vroulik Rooi motor 34 41.37 54.33796 1.313418

Silwer motor 120 108.60 129.96 1.196685

Blou motor 27 31.03 16.22939 0.523047

χχχχ2-stat 6.28167

Die χ2-stat is dus 6.282. Dit sal met die χ2-crit vergelyk word om te bepaal of H0 verwerp kan

word.

Die bogenoemde bespreking het slegs op die berekeninge van die χ2-stat gefokus. Die res

van die hoofstuk sal die volledige hipotesetoets behandel. Ter opsomming: om ’n χ2-stat te

bereken moet die volgende gedoen word:

• Die waardes wat deur die steekproefneming verkry word, word die geobserveerde

waardes genoem en deur die simbool fo voorgestel.

• Bereken die verwagte waardes. Die verwagte waardes is ’n beraming van die

waardes wat verkry sou word indien daar geen afhanklikheid tussen die

veranderlikes was nie. Verwagte waardes word met die simbool fe voorgestel.

• In tabelformaat, bereken �JK � JL�>

JL vir elke verwagte en geobserveerde waarde.

• Tel die waardes in die �JK � JL�>

JL -kolom bymekaar. Hierdie totaal is die χ2-stat.



Voorbeeld: Hipotesetoets vir statistiese afhanklikheid

Vraag 1:

’n Navorser wil bepaal of Suid-Afrikaners en buitelandse toeriste dieselfde

besienswaardighede in Suid-Afrika besoek. Die navorser verdeel die besienswaardighede in

drie kategorieë:

• Monumente en geboue

• Nasionale parke (om wilde diere te sien)

• Strande

Die navorser vra vir 450 vakansiegangers wat hul gunsteling vakansiebestemming in Suid-

Afrika is. Hy vra ook vir elkeen in watter land hulle gebore is en klassifiseer toeriste as Suid-

Afrikaans of internasionaal (indien hulle nie Suid-Afrikaans is nie).

Die volgende frekwensies word vir elke kategorie verkry:

Geobserveerde waardes

Nasionaliteit TOTAAL

Suid-Afrikaans Internasionaal

Monumente en geboue 55 60 115

Nasionale parke 70 95 165

Strande 90 80 170

TOTAAL 215 235 450

Bepaal, teen ’n 95% vlak van sekerheid, of nasionaliteit en keuse van toeriste-aantreklikheid

statisties afhanklik is.



Antwoord:

Die vyf stappe vir die toets van ’n hipotese word gevolg:


Soos reeds vroeër genoem, sal die nulhipotese altyd beweer dat daar geen statistiese

afhanklikheid is nie. Die alternatiewe hipotese sal dan beweer dat die twee veranderlikes wel

statisties afhanklik is.

H0: Nasionaliteit en keuse van toeriste-aantreklikheid is statisties onafhanklik

H1: Nasionaliteit en keuse van toeriste-aantreklikheid is statisties afhanklik


Om die kritiese waarde te bereken benodig ons grade van vryheid en ’n α-waarde. Ons

gebruik ook die χ2-tabel (aan die einde van hierdie gids). Hou in gedagte dat ’n χ2-hipotese

altyd eenkantig sal wees.

Gebaseer op ons vlak van sekerheid is die α-waarde 0.05.

Omdat ons met verskillende groeperings van data werk, sal ons grade van vryheid ook

anders bereken word. Vir ’n χ2-toets word die grade van vryheid met die volgende formule

bereken:

df = (hoeveelheid rye – 1) x (hoeveelheid kolomme – 1)

In hierdie geval het ons drie rye (Monumente en geboue, Nasionale parke, en Strande) en

twee kolomme (Suid-Afrikaans en Internasionaal). Daarom is ons grade van vryheid:

df = (3 – 1) x (2 – 1)

= 2 x 1

= 2

Om die χ2-crit te bepaal gebruik ons die χ2-tabel. Ons vind die 0.05-kolom en die 2-ry. Waar

hierdie kolom en ry kruis, vind ons die χ2-crit. Die χ2-crit is positief.

χχχχ2-crit = 5.991

As die χ2-stat groter as 5.991 is, sal die nulhipotese verwerp word. Indien nie, sal die

nulhipotese nie verwerp word nie. Die χ2-grafiek lyk soos volg:




Hierdie stap is breedvoerig aan die begin van die hoofstuk bespreek. Ons moet eers die

verwagte waardes (vir ’n statisties onafhanklike datastel) bereken. Dit word gedoen deur, vir

elke sel, die kolomtotaal en rytotaal te vermeningvuldig en dan deur die totale

steekproefgrootte te deel. Die volgende tabel sal gevind word:


Nasionaliteit TOTAAL

Suid-Afrikaans Internasionaal

Monumente en geboue 54.94 60.06 115

Nasionale parke 78.83 86.17 165

Strande 81.22 88.78 170

TOTAAL 215 235 450

Nou kan ons die verwagte waardes en geobserveerde waardes saam in ’n tabel voeg om die

χ2-stat te bereken:

Nasionaliteit Besienswaardighede fo fe (fo – fe)2

��H − ��

Suid-Afrikaans Monumente en geboue 55 54.94 0.003 0.000

Nasionale parke 70 78.83 78.028 0.990

As χ2-stat in hierdie deel

val, sal H0 nie verwerp

word nie.


val, sal H0 verwerp word

95% 5%

χ2-crit = 5.991



Strande 90 81.22 77.049 0.949

Internasionaal Monumente en geboue 60 60.06 0.003 0.000

Nasionale parke 95 86.17 78.028 0.906

Strande 80 88.78 77.049 0.868


Dus: χχχχ2-stat = 3.712


Om hierdie besluit te neem moet die χ2-stat met die χ2-crit vergelyk word.

χ2-stat is kleiner as χ2-crit (5.991) en kan dus nie verwerp word nie.



Nasionaliteit en keuse van toeriste-aantreklikheid is statisties onafhanklik.

Vraag 2: Werner se probleem

Kom ons kyk weer na die vraag wat Werner gevra het. Hy wou weet of die hoeveelheid geld

wat iemand op reis spandeer statisties afhanklik is van die feit dat hy alleen of saam met

vriende reis. Michael het 200 reisigers genader en die volgende vrae gevra:

• Tydens u laaste vakansie, het u (1) alleen of (2) saam met vriende gereis?

• Wat was die gemiddelde bedrag wat u daagliks tydens hierdie vakansie spandeer



word nie.



95% 5%


χχχχ2-stat = 3.712

X



het?

Om die antwoorde te vergemaklik, kon respondente uit drie kategorieë kies:

• Minder as R250 per dag

• R250 tot R1 000 per dag

• Meer as R1 000 per dag

Respondente wat nie alleen of saam met vriende gereis het nie, is nie by die steekproef

ingesluit nie. Die resultate wat Michael gevind het, word in die onderstaande tabel verskaf:

Geobserveerde waardes

Metgeselle

TOTAAL Reis alleen

Reis met

vriende

< R250 per dag 30 40 70

R251 - R1000 per dag 29 35 64

Meer as R1000 per

dag 34 32 66

TOTAAL 93 107 200

Bepaal, teen ’n 90% vlak van sekerheid, of die twee veranderlikes statisties afhanklik is.

Antwoord:


H0: Die hoeveelheid geld spandeer en die feit dat ’n reisiger alleen of saam met vriende

reis, is statisties onafhanklik.

H1: Die hoeveelheid geld spandeer en die feit dat ’n reisiger alleen of saam met vriende

reis, is statisties afhanklik.


Die α-waarde vir ’n 90% vlak van sekerheid is 0.1.

Die grade van vryheid vir drie rye en twee kolomme is:

df = (hoeveelheid rye – 1) x (hoeveelheid kolomme – 1)

= (3 – 1) x (2 – 1)

= 2 x 1



= 2

Die χ2-crit vir waar die 0.1-kolom en die 2-ry kruis, is 4.605.



Ons moet eerstens die verwagte waardes bereken:


Metgeselle

TOTAAL Reis

alleen

Reis met

vriende

< R250 per dag 32.55 37.45 70

R251 - R1000 per dag 29.76 34.24 64

Meer as R1000 per

dag 30.69 35.31 66

TOTAAL 93 107 200

Nou kan ons ’n tabel skep waarop die χ2-stat bereken gaan word:

Metgeselle Geld spandeer fo fe (f0 – fe)

2 ��H − ��

��

Reis alleen < R250 per dag 30 32.55 6.5025 0.19977

R251 - R1000 per 29 29.76 0.5776 0.019409



word nie.



90% 10%

χ2-crit = 4.605



dag

Meer as R1000

per dag 34 30.69 10.9561 0.356993

Reis met vriende < R250 per dag 40 37.45 6.5025 0.173632

R251 - R1000 per

dag 35 34.24 0.5776 0.016869

Meer as R1000

per dag 32 35.31 10.9561 0.310283


χχχχ2-stat = 1.077


χ2-stat is kleiner as die χ2-crit van 4.605. Dus:



Die bedrag wat ’n reisiger spandeer is statisties onafhanklik van die feit dat hy/sy alleen of

met vriende reis. Nadia is dus korrek.



word nie.



90% 10%

χ2-crit = 4.605

χ2-stat = 1.077

X



10.3 Ten slotte

Die χ2-toets is in hierdie hoofstuk gebruik om te bepaal of twee veranderlikes statisties

afhanklik is. Hou egter in gedagte dat dit nie die enigste toets is wat met χ2 gedoen kan word

nie. Daar is ander gebruike vir hierdie statistiek wat nie deel van die omvang van hierdie gids

uitmaak nie. Dit sal ’n goeie idee wees om ’n bietjie selfstudie te doen en meer oor χ2 uit te

vind.

Ons het tot op hede die volgende hipotesetoetse gedoen:

• ’n Hipotesetoets vir een steekproef en een veranderlike: Ons het getoets of ’n

populasiegemiddeld groter as, kleiner as of gelyk aan ’n spesifieke getal was.

• ’n Hipotesetoets vir twee steekproewe met een veranderlike: Ons het gekyk of

een populasiegemiddeld groter as, kleiner as of gelyk aan ’n ander

populasiegemiddeld is.

• Die gepaarde t-toets (matched-pair t-test): Hier het ons getoets of ’n sekere

veranderlike verhoog, verlaag of dieselfde gebly het wanneer dit voor en na ’n

spesifieke insident by die populasie gemeet word.

• Die χχχχ2-toets: Hierdie toets bepaal, onder andere, of twee veranderlikes statisties

afhanklik is.

Die volgende hoofstuk gaan die F-toets, of ANOVA-toets bespreek. Hierdie hipotesetoets

kyk na een veranderlike by meer as twee steekproewe en bepaal of daar ’n verskil tussen

die gemiddelde waardes van hierdie veranderlike is.



Notas


©akademia (MSW)| Hoofstuk 11: ANOVA 289

HHOOOOFFSSTTUUKK 1111:: AANNOOVVAA

Onderwerpe

11.1 Wat is ANOVA?

Die hipotese

Die F-tabel

Die F-stat

SST

SSE

MST


290 Hoofstuk 11: ANOVA | ©akademia (MSW)

Gevallestudie…

Daar heers doodse stilte in Vanessa se kantoor. Iemand wat verby die kantoor stap sonder

om in te kyk, mag dink dat die kantoor, soos ’n groot deel van StatInc se gebou, verlate is.

Die maatskappy se jaareindfunksie is twee weke gelede gehou. Kort daarna het die

hoeveelheid personeel op die perseel vinnig begin afneem. Dié wat nie kinders op skool

gehad het nie, het ’n paar dae vroeër op vakansie gegaan om die groot vakansieverkeer te

mis.

Die dag nadat die rapporte by die skole uitgedeel is, het die gebou egter in ’n spookhuis

verander. Die meeste personeel is weg om ’n welverdiende Desembervakansie te geniet.

Hier en daar kan daar nog personeel gesien word wat tot die laaste dag bly, hoofsaaklik om

telefone te beantwoord tot StatInc amptelik vir die vakansie sluit.

Die atmosfeer in die gebou is lui en verveeld. Personeel wat gelukkig genoeg is om nie

alleen ’n hele kantoor te beman nie, probeer die tyd met geselsies met kollegas verwyl. Dié

wat alleen op ’n vloer sit, hou hulself besig met boeklees of kaartspeletjies. Almal wag vir die

laaste uur van die laaste dag van die werkjaar. En daardie dag is vandag.

Iemand wat die moeite doen om wel by Vanessa se kantoor in te loer, sal verras wees.

Anders as die res van die gebou, is Vanessa se kantoor ’n miernes van bedrywighede.

Vanessa, Michael en Sonja sit elk voor ’n skootrekenaar en werk dat dit klap. Min woorde

word gewissel – elkeen weet wat hy of sy moet doen. En hulle moet dit voor die einde van

die dag doen.

StatInc het ’n laat versoek van Vasvat Versekeraars ontvang. ’n E-pos met ’n paar statistiese

vrae is aan Vanessa gestuur. Niemand sou Vanessa kwalik neem indien sy die e-pos

geïgnoreer het en eers die volgende jaar beantwoord het nie. Almal weet dat die einde van

die jaar aangebreek het en dat dienste-ondernemings soos StatInc sluit. Dit is egter nie in

Vanessa se aard om e-posse te ignoreer nie.

Die vrae wat Vasvat gevra het, is nie moeilik om te beantwoord nie. Die data wat daarvoor

versamel moet word, is reeds beskikbaar. Al wat nodig is, is ’n paar statistiese berekeninge.

Vir die meeste mense behoort dit nie ’n probleem te wees nie. Maar die meeste mense moet

nie oor vier ure by die lughawe wees nie!

Michael en Sonja het nie beplan om teen hierdie tyd nog te werk nie. Sonja het haar werk by

die Bemarkingsdepartement afgehandel en vir Michael kom haal. Hulle sou saam met Sonja

se ouers na Michael se huis toe ry om sy bagasie op te laai en dan rustig na die lughawe

vertrek. Sonja het egter net die kantoor binnegekom toe Vanessa brommend op die e-pos

reageer.



“Is dit nou die tyd om so ’n e-pos te stuur?” het sy gesê.

“Dit klink nie goed nie.” Michael en Sonja het ’n bekommerde kyk gedeel.

Vanessa het gesug. “Nie doodsake nie. Ek gaan net drie ure langer moet werk vandag.”

Sy het opgekyk en vasgekyk in die gesigte van ’n bekommerde Michael en Sonja. Sy kon

nie help om te lag nie. “Ontspan! Dit is net slegte tydsberekening. Vasvat het vir my ’n lys

met vyf vrae gestuur. Hulle sê dit is nie dringend nie, hoewel dit wonderlik sou wees om die

antwoorde te hê voordat die feesseisoen begin.”

“Met ander woorde, hulle soek die antwoorde nou.”

“Presies. Maar dit behoort nie te lank te neem nie.”

“Drie ure,” sê Sonja.

“Dalk minder.”

“En as drie mense daaraan werk? Sal dit dan een uur neem?”

Vanessa het Sonja ’n kwaai kyk gegee. “Onder geen omstandighede nie. As julle jul vliegtuig

mis sal ek myself nooit vergewe... Wat doen julle?”

Sonder om vir ’n uitnodiging te wag het Michael en Sonja hulself elk by ’n tafel tuisgemaak.

Sonja het haar skootrekenaar uitgehaal en aangeskakel. Vanessa het besef dat sy nie eens

moet probeer protesteer nie. Michael en Sonja het duidelik besluit om te bly tot die werk

klaar is.

En nou is daardie uur amper verby.

“Hoe lyk die beskrywende statistiek?” vra Vanessa. Sonja het dit duidelik gemaak dat, ten

spyte van Michael se hipotesetoets-les, sy nie ’n ekspert met inferensiële statistiek is nie.

Sy het egter aangebied om al die beskrywende statistiek in Microsoft Excel te doen.

“Klaar. Ek stuur vir jou.”

“Vraag 4 se hipotesetoets is gedoen,” voeg Michael by. “Ek stuur vir jou die resultate. Ek

dink Vasvat moet nog ’n paar werknemers by die oproepsentrums aanstel.”

“Fantasties,” antwoord Vanessa.

“Wat is Vraag 5? Ek kan solank daarmee begin.” Michael geniet die opwinding van ’n

sperdatum, veral as hy in ’n groep met sulke hoogs-gemotiveerde kollegas kan werk.

Vanessa kyk na die e-pos.

“Is daar ’n verskil tussen die gemiddelde hoeveelheid oproepe wat deur die drie verskillende



oproepsentrums hanteer word?”

“Watter data het ons?” vra Michael.

“Vyf dae se totale hoeveelheid oproepe vir Oproepsentrum A en C. Vier dae vir

Oproepsentrum B.”

“Dis maar min.”

Vanessa knik. “Dit is net om ’n herverdeling van personeel vir die feesseisoen te beplan.”

Vanessa stuur ’n e-pos met die data aan vir Michael. Hy sien die volgende:

Oproepsentrum A Oproepsentrum B Oproepsentrum C

350 280 330

250 220 320

200 250 100

90 180 150

310

400

“Watter toets gaan jy doen?” vra Sonja. “Die t-toets?”

“Nee,” antwoord Michael, “die t-toets kan gebruik word om die verskil tussen twee

gemiddelde te toets. Ons het hier te doen met drie steekproewe en dus drie populasies.” Hy

kyk vir Vanessa. “ANOVA?”

“Jip,” antwoord Vanessa sonder op om te kyk.

“A wat?” vra Sonja.

11.1 Wat is ANOVA?

ANOVA is ’n akroniem vir Analysis of Variance. Die toets word gebruik om te bepaal of die

gemiddeld van ’n spesifieke veranderlike dieselfde is oor meer as twee populasies. Met

ANOVA is daar dus:

• een veranderlike (byvoorbeeld gemiddelde hoeveelheid oproepe per dag ontvang);

en

• meer as twee steekproewe (byvoorbeeld, oproepsentrum A, Oproepsentrum B en

Oproepsentrum C).

ANOVA toets bloot of daar ’n verskil tussen die gemiddelde is. Die toets dui nie aan watter

gemiddelde verskil nie. Byvoorbeeld, as daar ’n groot verskil tussen Oproepsentrum A en



Oproepsentrum B se gemiddelde hoeveelheid daaglikse oproepe is, sal die ANOVA slegs

aandui dat die gemiddelde nie dieselfde is nie. Die navorser sal dan verdere toetse moet

doen om te bepaal watter gemiddelde van mekaar verskil.

ANOVA is veral nuttig indien daar ’n hele paar steekproewe is. Dink aan ’n geval waar ons

met, byvoorbeeld, 10 steekproewe werk. Ons stel slegs belang om te weet of die

gemiddelde dieselfde is. Met ’n t-toets sou ons elke moontlike paar gemiddelde moes toets –

iets wat 45 hipotesetoetse sou vereis. Een ANOVA-toets kan egter vir ons aandui of hierdie

gemiddelde almal gelyk is. Die toets is ontwerp om enige groot variansie in die gemiddelde

op te merk en dan aan te dui.

� Die hipotese

Die nulhipotese van ’n ANOVA-toets stel dat al die steekproewe se gemiddelde gelyk is aan

mekaar. Die alternatiewe hipotese beweer dat ten minste een gemiddeld van die ander

verskil.

� Die F-tabel

Die kritiese en toetsstatistiek wat ons gebruik, is die F-crit en F-stat. Die F-tabelle word ook

aan die einde van die hierdie gids verskaf. Om ’n F-crit van die F-tabel af te lees, benodig

ons drie waardes: die hoeveelheid steekproewe (voorgestel deur k); die totale hoeveelheid

waardes in al die steekproewe (voorgestel deur N); en die α-waarde.

Ons benodig twee tipes grade van vryheid vir hierdie toets:

• dfn: Die n staan vir numerator. Hierdie grade van vryheid word gevind deur die

berekening k – 1. As daar dus 3 steekproewe is, sal dfn = 3 – 1 = 2.

• dfd: Die d staan vir denominator. Hierdie grade van vryheid word gevind deur die

berekening N – k. As daar dus 14 waardes in drie steekproewe voorkom (soos in die

geval van Vasvat se vraag), is

dfd = 14 – 3 = 11.

Omdat ons egter drie waardes moet gebruik, sou ons ’n driedimensionele F-tabel benodig:

die F-waarde is op die plek waar dfn en dfd en αααα kruis. Dit is egter nie moontlik om so ’n

tabel op ’n tweedimensionele bladsy in ’n boek te skep nie. Daarom word daar twee

verskillende F-tabelle in hierdie gids verskaf:

• ’n F-tabel waar α = 0.05 (vir ’n ANOVA-toets teen 95% sekerheid)

• ’n F-tabel waar α = 0.01 (vir ’n ANOVA-toets teen 99% sekerheid)



Dit is natuurlik ook moontlik om F-toetse vir 90% vlak van sekerheid te doen.

� Die F-stat

Die F-stat is nie moeilik om te bereken nie, maar behels ’n groot hoeveelheid berekeninge

en neem tyd in beslag. Ons benodig die volgende om die F-stat te bereken:

� SST

SST staan vir Sum of squares. Om SST te bereken, word die verskil tussen elke

steekproefgemiddeld en die totale gemiddeld (al die waardes in al die steekproewe

bymekaargetel en gedeel deur N) bepaal en afsonderlik gekwadreer. SST poog dus om te

bepaal tot watter mate elke steekproef se gemiddeld van die totale gemiddeld verskil. Hoe

groter SST is, hoe groter is die verskil tussen die verskillende steekproefgemiddelde en

totale gemiddeld.

Op ’n meer grafiese wyse kan die doel van SST soos volg beskryf word:


350 280 330

250 220 320

200 250 100

90 180 150

310 400

GEMIDDELD x1 = 240 x2 = 232.5 x3 = 260

SST toets tot watter mate hierdie drie waardes van

hierdie totale gemiddeld verskil

Totale gemiddeld: = 245



Die formule vir SST is:

SST = ∑ �M��M − ��NM

Wat beteken hierdie formule?

• Trek die totale gemiddeld ( ) van elke steekproef se gemiddeld af (bv. 240 – 245 vir

die eerste steekproef).

• Kwadreer die antwoord.

• Vermenigvuldig die antwoord met die grootte van die steekproef: in die Vasvat-

voorbeeld is dit 5 vir die eerste steekproef (n1), 4 vir die tweede steekproef (n2) en 5

vir die derde steekproef (n3).

• Tel hierdie drie antwoorde bymekaar om SST te vind.

Vir die Vasvat-voorbeeld

Ons kan nou die SST vir die Vasvat-voorbeeld hierbo bereken:

SST = ∑ �M��M − ��NM

= 5(240 – 245)2 + 4(232.5 – 245)2 + 5(260 – 245)2

= 5(-5)2 + 4(-12.5)2 + 5(15)2

= 125 + 625 + 375

= 1 875

� SSE

SSE staan vir Error Sum of Squares. Hierdie berekening bepaal die variansie tussen elke

waarde en die gemiddeld van die steekproef waarin hierdie waarde voorkom. Vir Steekproef

1 (Oproepsentrum A), sal daar dus gekyk word in watter mate die waardes 350, 250, 200, 90

en 310 van die gemiddeld van 240 afwyk. Dieselfde sal vir Steekproef 2 en 3 gedoen word.

Hierdie individuele afwykings word dan gekwadreer en bymekaargetel. Die formule vir SSE

is:

SSE = ∑ ∑ ��M − �M��M

Hierdie formule kan intimiderend voorkom. Die formule sê egter die volgende:

• Neem die eerste steekproef. Trek die steekproefgemiddeld af van die eerste waarde

in die steekproef. Kwadreer die antwoord. Herhaal nou vir elke waarde in hierdie

steekproef.



• Herhaal die vorige stap vir die oorblywende steekproewe.


Ons kan nou die SSE vir die Vasvat-voorbeeld hierbo bereken:

SSE = ∑ ∑ ��M − �M��M

Steekproef 1 (Oproepsentrum A)

Steekproefgemiddeld = 240

(350 – 240)2 + (250 – 240)2 + (200 – 240)2 + (90 – 240)2 + (310 – 240)2

= (110)2 + (10)2 + (-40)2 + (-150)2 + (70)2

= 12 100 + 100 + 1 600 + 22 500 + 4 900

= 41 200

Steekproef 2 (Oproepsentrum B):

Steekproefgemiddeld = 232.5

(280 – 232.5)2 + (220 – 232.5)2 + (250 – 232.5)2 + (180 – 232.5)2

= (47.5)2 + (-12.5)2 + (17.5)2 + (52.5)2

= 2 256.25 + 156.25 + 306.25 + 2 756.25

= 5 475

Steekproef 3 (Oproepsentrum C):

Steekproefgemiddeld = 260

(330 – 260)2 + (320 – 260)2 + (100 – 260)2 + (150 – 260)2 + (400 – 260)2

= (70)2 + (60)2 + (-160)2 + (-110)2 + (140)2

= 4 900 + 3 600 + 25 600 + 12 100 + 19 600

= 65 800

SSE = 41 200 + 5 475 + 65 800

= 112 475



� MST

MST staan vir Mean Square Treatment. Hierdie berekening neem die SST en pas dit aan

om vir die hoeveelheid steekproewe wat daar is, voorsiening te maak. Ons gebruik dus k in

hierdie formule. Die formule vir MST is:

MST = EEON��

waar k die hoeveelheid steekproewe voorstel. MST is, inderwaarheid, ’n variansie, soos wat

ons in Hoofstuk 3 bereken het.


MST = EEON��

= � 3P<�

= 937.5

� MSE

MSE staan vir Mean Square Error. Hierdie is ’n variansie wat ons bereken deur die totale

hoeveelheid waardes in al die steekproewe (N), asook die hoeveelheid steekproewe (k) in

ag te neem.

Die formule vir MSE is:

MSE = EEQR�N


MSE = SSTU�V

= �� 4P<��

= 10 225

� F-stat

Die laaste stap in die berekening is die F-stat. Die F-stat word bereken deur MST deur MSE

te deel. Die formule vir die F-stat is dus:

F-stat = WEOWEQ



Hierdie F-stat sal dan met die F-crit vergelyk word om te bepaal of die nulhipotese verwerp

moet word.


F-stat = WEOWEQ

= =8P.<�� <

= 0.0916

Die bespreking hierbo het slegs beskryf hoe ’n F-stat bereken sal word. Die Vasvat-

voorbeeld gaan nou gebruik word om die ANOVA-hipotesetoets te doen.

Voorbeeld: ANOVA

Michael het die volgende data tot sy beskikking:


350 280 330

250 220 320

200 250 100

90 180 150

310

400

Bepaal, teen ’n 95% vlak van sekerheid, of daar ’n verskil tussen die gemiddelde oproepe is

wat deur elke oproepsentrum hanteer moes word.

Antwoord:

Dieselfde stappe vir die toets van 'n hipotese word uitgevoer:


H0: μ1 = μ2 = μ3

H1: Ten minste een μ verskil van die res


Om die kritiese waarde te vind benodig ons:

• αααα-waarde: In hierdie geval is dit 0.05.



• dfn: Dit word verkry deur k – 1, waar k = die hoeveelheid steekproewe. Daar is 3

steekproewe, dus is dfn = 3 – 1 = 2.

• dfd: Dit word verkry deur N – k, waar k = die hoeveelheid steekproewe en N = die

totale steekproefgrootte. Daar is 3 steekproewe en ’n totaal van 14 waardes in die

steekproef. Dus is dfd = 14 – 3 = 11.

Om F-crit te vind, gebruik ons die F-tabel waar α = 0.05. In hierdie tabel vind ons die 2-

kolom en die 11-ry. Waar hierdie kolom en ry kruis, vind ons ’n waarde van 3.98. Dus:

F-crit = 3.98

Hierdie waarde kan soos volg op die F-grafiek voorgestel word:


Ons het die toetsstatistiek reeds vroeër bereken:

F-stat = 0.0916


Hiervoor sal ons F-stat en F-crit moet vergelyk. Ons kan ’n grafiek hiervoor gebruik:

As F-stat in hierdie area val, word

H0 nie verwerp nie.


H0 verwerp.

95% 5%

F-crit = 3.98



Die F-stat val dus duidelik nie in die area van verwerping nie. Dus:



Daar is geen verskil tussen die gemiddelde hoeveelheid oproepe wat ’n oproepsentrum op ’n

dag hanteer nie.

11.2 Ten slotte

ANOVA is ’n toets wat bepaal of daar ’n verskil tussen die gemiddelde van ’n spesifieke

veranderlike oor meer as twee steekproewe bestaan. Die F-toets word hiervoor gebruik.

ANOVA is die laaste hipotesetoets wat in hierdie gids bespreek gaan word. Die diagram

hieronder verskaf ’n oorsig van al die hipotesetoetse wat ons behandel het.


H0 nie verwerp nie.


H0 verwerp.

95% 5%

F-crit = 3.98

F-stat = 0.092

X



Figuur 11.1: Grafiese voorstelling van hipotesetoetse wat in die gids bespreek is

Die einde en die begin

London Heathrow is ’n besige lughawe. Dit is een van die groot lughawens wat

passasiersgetalle en hoeveelheid betref. Daar is altyd mense wat haastig op pad is na ’n hek

wat op die punt is om te sluit. Dan is daar ook mense wat te vroeg is vir ’n vlug en hulself

moet besig hou tot dit tyd is om na die hek te beweeg.

By ’n tafel van ’n koffiewinkel sit vier jongmense wat deel van die laaste groep uitmaak. Daar

word nie veel gesê nie – elkeen is besig met sy of haar eie gedagtes. Michael sit en dink

terug aan ’n ongelooflike jaar. Hy het soveel geleer. Hy het ’n inkomste verdien wat meer is

as wat enige van sy studentevriende maak. Hy het Europa besoek. Hy het nuwe vriende

gemaak. En nou is hy op pad terug huis toe.

“Wie sou aan die begin van die jaar kon dink dat ons vandag hier sou sit,” onderbreek Sonja

sy gedagtes. Michael dink terug aan die begin van die jaar. Hy het nog nie geweet dat

StatInc bestaan nie – hy het eers in Februarie van hulle gehoor. Hy het nie vir Sonja,

Werner, Nadia of Vanessa geken nie. Hy het ’n droom gehad om eendag Europa te besoek.

Die begin van die jaar is ’n leeftyd gelede.

“Nie ek nie,” erken Werner. “Maar ek is nie goed met voorspellings nie.” Hy kyk na Michael.

Hipotesetoetse

Een veranderlike

Een steekproef

(Hoofstuk 8)

σ bekend: z-toets

σ onbekend: t-toets

Twee

steekproewe (Hoofstuk 9)

σ bekend: z-toets

σ onbekend: t-toets

Gepaarde

t-toets

Meer as twee

steekproewe

(Hoofstuk 11)

ANOVA en

F-toets

Twee

veranderlikes (Hoofstuk 10)

χχχχ2 toets vir

afhanklikheid



“Meneer die Statistikus, hoeveel van die dinge wat hierdie jaar gebeur het, het jy voorspel?”

Michael glimlag. “Dalk vyf persent.”

Sonja bars uit van die lag. “Jy moet jou universiteitsgelde terugvra.”

Michael kan net glimlag. Statistiek voorspel gemiddelde. Die vervelige voortsetting van dinge

wat reeds gebeur het.

Die uitsonderlike, dink Michael, die wonderwerke van die lewe, dit sal ’n mens altyd onkant

betrap.

Ons het aan die einde van hierdie gids gekom. Die doel van hierdie gids was om jou te help

om ’n paar basiese konsepte ten opsigte van Statistiek te verstaan deur ’n eenjaarreis saam

met Michael te onderneem.

Ons het geleer wat Statistiek is en waarom dit nodig is. Ons het gekyk na dataversameling,

asook grafiese en numeriese beskrywende statistiek. Ons het waarskynlikhede behandel,

vertrouensintervalle bereken en ’n verskeidenheid van hipotesetoetse gedoen.

Die belangrikste doelwit van hierdie gids was egter om die “waarom” van elke statistiese

metode te verduidelik. Waarom het ons beskrywende statistiek nodig? Waarom kan ons nie

sonder meer ’n steekproefgemiddeld op die populasie se gemiddeld van toepassing maak

nie? Waarom moet ons ’n verteenwoordigende steekproef hê?

Ons het ook die beperkings van Statistiek gesien. ’n Swak steekproefmetode maak enige

statistiese berekeninge onbruikbaar. Voorspellings oor die toekoms kan slegs op historiese

data gebaseer word.

Statistiek is oral. Dit is deel van ons lewens. Ons maak statistiese gevolgtrekkings op ’n

daaglikse basis, dikwels sonder om die proses of die oorsprong van ons data te

bevraagteken. Met hierdie gids is gepoog om jou meer attend te maak op die dikwels

foutiewe aannames wat ons maak.

Elke persoon het ’n ander rede waarom hy of sy hierdie gids gebruik. Dalk is dit jou eerste

stap om ’n volwaardige statistikus te word. Dalk wil jy dit gebruik as ’n inleiding om jou eie

navorsing vir studies te doen. Dalk gebruik jy hierdie gids bloot om eerstejaar-Statistiek te

slaag. Mag Michael se storie jou inspireer om Statistiek in al sy vorme te gebruik.

Maar onthou: die beste dinge in die lewe kan nie voorspel word nie.


©akademia (MSW)| Aanhangsels 303

AAAANNHHAANNGGSSEELLSS

Die z-tabel

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359 0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753 0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141 0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517 0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879 0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224 0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549 0.7 0.2580 0.2611 0.2642 0.2673 0.2703 0.2734 0.2764 0.2793 0.2823 0.2852 0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133 0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389 1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3557 0.3599 0.3621 1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830 1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015 1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177 1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319 1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441 1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545 1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633 1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706 1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767 2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817 2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857 2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890 2.3 0.48928 0.48956 0.48983 0.49010 0.49036 0.49061 0.49086 0.49111 0.49134 0.49158 2.4 0.49180 0.49202 0.49224 0.49245 0.49266 0.49286 0.49305 0.49324 0.49343 0.49361 2.5 0.49379 0.49396 0.49413 0.49430 0.49446 0.49461 0.49477 0.49492 0.49506 0.49520 2.6 0.49534 0.49547 0.49560 0.49573 0.49585 0.49598 0.49609 0.49621 0.49632 0.49643 2.7 0.49653 0.49664 0.49674 0.49683 0.49693 0.49702 0.49711 0.49720 0.49728 0.49736 2.8 0.49744 0.49752 0.49760 0.49767 0.49774 0.49781 0.49788 0.49795 0.49801 0.49807 2.9 0.49813 0.49819 0.49825 0.49831 0.49836 0.49841 0.49846 0.49851 0.49856 0.49861 3.0 0.49865 0.49869 0.49874 0.49878 0.49882 0.49886 0.49889 0.49893 0.49897 0.49900 3.1 0.49903 0.49906 0.49910 0.49913 0.49916 0.49918 0.49921 0.49924 0.49926 0.49929 3.2 0.49931 0.49934 0.49936 0.49938 0.49940 0.49942 0.49944 0.49946 0.49948 0.49950 3.3 0.49952 0.49953 0.49955 0.49957 0.49958 0.49960 0.49961 0.49962 0.49964 0.49965 3.4 0.49966 0.49968 0.49969 0.49970 0.49971 0.49972 0.49973 0.49974 0.49975 0.49976 3.5 0.49977 0.49978 0.49978 0.49979 0.49980 0.49981 0.49981 0.49982 0.49983 0.49983 3.6 0.49984 0.49985 0.49985 0.49986 0.49986 0.49987 0.49987 0.49988 0.49988 0.49989 3.7 0.49989 0.49990 0.49990 0.49990 0.49991 0.49991 0.49991 0.49992 0.49992 0.49992 3.8 0.49993 0.49993 0.49993 0.49994 0.49994 0.49994 0.49994 0.49995 0.49995 0.49995 3.9 0.49995 0.49995 0.49996 0.49996 0.49996 0.49996 0.49996 0.49996 0.49997 0.49997 4.0 0.49997 0.49997 0.49997 0.49997 0.49997 0.49997 0.49998 0.49998 0.49998 0.49998


304 Aanhangsels | ©akademia (MSW)

Die t-tabel

0.100 0.050 0.025 0.010 0.005 0.0025

df

1 3.078 6.314 12.706 31.821 63.657 127.322

2 1.886 2.920 4.303 6.965 9.925 14.089

3 1.638 2.353 3.182 4.541 5.841 7.453

4 1.533 2.132 2.776 3.747 4.604 5.598

5 1.476 2.015 2.571 3.365 4.032 4.773

6 1.440 1.943 2.447 3.143 3.707 4.317

7 1.415 1.895 2.365 2.998 3.499 4.029

8 1.397 1.860 2.306 2.896 3.355 3.833

9 1.383 1.833 2.262 2.821 3.250 3.690

10 1.372 1.812 2.228 2.764 3.169 3.581

11 1.363 1.796 2.201 2.718 3.106 3.497

12 1.356 1.782 2.179 2.681 3.055 3.428

13 1.350 1.771 2.160 2.650 3.012 3.372

14 1.345 1.761 2.145 2.624 2.977 3.326

15 1.341 1.753 2.131 2.602 2.947 3.286

16 1.337 1.746 2.120 2.583 2.921 3.252

17 1.333 1.740 2.110 2.567 2.898 3.222

18 1.330 1.734 2.101 2.552 2.878 3.197

19 1.328 1.729 2.093 2.539 2.861 3.174

20 1.325 1.725 2.086 2.528 2.845 3.153

21 1.323 1.721 2.080 2.518 2.831 3.135

22 1.321 1.717 2.074 2.508 2.819 3.119

23 1.319 1.714 2.069 2.500 2.807 3.104

24 1.318 1.711 2.064 2.492 2.797 3.091

25 1.316 1.708 2.060 2.485 2.787 3.078

26 1.315 1.706 2.056 2.479 2.779 3.067

27 1.314 1.703 2.052 2.473 2.771 3.057

28 1.313 1.701 2.048 2.467 2.763 3.047

29 1.311 1.699 2.045 2.462 2.756 3.038

30 1.310 1.697 2.042 2.457 2.750 3.030

31 1.309 1.696 2.040 2.453 2.744 3.022

32 1.309 1.694 2.037 2.449 2.738 3.015

33 1.308 1.692 2.035 2.445 2.733 3.008

34 1.307 1.691 2.032 2.441 2.728 3.002

35 1.306 1.690 2.030 2.438 2.724 2.996

36 1.306 1.688 2.028 2.434 2.719 2.990

37 1.305 1.687 2.026 2.431 2.715 2.985

38 1.304 1.686 2.024 2.429 2.712 2.980

39 1.304 1.685 2.023 2.426 2.708 2.976

40 1.303 1.684 2.021 2.423 2.704 2.971



0.100 0.050 0.025 0.010 0.005 0.0025

df

45 1.301 1.679 2.014 2.412 2.690 2.952

50 1.299 1.676 2.009 2.403 2.678 2.937

60 1.296 1.671 2.000 2.390 2.660 2.915

70 1.294 1.667 1.994 2.381 2.648 2.899

80 1.292 1.664 1.990 2.374 2.639 2.887

90 1.291 1.662 1.987 2.369 2.632 2.878

100 1.290 1.660 1.984 2.364 2.626 2.871

110 1.289 1.659 1.982 2.361 2.621 2.865

120 1.289 1.658 1.980 2.358 2.617 2.860

140 1.288 1.656 1.977 2.353 2.611 2.852

160 1.287 1.654 1.975 2.350 2.607 2.847

180 1.286 1.653 1.973 2.347 2.603 2.842

200 1.286 1.653 1.972 2.345 2.601 2.839

1.282 1.645 1.960 2.327 2.576 2.807



χχχχ2 – tabel

0.100 0.050 0.025 0.010 0.005 0.0025

df

1 2.707 3.843 5.026 6.637 7.881 9.142

2 4.605 5.991 7.378 9.210 10.597 11.983

3 6.251 7.815 9.348 11.345 12.838 14.321

4 7.779 9.488 11.143 13.277 14.860 16.424

5 9.236 11.071 12.833 15.086 16.750 18.386

6 10.645 12.592 14.449 16.812 18.548 20.249

7 12.017 14.067 16.013 18.475 20.278 22.040

8 13.362 15.507 17.535 20.090 21.955 23.774

9 14.684 16.919 19.023 21.666 23.589 25.462

10 15.987 18.307 20.483 23.209 25.188 27.112

11 17.275 19.675 21.920 24.725 26.757 28.729

12 18.549 21.026 23.337 26.217 28.300 30.318

13 19.812 22.362 24.736 27.688 29.819 31.883

14 21.064 23.685 26.119 29.141 31.319 33.426

15 22.307 24.996 27.488 30.578 32.801 34.950

16 23.542 26.296 28.845 32.000 34.267 36.456

17 24.769 27.587 30.191 33.409 35.718 37.946

18 25.989 28.869 31.526 34.805 37.156 39.422

19 27.204 30.144 32.852 36.191 38.582 40.885

20 28.412 31.410 34.170 37.566 39.997 42.336

21 29.615 32.671 35.479 38.932 41.401 43.775

22 30.813 33.924 36.781 40.289 42.796 45.204

23 32.007 35.172 38.076 41.638 44.181 46.623

24 33.196 36.415 39.364 42.980 45.558 48.034

25 34.382 37.652 40.646 44.314 46.928 49.435

26 35.563 38.885 41.923 45.642 48.290 50.829

27 36.741 40.113 43.195 46.963 49.645 52.215

28 37.916 41.337 44.461 48.278 50.993 53.594

29 39.087 42.557 45.722 49.588 52.336 54.967

30 40.256 43.773 46.979 50.892 53.672 56.332

31 44.422 44.985 48.232 52.191 55.003 57.692

32 42.585 46.194 49.480 53.486 56.328 59.046

33 43.745 47.400 50.725 54.776 57.648 60.395

34 44.903 48.602 51.966 56.061 58.964 61.738

35 46.059 49.802 53.203 57.342 60.275 63.076

36 47.212 50.998 54.437 58.619 61.581 64.410



0.100 0.050 0.025 0.010 0.005 0.0025

df

37 48.363 52.192 55.668 59.892 62.883 65.739

38 49.513 53.384 56.896 61.162 64.181 67.063

39 50.660 54.572 58.120 62.428 65.476 68.383

40 51.805 55.758 59.342 63.691 66.766 69.699

45 57.505 61.656 65.410 69.957 73.166 76.233

50 63.167 67.505 71.420 76.154 79.490 82.664

60 74.399 79.087 83.305 88.386 91.957 95.357

70 85.529 90.537 95.031 100.432 104.222 107.812

80 96.581 101.885 106.636 112.336 116.329 120.107

90 107.568 113.151 118.144 124.125 128. 307 132.262

100 118.501 124.348 129.570 135.815 140.178 144.300

110 129.388 135.487 140.925 147.423 151.958 156.238

120 146.571 152.222 157.389 163.678 168.122 172.351

140 168.618 174.659 180.174 186.875 191.604 196.099

160 190.522 196.926 202.766 209.852 214.845 219.588

180 212.310 219.056 225.200 232.647 237.890 242.866



Die f-tabel (α = 0.05)

Degrees of freedom for numerator

De

gre

es

of

fre

ed

om

fo

r d

en

om

ina

tor

1 2 3 4 5 6 7 8 9 10

1 161.14 199.5 215.7 224.6 230.2 234 236.8 238.9 240.5 241.9

2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4

3 10.1 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79

4 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96

5 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74

6 5.99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06

7 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64

8 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35

9 5.12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14

10 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98

11 4.84 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85

12 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75

13 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.77 2.71 2.67

14 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.70 2.65 2.60

15 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54

16 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49

17 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45

18 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41

19 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38

20 4.35 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35

21 4.32 3.47 3.07 2.84 2.68 2.57 2.49 2.42 2.37 2.32

22 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30

23 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 2.27

24 4.26 3.40 3.01 2.78 2.62 2.51 2.42 2.36 2.30 2.25

25 4.24 3.39 2.99 2.76 2.60 2.49 2.40 2.34 2.28 2.24

30 4.17 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16

40 4.08 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08

60 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99

120 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 1.91

3.84 3.00 2.60 2.37 2.21 2.10 2.01 1.94 1.88 1.83



Die F-tabel (α = 0.05) [VERVOLG]


De

gre

es

of

fre

ed

om

fo

r d

en

om

ina

tor

12 15 20 24 30 40 60 120 ∞ 1 243.9 245.9 248 249.1 250.1 251.1 252.2 253.3 254.3

2 19.4 19.4 19.4 19.5 19.5 19.5 19.5 19.5 19.5

3 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53

4 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63

5 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.37

6 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67

7 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23

8 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93

9 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71

10 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54

11 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40

12 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30

13 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21

14 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13

15 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07

16 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01

17 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96

18 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92

19 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88

20 2.28 2.20 2.12 2.08 2.04 1.99 1.95 1.90 1.84

21 2.25 2.18 2.10 2.05 2.01 1.96 1.92 1.87 1.81

22 2.23 2.15 2.07 2.03 1.98 1.94 1.89 1.84 1.78

23 2.20 2.13 2.05 2.01 1.96 1.91 1.86 1.81 1.76

24 2.18 2.11 2.03 1.98 1.94 1.89 1.84 1.79 1.73

25 2.16 2.09 2.01 1.96 1.92 1.87 1.82 1.77 1.71

30 2.09 2.01 1.93 1.89 1.84 1.79 1.74 1.68 1.62

40 2.00 1.92 1.84 1.79 1.74 1.69 1.64 1.58 1.51

60 1.92 1.84 1.75 1.70 1.65 1.59 1.53 1.47 1.39

120 1.83 1.75 1.66 1.61 1.55 1.50 1.43 1.35 1.25

1.75 1.67 1.57 1.52 1.46 1.39 1.32 1.22 1.00



Die f-tabel (α = 0.01)


De

gre

es

of

fre

ed

om

fo

r d

en

om

ina

tor

1 2 3 4 5 6 7 8 9 10

1 4052 4999.5 5403 5625 5764 5859 5928 5982 6022 6056

2 98.5 99.0 99.2 99.2 99.3 99.3 99.4 99.4 99.4 99.4

3 34.1 30.8 29.5 28.7 28.2 27.9 27.7 27.5 27.3 27.2

4 21.2 18.0 16.7 16.0 15.5 15.2 15.0 14.8 14.7 14.5

5 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1

6 13.7 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87

7 12.2 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62

8 11.3 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81

9 10.6 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26

10 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85

11 9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54

12 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30

13 9.07 6.70 5.74 5.21 4.86 4.62 4.44 4.30 4.19 4.10

14 8.86 6.51 5.56 5.04 4.70 4.46 4.28 4.14 4.03 3.94

15 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80

16 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69

17 8.40 6.11 5.19 4.67 4.34 4.10 3.93 3.79 3.68 3.59

18 8.29 6.01 5.09 4.58 4.25 4.01 3.84 3.71 3.60 3.51

19 8.19 5.93 5.01 4.50 4.17 3.94 3.77 3.63 3.52 3.43

20 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37

21 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 3.31

22 7.95 5.72 4.82 4.31 3.99 3.76 3.59 3.45 3.35 3.26

23 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 3.21

24 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 3.17

25 7.77 5.57 4.68 4.18 3.86 3.63 3.46 3.32 3.22 3.13

30 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98

40 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80

60 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63

120 6.85 4.79 3.95 3.48 3.17 2.96 2.79 2.66 2.56 2.47

6.63 4.61 3.78 3.32 3.02 2.80 2.64 2.51 2.41 2.32



Die F-tabel (α = 0.01)


De

gre

es

of

fre

ed

om

fo

r d

en

om

ina

tor

12 15 20 24 30 40 60 120 ∞ 1 6106 6157 6209 6235 6261 6287 6313 6339 6366

2 99.4 99.4 99.4 99.5 99.5 99.5 99.5 99.5 99.5

3 27.1 26.9 26.7 26.6 26.5 26.4 26.3 26.2 26.1

4 14.4 14.2 14.0 13.9 13.8 13.7 13.7 13.6 13.5

5 9.89 9.72 9.55 9.47 9.38 9.29 9.20 9.11 9.02

6 7.72 7.56 7.40 7.31 7.23 7.14 7.06 6.97 6.88

7 6.47 6.31 6.16 6.07 5.99 5.91 5.82 5.74 5.65

8 5.67 5.52 5.36 5.28 5.20 5.12 5.03 4.95 4.86

9 5.11 4.96 4.81 4.73 4.65 4.57 4.48 4.40 4.31

10 4.71 4.56 4.41 4.33 4.25 4.17 4.08 4.00 3.91

11 4.40 4.25 4.10 4.02 3.94 3.86 3.78 3.69 3.60

12 4.16 4.01 3.86 3.78 3.70 3.62 3.54 3.45 3.36

13 3.96 3.82 3.66 3.59 3.51 3.43 3.34 3.25 3.17

14 3.80 3.66 3.51 3.43 3.35 3.27 3.18 3.09 3.00

15 3.67 3.52 3.37 3.29 3.21 3.13 3.05 2.96 2.87

16 3.55 3.41 3.26 3.18 3.10 3.02 2.93 2.84 2.75

17 3.46 3.31 3.16 3.08 3.00 2.92 2.83 2.75 2.65

18 3.37 3.23 3.08 3.00 2.92 2.84 2.75 2.66 2.57

19 3.30 3.15 3.00 2.92 2.84 2.76 2.67 2.58 2.49

20 3.23 3.09 2.94 2.86 2.78 2.69 2.61 2.52 2.42

21 3.17 3.03 2.88 2.80 2.72 2.64 2.55 2.46 2.36

22 3.12 2.98 2.83 2.75 2.67 2.58 2.50 2.40 2.31

23 3.07 2.93 2.78 2.70 2.62 2.54 2.45 2.35 2.26

24 3.03 2.89 2.74 2.66 2.58 2.49 2.40 2.31 2.21

25 2.99 2.85 2.70 2.62 2.53 2.45 2.36 2.27 2.17

30 2.84 2.70 2.55 2.47 2.39 2.30 2.21 2.11 2.01

40 2.66 2.52 2.37 2.29 2.20 2.11 2.02 1.92 1.80

60 2.50 2.35 2.20 2.12 2.03 1.94 1.84 1.73 1.60

120 2.34 2.19 2.03 1.95 1.86 1.76 1.66 1.53 1.38

2.18 2.04 1.88 1.79 1.70 1.59 1.47 1.32 1.00

Dr Daleen van Niekerk is ‘n opvoedkundige konsultant wat reeds meer as 20 jaar betrokke is by die ondersteuning van akademici in die ontwikkeling van studie-materiaal. Haar spesialisveld behels leerontwerp, akademiese redigering asook bladuitleg om leermateriaal so toeganklik as moontlik vir studente te maak. In hierdie hoedanigheid was sy betrokke by projekte aan Unisa, Milpark Business School, Law Society of South Africa, Lyceum College en Centurion Akademie. Vir die afgelope vyf jaar is sy betrokke by projekontwikkeling aan Akademia.

Johann Smith beskik oor ‘n BCom-graad (Informatika) (Hons) en ‘n MCom-graad in Kommunikasiebestuur. Hy is vir die afgelope 13 jaar in die onderwys betrokke en het, onder andere, Statistiek vir eerstejaarstudente aangebied. Hierdie is sy vierde handleiding. Johann is ook ‘n skrywer van toneelstukke en draaiboeke. Hy het reeds twee maal die ATKV CR Swartprys vir toneeltekste ontvang en het draaiboeke vir twee gewilde Suid-Afrikaanse sepies geskryf.

www.akademia.ac.za

elementere kwantitatiewe metodes gqm105

Documents