1 capitolo 2 sampling in marketing research corso di analisi statistica per le imprese prof. l. neri...

1

Capitolo 2Capitolo 2Sampling in Marketing ResearchSampling in Marketing Research

Corso diAnalisi Statistica per le Imprese

Prof. L. Neria.a. 2013-2014

2

Basics of sampling IBasics of sampling I A sample is a

“part of a whole to show what the rest is like”.

Sampling helps to determine the corresponding value of the population and plays a vital role in marketing research.

Samples offer many benefits: Save costs: Less expensive to study the

sample than the population. Save time: Less time needed to study the

sample than the population . Accuracy: Since sampling is done with

care and studies are conducted by skilled and qualified interviewers, the results are expected to be accurate.

Destructive nature of elements: For some elements, sampling is the way to test, since tests destroy the element itself.

3

Basics of sampling IIBasics of sampling II

Limitations of Sampling Demands more rigid

control in undertaking sample operation.

Minority and smallness in number of sub-groups often render study to be suspected.

Accuracy level may be affected when data is subjected to weighing.

Sample results are good approximations at best.

Sampling Process

Defining the population

Developing a sampling

Frame

DeterminingSample

Size

SpecifyingSample Method

SELECTING THE SAMPLE

4

Sampling: Step 1Defining the Universe

Universe or population is the whole mass under study.

How to define a universe:» What constitutes the units

of analysis?

» What are the sampling units?

» What time period does the data refer to

Sampling: Step 2Establishing the Sampling

Frame

A sample frame is the list of all elements in the population (such as telephone directories, electoral registers, club membership etc.) from which the samples are drawn.

A sample frame which does not fully represent an intended population will result in frame error and affect the degree of

reliability of sample result.

5

Step - 3Step - 3Determination of Sample SizeDetermination of Sample Size

Sample size may be determined by using:» Subjective methods (less sophisticated methods)

– The rule of thumb approach: eg. 5% of population

– Conventional approach: eg. Average of sample sizes of similar other studies;

– Cost basis approach: The number that can be studied with the available funds;

» Statistical formulae (more sophisticated methods)– Confidence interval approach.

6

Sample size determination using statistical formulae:Sample size determination using statistical formulae:

The confidence interval approach

To determine sample sizes using statistical formulae, researchers use the confidence interval approach based on the following factors: » Desired level of data precision or accuracy;» Amount of variability in the population (homogeneity);» Level of confidence required in the estimates of

population values. Availability of resources such as money, manpower

and time may prompt the researcher to modify the computed sample size.

7

Sample size determination by tSample size determination by the confidence interval approach: the

average parameter

Dall’equazione ricavo n

XZ

eXn

Z

8

EsempioEsempio

Tra i pasticcini prodotti artigianalmente da una pasticceria se ne prelevano n=100; il loro peso medio è pari a 35 gr. Lo scarto quadratico medio di TUTTI i pasticcini prodotti è pari a 4 gr.

Si trovi l’intervallo di confidenza al 98%. Di quanto deve aumentare la numerosità

campionaria se si vuole che l’ampiezza dell’intervallo si dimezzi?

Soluzione:1-α=0.98→ α=0.02 → α/2=0.01 →1-α/2=0.99Dalle tavole della distribuzione Normale (vedi

Tavole_Statistiche.pdf) si ha che Z(0.99) è circa =2.326 per cui l’intervallo al 99% è

9304.35;0686.34;100

4326.235;

100

4326.235

22

9

…….Esempio.Esempio

L’ampiezza dell’intervallo di confidenza è il doppio dell’errore campionario, ovvero

100222

Z

nZeAmp

Si deve determinare n*: l’ampiezza dell’intervallo si dimezzi (Amp*)

40010

22

12: *

*

* nZn

Zn

10


proportion parameter

Dall’equazione

ricavo l’errore campionario

npp

ppZ s

)1(

eppn

ppZ s

)1(

11


proportion parameter

In realtà p è incognito, quindi si potrà inserire nella formula un valore che si ritiene plausibile oppure p=0.5 che è il valore di p che, a parità di Z ed e, massimizza n.

12

EsempioEsempio Si vuole stimare la percentuale di individui che ha seguito un

programma televisivo, sulla base di una rilevazione campionaria, con livello di significatività α=0.05 e commettendo un errore massimo di stima pari a e=±0.01.

Non conoscendo la varianza si assume la varianza massima, che si ottiene per p=0.5

960001.0

96.1)5.01(*5.0)1(*

2

2

2

22

e

zpp

n

13

Step 4: Step 4: Specifying the sampling methodSpecifying the sampling method

Probability Sampling» Every element in the target population or universe [sampling

frame] has known probability of being chosen in the sample for the survey being conducted.

» Results may be generalized.

Non-Probability Sampling» Every element in the universe [sampling frame] does not have

known probability of being chosen in the sample.

» Operationally convenient and simple in theory.

» Results may not be generalized.

14

Probability samplingProbability sampling

Appropriate for homogeneous population» Simple random sampling

– Requires the use of a random number table or random number generators.

» Systematic sampling

– Requires the sample frame only,

– No random number generators is necessary

Appropriate for heterogeneous population» Stratified sampling

– Use of random number generators may be necessary

» Cluster sampling

– Use of random number generators may be necessary

Four types of probability sampling

15

How to Use Pseudo Random Numbers Generator to draw a simple random sample

__________________________________________ 1. Assign a unique number to each population element

in the sampling frame 1 to N 2. Generate a sequence of random numbers from a

uniform distribution in [1…N] 3. Select, in the population the element corresponding

to the random numbers generated in the previous step

16

How to Use Pseudo Random Numbers Generator to

draw a simple random sample __________________________________________

1 2

50 49

La popolazione oggetto di indagine è costituita da N=50 unità, numerate univocamente da 1 a 50, si intende estrarre un campione casuale semplice di n=10 unità. Mediante l’uso di un opportuno software si genera la seguente serie di numeri casuali {3, 6, 11, 12, 25, 28, 31, 37, 44, 46}; le unità corrispondenti sono state evidenziate in nero nella figura.

17

Systematic samplingSystematic sampling

Consiste essenzialmente nella selezione di una unità ogni k presenti nella lista, dove k=N/n è il passo di campionamento ed equivale al reciproco della frazione di campionamento

Una volta stabilito n e determinato k, il campionamento sistematico si articola in due fasi:

i) si estrae un numero casuale j compreso tra 1 e k;

ii) si procede selezionando le unità corrispondenti ai numeri d’ordine j, j+k, j+2k, j+3k, e così di seguito fino all’esaurimento della lista.

18

2 1

50 49

Se n è ancora pari a 10 unità, il passo di campionamento k è 50/10=5. Si ipotizzi ora di estrarre un numero casuale compreso tra 1 e 5, per esempio 2. Nell’estrazione delle unità campionarie si comincia quindi da quella contrassegnata dall’identificativo 2. Successivamente si procede selezionando le unità della lista contrassegnate dai seguenti numeri d’ordine: 2+5, 2+10; 2+15;…; 2+45, per un totale di 10 unità (quelle nere).

19

Stratified sampling Stratified sampling

A three-stage process:

Step 1- Divide the population into homogeneous, mutually exclusive and collectively exhaustive subgroups or strata using some stratification variable;

Step 2- Select an independent simple random sample from each stratum.

Step 3- Form the final sample by consolidating all sample elements chosen in step 2.

Greater precision can be gained with smaller sample sizes with respect to simple random sampling

Stratified samples can be:

Proportionate: involving the selection of sample elements from each stratum, such that the ratio of sample elements from each stratum to the sample size equals that of the population elements within each stratum to the total number of population elements.

Disproportionate: the sample is disproportionate when the above mentioned ratio is unequal.

20

Selection of a proportionate Stratified Sample

La numerosità totale della popolazione illustrativa è pari a 50 unità. Su tale popolazione sono stati individuati 3 strati: il primo di 10 unità (racchiuse in un rettangolo in alto a sinistra); il secondo di 25 unità (racchiuse nel poligono centrale); il terzo di 15 unità (racchiuse nel rettangolo a destra). Come si evince dall’illustrazione i tre strati sono esaustivi e mutuamente esclusivi e hanno pesi rispettivamente pari a: W1=1/5; W2=1/2; W3=3/10.

21

Selection of a proportionate stratified sample

Volendo estrarre il solito campione di 10 unità, si applica una frazione di campionamento f pari a 1/5. L’allocazione proporzionale della numerosità campionaria, conduce pertanto ai seguenti risultati:

1 1 2 2 3 3

1 1 110 2; 25 5; 15 3.

5 5 5n f N n f N n f N

Da ogni strato si estrae il numero di unità stabilite mediante campionamento casuale semplice. Si noti che, i pesi campionari di strato risultano equivalenti a quelli di popolazione:

31 22 1 5 1 3; ; .

10 5 10 2 10

nn n

n n n

22

Cluster samplingCluster sampling

A two-step-process:» Step 1- Defined population is divided into number of

mutually exclusive and collectively exhaustive subgroups or clusters;

» Step 2- Select an independent simple random sample of clusters.

Is a type of sampling in which clusters or groups of elements are sampled at the same time.

Such a procedure is economic, and it retains the characteristics of probability sampling.

23


Possono essere considerati grappoli per esempio: gli isolati di una città, per le indagini che hanno come unità di rilevazione le famiglie o gli individui; le classi delle scuole relativamente ad indagini che hanno come unità di rilevazione i docenti oppure gli studenti; le aziende per le indagini che hanno come unità finali di rilevazione gli amministratori o i dirigenti o altre categorie di dipendenti.

Nella seconda fase si estraggono casualmente alcuni grappoli e si conduce l’indagine su tutte le unità che ne fanno parte

24


Dalla popolazione di 50 unità, suddivisa in sette grappoli distinti, sono stati estratti casualmente tre grappoli, evidenziati con uno sfondo più scuro, tutti gli elementi dei 3 grappoli estratti (in nero) costituiscono le 20 unità del campione.

25

Cluster samplingCluster samplingIl campionamento a grappoli può essere vantaggioso, se non insostituibile, quando:i grappoli costituiscono una naturale aggregazione delle unità finali di analisi, per le quali invece non si possiede una lista.le unità sono caratterizzate da dispersione sul territorio e si rende necessario un contatto diretto con esse per la raccolta delle informazioni, per cui studiare solo alcuni grappoli può rivelarsi molto meno dispendioso rispetto al campionamento casuale semplice.Tuttavia, affinché il campionamento a grappoli sia statisticamente più efficiente del campionamento casuale semplice, è importante che i grappoli siano molto eterogenei al loro interno e piuttosto omogenei tra loro .

26

Two steps cluster samplingTwo steps cluster sampling

Nella realtà è più verosimile che i grappoli contengano, unità

piuttosto simili tra loro, soprattutto se sono di piccole dimensioni e,

in particolare, quando sono individuati in termini di appartenenza

territoriale, poiché le aree territoriali tendono ad essere caratterizzate

da una certa omogeneità al loro interno e da eterogeneità tra di esse.

Se queste sono le caratteristiche dei grappoli, è più conveniente

analizzare una selezione di unità per ogni grappolo, anziché il loro

intero contenuto: si parla, in questo caso, di campionamento a due

stadi. In questo modo si coinvolgeranno un numero maggiore di

grappoli a parità di numerosità campionaria

27

Two steps cluster samplingTwo steps cluster sampling

I grappoli sono le unità di primo stadio (UPS) e le unità finali di campionamento, contenute nelle UPS, sono unità di secondo stadio (USS).In figura uno schema di campionamento a due stadi: su una popolazione di 50 unità e 7 grappoli al primo stadio sono state estratte tre UPS, evidenziate con lo sfondo più scuro; al secondo stadio da ogni UPS selezionata sono state estratte a caso delle USS, applicando una frazione di campionamento pari a ½ per UPS, per un totale di 10 unità campionarie.

28

Stratified Sampling vs Cluster Sampling

Stratified Sampling Cluster Sampling 1. The target population is sub-divided

into a few subgroups or strata, each containing a large number of elements.

1. The target population is sub-divided into a large number of sub-population or clusters, each containing a few elements.

2. Within each stratum, the elements are homogeneous. However, high degree of heterogeneity exists between strata.

2. Within each cluster, the elements are heterogeneous. Between clusters, there is a high degree of homogeneity.

3. A sample element is selected each time. 3. A cluster is selected each time. 4. Less sampling error. 4. More prone to sampling error. 5. Objective is to increase precision. 5. Objective is to increase sampling

efficiency by decreasing cost.

29

EXAMPLE

A common form of cluster sampling where clusters consist of geographic areas, such as

districts, housing blocks or townships. Area sampling could be one-stage, two-stage, or multi-stage.

How to Take an Area Sample Using Subdivisions Your company wants to conduct a survey on the expected patronage of its new outlet in a new housing estate. The company wants to use area sampling to select the sample households to be interviewed. The sample may be drawn in the manner outlined below. ___________________________________________________________________________________ Step 1: Determine the geographic area to be surveyed, and identify its subdivisions. Each

subdivision cluster should be highly similar to all others. For example, choose ten housing blocks within 2 kilometers of the proposed site [say, Model Town ] for your new retail outlet; assign each a number.

Step 2: Decide on the use of one-step or two-step cluster sampling. Assume that you decide to use a two-stage cluster sampling. Step 3: Using random numbers, select the housing blocks to be sampled. Here, you select 4 blocks randomly, say numbers #102, #104, #106, and #108. Step 4: Using some probability method of sample selection, select the households in each of the

chosen housing block to be included in the sample. Identify a random starting point (say, apartment no. 103), instruct field workers to drop off the survey at every fifth house (systematic sampling).

30

Non-probability samplesNon-probability samples

Judgmental sampling» Sampling based on some judgment, gut-feelings or

experience of the researcher. Common in commercial marketing research projects.

Snowball sampling» Used in studies involving respondents who are rare to find.

To start with, the researcher compiles a short list of sample units from various sources. Each of these respondents are contacted to provide names of other probable respondents.

Quota sampling» An extension of judgmental sampling. It is something like a

stratified sampling. Quite difficult to draw.

31

1. La popolazione viene suddivisa in classi o sottogruppi omogenei, sulla base di caratteristiche legate al fenomeno oggetto di studio

2. Dai dati censuari o da altre fonti si ricava il peso percentuale di ogni classe

3. Il totale delle unità da inserire nel campione viene suddiviso tra le classi in modo da rispecchiare le proporzioni esistenti nella popolazione e si perviene quindi alla definizione delle quote, cioè il numero di interviste da effettuare in ciascuna classe.

4. La scelta delle unità da intervistare viene generalmente demandata all’intervistatore stesso, nell’ambito delle quote assegnate

Non probabilty sample: quota Non probabilty sample: quota samplesample

32

Quota Sampling To select a quota sample comprising 3000 persons in country X using three control

characteristics: sex, age and level of education. Here, the three control characteristics are considered independently of one another.

In order to calculate the desired number of sample elements possessing the various

attributes of the specified control characteristics, the distribution pattern of thegeneral population in country X in terms of each control characteristics is examined.

ControlCharacteristics Population Distribution Sample Elements .

Gender: .... Male...................... 50.7% Male 3000 x 50.7% = 1521................. Female .................. 49.3% Female 3000 x 49.3% = 1479

Age: ......... 20-29 years ........... 13.4% 20-29 years 3000 x 13.4% = 402................. 30-39 years ........... 53.3% 30-39 years 3000 x 52.3% = 1569................. 40 years & over .... 33.3% 40 years & over 3000 x 34.3% = 1029

Religion: .. Christianity ........... 76.4% Christianity 3000 x 76.4% = 2292................. Islam ..................... 14.8% Islam 3000 x 14.8% = 444................. Hinduism .............. 6.6% Hinduism 3000 x 6.6% = 198................. Others ................... 2.2% Others 3000 x 2.2% = 66

__________________________________________________________________________________

33

ReferencesReferences

Bracalente, Cossignani, Mulas, (2009) Statistica Aziendale, sections: 2.1, 2.2

1 capitolo 2 sampling in marketing research corso di analisi statistica per le imprese prof. l. neri...

Documents

sample slide

sample frame

determination of sample

sample results

computed sample size

t sample size determination

probability sampling

sampling method