de publieke opinie ondervraagd:-over de zin en onzin van opiniepeilingen
TRANSCRIPT
1
DE PUBLIEKE OPINIE ONDERVRAAGD: OVER DE ZIN EN ONZIN VAN
OPINIEPEILINGEN
JAAK BILLIET
INLEIDING
Net vóór Kerstmis van 1997 werd dagbladlezend en radioluisterend België verrast door de
mededeling dat opinie-onderzoek in opdracht van de Europese Commissie aantoonde dat België
van alle landen van de Europese Unie het grootst aantal racisten telde. Volgens de Eurobarometer
van 1997 over xenofobie zou niet minder dan 55% van de ondervraagde Belgen zichzelf als racist
bestempelen. Na jarenlang onderzoek naar de verspreiding en de verklaring van etnocentrisme in
België was mijn reactie er een van ongeloof: er moest één en ander mis zijn met die peiling of met
de berichtgeving daarover. Na kennisname van het rapport en de gebruikte vragenlijst werd mijn
spontaan oordeel bevestigd. In de fasen die een opiniepeiling doormaakt, waren beslissingen
genomen die tot een geruchtmakend ‘beeld’ over de Belgische burgers moesten leiden. Laten we
die beslissingen even overlopen; ze geven een goed overzicht van de materie die wij zullen
behandelen.
Bij het bekijken van de verwoording van de nieuwsmakende vraag valt onmiddellijk op dat
niemand zichzelf rechtstreeks een racist heeft genoemd. De vraag bestaat immers uit drie delen.
(1) Ze begint met een typische introductie om het bedreigend karakter van de vraag weg te nemen:
“sommigen voelen zich hoegenaamd niet en anderen voelen zich uitgesproken wel racistisch”. (2)
Vervolgens wordt aan de ondervraagden een antwoordschaal voorgesteld die varieert van 1 met als
betekenis “hoegenaamd niet racistisch”, tot 10 met als betekenis “uitgesproken wel racistisch”. (3)
Dan wordt aan de ondervraagden gevraagd om zichzelf op deze schaal te plaatsen overeenkomstig
hun eigen gevoel. Degenen die geen opinie hebben kunnen die aangeven door de score 11 aan te
duiden. Tot zover de vraagverwoording. Het is niet onbelangrijk om te vermelden dat de
respondenten antwoorden door het meedelen van cijfers die zich tussen twee gelabelde extremen
bevinden.
Het zijn de onderzoekers zelf die vervolgens deze cijfers interpreteren en verwerken. Alleen
degenen die een 1 opgeven worden “niet racistisch” genoemd. De ondervraagden die gekozen
hebben voor de scores 4 tot 6 worden “tamelijk racistisch” genoemd (33%) Zij die de scores 7 tot
10 hebben aangewezen, krijgen het label “zeer racistisch” (22%). Hoeveel ondervraagden geen
mening hadden, wordt niet vermeld, en dezen worden ook niet meegerekend bij de berekening van
de percentages met substantiële antwoorden waardoor deze iets hoger uitvallen. Deze arbitraire
2
beslissingen van de onderzoekers resulteren uiteindelijk in een cijfer van 55%: “meer dan de helft
noemt zich racistisch!”. Dit is een gedroomd geschenk voor de media die zulke cijfers maar al te
graag zonder enige kritische reflectie publiceren. Dit gebeurde in Knack zelfs nog veertien dagen
nadat we in ‘De Standaard’ (21 en 24 december 1997) een dergelijke uitspraak beargumenteerd als
onzin hadden bestempeld. Met een enigszins andere berekening kon daar een cijfer van 20% of
30% of wat dan ook gestaan hebben. Ernstige journalistiek moet toch in staat moet zijn om
berichten over dergelijke nonsens kritisch te duiden, ook al komen deze uit een officieel rapport.
De verwoording van de vraag en de interpretatie van de antwoordverdeling zijn niet de enige
aspecten die een kritische houding verantwoorden. De context van de vraag is eveneens van
belang voor de wijze waarop de ondervraagden de term ‘racistisch’ opvatten. De bewuste vraag
over het racisme staat helemaal achteraan in de vragenlijst. Ze wordt dus voorgelegd nadat op alle
mogelijke wijzen al de aandacht op facetten van ‘alledaags racisme’ werd getrokken, wat men daar
ook mag onder verstaan. Zo werd bijvoorbeeld gevraagd of men z’n kinderen graag wil zien
huwen met partners van een etnische minderheid. Bijna iedereen zal wel op grond van zijn of haar
antwoorden op de vorige vragen op de eigen vrees voor ‘vreemdelingen’ attent gemaakt zijn.
Tenslotte toont een verdere analyse van de Belgische gegevens sporen van ernstige gebreken
aan de steekproef of bij de interviewers. Het is echter niet zeker of dit tot minder of tot méér
‘racisten’ zou leiden, maar daar gaat het natuurlijk niet om. Het is veeleer de vraag of zulke
uitspraken over de gefabriceerde antwoordverdeling op een delicate vraag wel zinvol zijn? Het
gevolg van dit bericht was alvast dat in een aantal middens van etnische minderheden het
wantrouwen tegenover de Belgen nog toenam. Over zulke morele argumenten zal ik het echter
verder niet hebben.
Sommigen zullen op mijn opmerkingen antwoorden dat de enquête op dezelfde wijze en met
dezelfde vragenlijst in alle landen van de Europese Unie is uitgevoerd. Ze zullen er op wijzen dat
België helemaal op kop staat van het racisme, nog voor Duitsland , Frankrijk, Oostenrijk en Italië.
Dit is correct, tenminste als de premisse opgaat dat de fouten in alle landen ongeveer dezelfde zijn
zodat deze bij vergelijking uitgevlakt worden, en de verschillen werkelijke verschillen zijn. Maar
dat is natuurlijk niet zo. Opinie-onderzoek wordt niet op dezelfde wijze uitgevoerd in de
verschillende landen. Er zijn verschillen in steekproeftrekking, wijze van bevragen, enz… Het
argument gaat er ook van uit dat verschil in taal en betekenis van de woorden geen rol zou spelen,
en belangrijker nog, dat de tendenties om op sociaal bedreigende vragen te antwoorden in alle
culturen van de Europese unie dezelfde zou zijn. Dit zijn voorwaarden die niet zomaar kunnen
aangenomen worden.
Dit voorbeeld van de ondertussen veelbesproken Eurobarometer heeft ons een eerste kijk
gegeven op een aantal van de valstrikken in opiniepeilingen. Deze worden nu verder uitgewerkt.
Na een korte verduidelijking van de termen ‘publieke opinie’ en ‘opinieonderzoek’ gaan we in op
veel voorkomende bronnen van foutieve interpretaties van resultaten van opiniepeilingen. We
3
zullen het hebben over de vraag in hoever opinies bestaan, hoe men kan weten of opinies
veranderen, welke de invloed is van relatief kleine wijzigingen in de verwoording en de context
van de vragen, welk het effect is van de zgn. non response, en hoe men met dit alles kan omgaan.
In het besluit wordt mijn grondhouding tegenover opinieonderzoek samenvattend verduidelijkt aan
de hand van het concept ‘context van de data’. Een belangrijk aspect zal hier niet behandeld
worden, met name de rol van de interviewer. Hiervoor verwijs ik naar het recente doctoraat van
Ann Carton (1999) waarin dit uitvoerig aan bod komt.
1. DE PUBLIEKE OPINIE VAN DE PEILINGEN
Opiniepeilingen trachten een zicht te krijgen op de toestand van, en veranderingen in de publieke
opinie. Wat moet men daaronder verstaan? Het concept “publieke opinie” heeft twee betekenissen
die vaak met elkaar verward worden. Op de eerste plaats is de publieke opinie een product dat
oprijst uit het debat in de publieke arena. Dit is een collectieve entiteit in het communicatiesysteem
van de publieke ruimte. De toegang tot dit communicatiesysteem is beperkt en de deelnemers
behoren tot de politieke en andere elites uit bijvoorbeeld de sociale bewegingen of de wereld van
de media. De publieke opinie als resultaat van het publiek debat kan beschouwd worden als de
‘dominante opinie’ waarover overeenstemming verondersteld wordt zolang deze niet wordt
uitgedaagd door nieuwe deelnemers aan het debat. In de tweede betekenis verwijst “publieke
opinie” naar de opinie van de toehoorders van het publiek debat, met name naar de opinie van de
bevolking zoals deze wordt gemeten in opiniepeilingen. In deze tweede betekenis is de publieke
opinie eveneens een collectieve entiteit, maar dan als het resultaat van het aggregeren van opinies
van individuen. De “publieke opinie” is dan de opinie van de veronderstelde meerderheid
(Champagne, 1990: 200).
Deze twee opinies hoeven niet noodzakelijk overeen te stemmen. De deelnemers aan het
publieke debat kunnen enerzijds de opinie van de meerderheid negeren, omdat zij die bijvoorbeeld
niet kennen of er geen rekening willen mee houden, en anderzijds bereiken de uitkomsten van het
publiek debat de toehoorders slechts via talrijke filters. Welke opinies kans hebben om aan te
slaan, hangt in belangrijke mate af van welke elites toegang tot de media hebben. Maar het publiek
van de media bestaat niet uit passieve ontvangers. Zoals Lazarsfeld e.a. (1944) reeds suggereerden
in hun concept van de “two-step flow of communications” worden de mediaboodschappen
bediscussieerd en geïnterpreteerd in sociale netwerken waarin opinieleiders een belangrijke rol
spelen. Meer recent hebben andere onderzoekers aangetoond hoe de sociale interacties in een
specifieke locale context vorm geven aan de voorraad van politieke informatie van individuen
(Huckfeldt & Sprague, 1995).
Ook Champagne wijst er in zijn kritische analyse in “Faire L’opinion. Le nouveau jeu
politique” (1990) op dat de twee “publieke opinies” niet naast elkaar bestaan als twee gescheiden
4
entiteiten. De resultaten van de opiniepeilingen worden als strategisch wapen gebruikt door
politieke elites, commentatoren en drukkingsgroepen. De constructie van de “publieke opinie” is
een symbolisch wapen in het politieke spel, en de peilingen zijn daarin een cruciaal en reflexief
onderdeel. Peilingen verschaffen beelden van de publieke opinie die op hun beurt de individuele
opinies kunnen vormen. Met behulp van de resultaten van peilingen over de “publieke opinie”
scheppen de media een symbolische werkelijkheid die als referentiekader kan dienen voor het
handelen (Billiet, 1993a: 9).
Hiermee heb ik alvast een argument gegeven voor de zin van deze les. Enig inzicht in de
mogelijke valstrikken van opiniepeilingen kan de burgers wapenen tegen de misleiding die kan
uitgaan van beelden over de “publieke opinie” die de media aan de hand van peilingen verspreiden.
2. OVER ONBESTAANDE (?) OPINIES
Opiniepeilers veronderstellen dat de ondervraagden een opinie hebben over de onderwerpen die
hen worden voorgelegd en dat ze die opinie ook kunnen verwoorden als antwoord op een vraag.
Het enige wat de interviewster moet doen is aan de respondent duidelijk maken wat zij wenst te
weten, en zich er van overtuigen dat zij het antwoord van de respondent begrijpt. Het is natuurlijk
mogelijk dat de respondent het correct antwoord niet wil geven, maar hij weet in elk geval wel voor
zichzelf het juiste antwoord. Zo eenvoudig is dit echter niet. Opinies zijn immers geen objecten
die de ondervraagden al of niet feitelijk bezitten, en waarvan zij weten of zij die bezitten. Neem
bijvoorbeeld de opinie over de doodstraf voor zeer zware misdaden. De houding van de respondent
tegenover de doodstraf kan latent zijn. Het is zelfs mogelijk dat hij daar nog nooit heeft over
nagedacht tot op het moment dat de vraag wordt gesteld. De respondent zal dus moeten nadenken
en nagaan welke zijn opinie is. Indien hij zich niets kan ‘herinneren’ zal hij zich op basis van
overwegingen een opinie moeten vormen en het is onzeker wat voor die respondent het correcte
antwoord is (Moser, 1958: 220-221). Het antwoord op een opinievraag kan dus zowel afkomstig
zijn van iemand die reeds veel over het onderwerp heeft nagedacht, als van iemand die voorafgaand
aan de vraag niet eens een opinie had. Op zicht lijken bestaande en onbestaande opinies even echt.
Iemands opinie over vrijwel elk mogelijk onderwerp is veelzijdig. Zo zijn er m.b.t. de doodstraf
morele, medische, wettelijke en ideologische aspecten. Iemand kan tegen de doodstraf zijn op
morele gronden, maar niet op wettelijke basis. Het is dus mogelijk dat het ene correcte antwoord
voor de ondervraagde niet bestaat. Hij of zij kan over een onderwerp meerdere opinies hebben. De
meegedeelde opinie hangt af van de overwegingen die op het moment van de bevraging het meest
levendig in het hoofd van de ondervraagde aanwezig zijn. De levendigheid wordt bepaald door de
context van vorige vragen en antwoorden, en door externe factoren zoals de aandacht voor het
onderwerp in de media. Evenals de hypothese van onbestaande opinies kan de hypothese van de
arbitraire keuze uit meerdere opinies verklaren waarom de antwoorden op opinievragen zo gevoelig
5
zijn voor de context en voor kleine wijzigingen in de verwoording, of waarom de antwoorden op
opinievragen zeer onstabiel zijn. Deze gevoeligheid maakt uitspraken over veranderingen in de tijd
en over verschillen tussen bevolkingen bijzonder problematisch.
Het vraagstuk van onbestaande opinies wordt aangekaart door twee soorten
onderzoeksbevindingen, enerzijds de zgn. ‘split ballot’ experimenten waarin het effect van de
(quasi) geen mening filter werd onderzocht, en anderzijds het onderzoek naar de stabiliteit van de
antwoorden in kortlopende panelonderzoeken. In het eerste geval, de ‘split ballot’ wordt eenzelfde
vraag in licht gewijzigde vorm aan twee (of) meer vergelijkbare steekproeven voorgelegd; in het
tweede geval worden dezelfde respondenten nogmaals benaderd met dezelfde vragen.
Experimenten met gesplitste steekproeven
Indien in de vraagtekst de antwoordmogelijkheid “geen mening” uitdrukkelijk aan de respondent
wordt aangeboden dan wordt, vergeleken met vragen waarin deze mogelijkheid ontbreekt,
gemiddeld door 20 procentpunten méér respondenten geantwoord dat ze geen mening hebben
(Schuman & Presser, 1981: 116-125; Billiet, Loosveldt & Waterplas, 1984: 161-169).
Voorbeeld 1. Laten we het gebruik van de quasi filter illustreren met een vraag die wij in 1987
voorlegden aan twee zeer vergelijkbare toevallige steekproeven uit de populatie van gehuwde
vrouwen tussen 21 en 55 jaar in de Gentse agglomeratie (Billiet, Loosveldt & Waterplas, 1988). De
exacte verwoordingen van de vragen en de antwoordverdelingen zijn opgenomen in Tabel 1. Het
effect van het expliciet aanbieden van de mogelijkheid om “geen mening” te hebben is hier bijzonder
groot (ruim 27 procentpunten verschil) als men bedenkt dat het om een thema gaat dat de
ondervraagden (gehuwde vrouwen) aanbelangt. Had in 1987 in de populatie van gehuwde vrouwen
rond Gent zo’n groot aantal vrouwen werkelijk geen opinie over dit onderwerp?
Tabel 1. Antwoordverdelingen in twee vergelijkbare steekproeven naargelang de vraag werd gesteld zonder of met een “geen mening” filter.
Steekproef A. filter Steekproef B: geen filter
“In de schoot van de huidige regering is er een Staatssecretariaat voor vrouwenemancipatie. Vindt U dat daardoor de situatie van de vrouw in de maatschappij kan verbeteren, vindt U van niet of hebt U daar geen mening over?”
“In de schoot van de huidige regereing is er een Staatssecretariaat voor vrouwenemancipatie. Vindt U dat daardoor de situatie van de vrouw in de maatschappij kan verbeteren of vindt U van niet?”
Verbeteren
Niet verbeteren
Geen mening
54,7
16,2
29,1
72,3
26,2
1,6
Verbeteren
Niet verbeteren
Geen mening (spontaan)
Samen (N) 100,0 (179) 100,0 (191)
χ² = 55,7; df = 2; p = 0,00
6
Waarom geven ondervraagden dan toch een opinie als de filter niet wordt aangeboden? Schuman
en Presser (1981: 298-299) gewagen van een ‘question constraint’. Respondenten hebben de
neiging om binnen het aangeboden kader van de vraag te antwoorden, ook al komt dat niet overeen
met hun toestand. Aangezien de vraagvorm suggereert dat zij een opinie moeten kiezen, doen zij
dat. Maar dit is niet het ganse verhaal. Het is helemaal niet zeker dat allen die in de vraagvorm
met de “geen mening” optie beweren geen opinie te hebben, ook werkelijk geen opinie hebben.
Sommige respondenten laten zich door interviewers niet graag in hun kaarten kijken, en de uitweg
“geen opinie” is dan een elegante weg om te ontsnappen. Met “geen mening” antwoorden vergt
minder inspanning dan zich een opinie vormen.
Om die reden is het niet aangewezen om kwistig met de “geen mening” filter om te springen bij
het ontwerpen van vragenlijsten.1 Er is nog een ander argument daarvoor. Onderzoek naar de
antwoorden op uitspraken over onbestaande onderwerpen waarover de ondervraagden geen opinie
kunnen hebben, toont aan dat de antwoorden niet toevallig verdeeld zijn over de substantiële
antwoordalternatieven (Schuman & Presser, 1991: 152-156). Indien we even veronderstellen dat
de maatregel waarover sprake is in ons voorbeeld een fictieve maatregel zou zijn, dan zouden de
tegenstanders van de “huidige regering” een veel grotere kans hebben om met een vraag zonder
filter in de categorie “niet verbeteren” terecht te komen. Vragen zonder filter kunnen bijgevolg
best bruikbaar zijn om achterliggende attitude disposities te meten ook al zouden sommige
respondenten over het concrete onderwerp geen opinie hebben.
Alles samen genomen geven de experimenten met de “geen mening” filter geen sluitend antwoord
op de vraag naar het aantal ondervraagden dat over een onderwerp werkelijk geen opinie heeft. Laten
we daarom te rade gaan bij de tweede soort onderzoeksbevindingen waarbij aan dezelfde
ondervraagden herhaalde keren eenzelfde vraag wordt gesteld.
Instabiliteit bij herhaaldelijk bevragen van dezelfde respondenten
Reeds in 1964 merkte Converse (1964) op dat de stabiliteit over de tijd van antwoorden op
opinievragen veel lager is dan dit zou moeten zijn. De test-retest betrouwbaarheid van 41 attitude
items uit de US National Election Study panels tussen 1950 en 1970 bedroeg gemiddeld slechts 0,55.
Dit zou betekenen dat slechts iets meer dan de helft van de variantie in de antwoorden ware variantie
zou zijn (Alwin & Scott, 1996: 81). De antwoorden van hoger geschoolden blijken veel stabieler te
zijn dan de antwoorden van lager geschoolden (Evans & Heath: 1995; Curtice, 1996: 139). Converse
schreef deze instabileit toe aan de omstandigheid dat veel lager geschoolden over politieke
onderwerpen geen opinie, of toch minstens geen uitgekristalliseerde opinie, zouden hebben. Dit zou
dan de verklaring kunnen zijn van het voortdurend op en neer gaan van de antwoorden bij een groot
aantal ondervraagden. Omwille van het tijdsverloop tussen de opeenvolgende peilingen en omwille
van verschillen in de organisatie van het onderzoek is het echter niet duidelijk in hoever deze
7
instabiliteit toe te schrijven is aan onbetrouwbaarheid, aan systematische meetfouten, aan werkelijke
opinieverandering, of aan gokken omwille van de afwezigheid van opinies.
Voorbeeld 2. Wij vonden hetzelfde in al onze panelstudies in de jaren negentig. In één van deze
onderzoeken waarbij de afstand tussen de eerste en de tweede bevraging hooguit een drietal weken
bedraagt, is de gemiddelde test-retest (Spearman) correlatie van negen items over etnische minderheden
0,56 (range van 0,43 tot 0,60). De items zijn gesteld in Likert format (antwoordmogelijkheden variërend
tussen ‘volledig oneens’ en ‘volledig eens’). Bij meer abstracte uitspraken (met zeven
antwoordmogelijkheden) over cultureel conformisme blijkt de gemiddelde test-retest stabiliteit nog
zwakker (tussen 0,32 en 0,63). Omwille van de korte tijd tussen de twee metingen is verandering van de
onderliggende houding zeer onwaarschijnlijk. Men moet echter wel rekening houden met een methode
effect vermits de tweede bevraging gebeurde via een schriftelijk ‘drop-off’2 vragenlijst. Anderzijds wordt
de stabiliteit wellicht wat geflatteerd omdat de ondervraagden zich het vorig antwoord kunnen herinneren.
Tabel 2 illustreert de betekenis van zo’n lage test-retest correlatie (r = 0,43) voor de uitspraak “De
aanwezigheid van etnische minderheden is over het algemeen goed voor onze economie”.
Tabel 2. Transitietabel m.b.t. een positief verwoorde uitspraak over etnische minderheden bij een toevalssteekproef van 528 Vlamingen tussen 24 en 75 jaar.
Tweede (schriftelijke) bevraging binnen 14 dagen
Eerste bevraging Volledig oneens
Oneens Noch eens noch oneens
eens Volledig eens
Geen mening
Samen (%)
Volledig oneens 43 23 11 5 6 3 91 (17,2)
Oneens 12 61 47 12 6 12 150 (28,4)
Noch…noch 5 26 83 13 2 11 140 (26,5)
Eens 3 10 25 24 5 4 71 (13,5)
Volledig eens 2 2 5 3 6 1 19 (3,6)
Geen mening 3 10 23 2 0 19 57 (10,8)
Samen (%)
68 (12,9)
132 (25,0)
194 (36,7)
59 (11,2)
25 (4,7)
50 (9,5)
528
(100,0)
Spearman correlatie (zonder “geen mening”) = 0,43 (Kendall tau = 0,50); Kappa = 0,32 (‘eens’ en ‘helemaal
eens’ evenals ‘oneens’ en ‘helemaal oneens’ samen genomen).
Alleen de antwoorden in de grijze vakken kunnen als stabiel beschouwd worden, dit zijn er 279
(52,8%) Ruim 47% van de ondervraagden reageert m.a.w. anders op de uitspraak dan hooguit drie
weken vroeger. De maat Kappa, die de mate van overeenstemming meet in de beoordeling van de
paren observaties, uitgezuiverd voor toevallige overeenstemming, bedraagt amper 0,32. Vaak blijven
bij herhaalde metingen, ondanks de interne verschuivingen in de cellen van de tabel, de marginale
verdelingen ongewijzigd omdat, met uitzondering van de diagonaal, de uitwisseling tussen de cellen
op toeval berust (de zgn. quasi onafhankelijkheid). Hier is dit echter niet het geval. In de schriftelijke
8
antwoorden is er een systematische verschuiving naar de neutrale middencategorie (vergelijk de
overeenkomstige cursieve aantallen: 47-26; 25-13 en 23-11). Indien de media enkel van de twee
marginale verdelingen kennis zouden hebben, dan zou volstrekt ten onrechte besloten worden dat het
aantal ondervraagden dat een ongunstig beeld heeft over de etnische minderheden (helemaal oneens
en oneens met de uitspraak) significant gedaald is van 45,6% naar 37,9%.
Drie verklaringen voor de instabiliteit
Survey methodologen zien een drietal mogelijke verklaringen voor de instabiliteit bij herhaalde
metingen van opinies. De eerste verklaring is al gegeven. Volgens Converse (1964) moet de
instabiliteit grotendeels toegeschreven worden aan de ondervraagden die geen opinie, of hoogstens
een niet gekristalliseerde opinie, hebben over het betreffende onderwerp. Zulke respondenten
zouden toevallig kiezen tussen de aangeboden opties. Het concept ‘opinie kristallisatie’ of de zgn.
‘opiniesterkte’ is zeker een cruciaal concept om instabiliteit te begrijpen. Opiniesterkte verwijst
naar de mate waarin de ondervraagden betrokken zijn bij het onderwerp (is het voor hen een
belangrijk onderwerp en niet zomaar iets vrijblijvend?). Er wordt dan ook aangeraden om niet
enkel de richting van opinies te meten (de mate waarin men voor of tegen iets is) maar eveneens de
sterkte (de belangrijkheid van het onderwerp) (zie Schuman & Presser, 1991; 253-264; Krosnick,
& Abelson, 1988). Respondenten met sterke en gekristalliseerde attitudes geven meer stabiele
antwoorden op opinievragen (Krosnick, 1988; Prislin, 1996). Dit vonden wij ook in ons eigen
onderzoek: bij ondervraagden met een goede politieke kennis (indicator voor attitudesterkte) zijn
de gobserveerde test-retest correlaties tussen items over politiek vertrouwen gemiddeld .15 punten
hoger. Het is hier niet de plaats om in te gaan op de verschillende methoden om de attitudesterkte
te meten, maar we kunnen wel wijzen op een bijkomend voordeel van sterktemetingen. De relatie
tussen opinies en gedragingen is doorgaans bijzonder zwak, maar indien informatie over de richting
van opinies gecombineerd wordt met geldige sterktemetingen, dan kan men adequater (toekomstig)
gedrag voorspellen op basis van informatie over houdingen en opinies. Dit werd o.m. toegepast op
de relatie tussen etnocentrisme en stemgedrag (Billiet, 1993a: 72-74; 1993b: 160).
Voor de verklaring van de systematische verschuiving die werd geobserveerd in Tabel 2 lijkt
deze eerste verklaring niet adequaat. Onder de hypothese dat geen werkelijke verandering optrad,
kan de instabiliteit toegeschreven worden aan toevallige en aan systematische meetfouten. In zover
de verschuivingen in een bepaalde richting gaan (naar de neutrale middencategorie) en er geen
werkelijke verandering heeft plaatsgegrepen, zouden methode-effecten die inherent zijn aan de
antwoordschalen voor de instabiliteit van de antwoorden verantwoordelijke zijn (Smith, 1988;
Alwin, 1992). Deze verklaring gaat er van uit dat de ondervraagden wel degelijk een werkelijke
opinie hebben, maar deze achterliggende ‘true score’ zou slechts gebrekkig gemeten worden via de
geobserveerde scores. Door gebruik te maken van speciale procedures, zoals bijvoorbeeld het
meermaals meten van opinies via meerdere methodes in de zgn. ‘Multitrait Multimethod’
9
benadering zou het mogelijk zijn om de correlaties tussen de geobserveerde scores te corrigeren
voor toevallige en systematische meetfouten (zie hiervoor: Saris, 1995; Scherpenzeel & Saris,
1997). Ook de zgn. ‘multiple indicator’ benadering situeert zich in die lijn. De correlaties tussen
samengestelde of latente variabelen die geconstrueerd zijn op basis van een factoranalyse model
zijn veel stabieler dan de correlaties tussen de particuliere items waaruit de schaal bestaat.3
Bemerk echter dat in dit laatste geval enkel gecorrigeerd wordt voor toevallige fouten en niet voor
systematisch fouten.
Voorbeeld 2 (vervolg). Het is zeer aannemelijk dat het response effect in ons voorbeeld te maken
heeft met de overgang van een ‘face-to-face’ interview naar een schriftelijke (zelf in te vullen)
vragenlijst. Het is echter onduidelijk waarom de neutrale positie meer wordt gekozen in de
schriftelijke vorm. Een mogelijke hypothese luidt dat de vorm van de antwoordschaal in de
schriftelijke vragenlijst (horizontale rij scores) beter het metrisch (of ordinaal) karakter van de schaal
weergeeft dan de verticale ordening van de antwoordkaart in het mondeling interview (zie Figuur 1).
Deze laatste zou dan meer gevoelig zijn voor ‘primacy’ effecten (het eerst gehoorde of bovenste
antwoord kiezen).4
Figuur 1. Verschil tussen de antwoordkaart in het mondeling interview en de antwoordschaal in de schriftelijke vragenlijst.
Mondeling interview Schriftelijk interview
Kaart 3 Volledig
oneens Eerder oneens
Noch eens noch
oneens
Eerder eens
Volledig eens
Geen mening
1 2 3 4 5 9 Volledig oneens
Eerder oneens
Noch eens, noch oneens
Eerder oneens
Volledig eens
Geen mening
1
2
3
4
5
9
Een derde verklaring voor de instabiliteit van opinies heeft te maken met de reeds vermelde
omstandigheid dat eenzelfde object vanuit meerdere overwegingen kan beoordeeld worden.
Bijgevolg kunnen de antwoorden op opinievragen wijzigen naargelang van de overwegingen die op
het moment van de bevraging doorslaggevend zijn. In zijn bekend boek over de aard en oorsprong
van de massa-opinie verwerpt Zaller (1992) de gedachte dat burgers over elk onderwerp waarover
ze ondervraagd worden ‘ware opinies’ zouden hebben, maar hij verwerpt evenzeer de idee dat ze
geen opinies hebben.
Antwoorden op opinievragen: het RAS model
Zaller (1992: 42-51) stelt een model voor dat zeer sterk aanleunt bij de verworvenheden van de
cognitieve psychologie met betrekking tot informatieverwerking. Zijn RAS model (Receive-
10
Accept-Sample) vat opinie-uitspraken op als de uitkomst van een proces waarin individuen nieuwe
informatie ontvangen (receive), beslissen of zij deze accepteren en vervolgens een selectie maken
(sample) op het moment dat zij een opinievraag beantwoorden. Dit model steunt op vier axioma’s.
De meeste respondenten zijn ambivalent m.b.t. allerhande onderwerpen. Zij staan constant
bloot aan een stroom van (politieke) informatie die hun opinie in de ene of de andere richting kan
duwen. Zij zijn zich daar doorgaans niet van bewust en hun ‘reservoir’ wordt gevuld met
allerhande inconsistente informatie waaraan ze weinig aandacht besteden. Er is echter, afhankelijk
van hun betrokkenheid bij het onderwerp of hun cognitief engagement, een zekere predispositie om
bepaalde informatie wél op te slaan en andere informatie niet. Vanuit sociologisch oogpunt kan
men opmerken dat deze predispositie mede afhankelijk is van de milieus (en groeperingen) waarin
mensen zich bewegen en van de socialisatie tijdens de adolescentie en de periode daarna.
Het receptie axioma stelt dat de kans op het begrijpen en ontvangen van informatie stijgt
naarmate het cognitief engagement met betrekking tot een issue groter is. Het resistentie axioma
gaat er van uit dat toehoorders een weerstand hebben tegen argumenten die inconsistent zijn met
hun (politieke) predisposities, maar zij zullen dit maar met succes kunnen in de mate dat zij over
contextuele informatie beschikken die hen in staat stelt om het verband te leggen tussen de
boodschap en de predisposities. Het ‘accessibility’ axioma stelt dat de respondenten bij het
beantwoorden van opinievragen gebruik maken van informatie die voor hen het gemakkelijkst
bereikbaar is en die het minst tijd vergt om op te halen. Dat is doorgaans de informatie die het
meest recent in overweging werd genomen of informatie die gemakkelijk met recent gebruikte
overwegingen geassocieerd wordt. Deze stelling is afkomstig uit het ‘information accessibility’
theorema (Tourangeau & Rasinski, 1988). Gemakkelijk bereikbare informatie kan informatie zijn
die in de periode van de opiniepeiling manifest in de massamedia en het publiek discours aanwezig
is, of informatie die gebruikt werd in de voorafgaande vragen en antwoorden (het belang van
‘priming’), of informatie afkomstig uit de particuliere context van de ondervraagde. Tenslotte
beantwoorden volgens het response axioma de respondenten de vragen door een keuze te maken uit
de overwegingen die het meest toegankelijk zijn (‘top of the head’).
Het RAS model kan een verklaring verschaffen voor het gebrek aan stabiliteit van de
antwoorden op opinievragen. De informatie die in overweging wordt genomen bij het
beantwoorden van de vragen kan immers verschillend zijn. Het model verklaart ook waarom, in
geval van ongewijzigde opinies, de antwoorden stabieler zijn bij degenen die meer
uitgekristalliseerde of sterke opinies hebben (predispositie, receptie). Zij gaan bewuster om met de
informatie die op hen afkomt. Het RAS model bevat eveneens een aanzet voor het beantwoorden
van de complexe vraag onder welke omstandigheden de kans toeneemt dat opinies werkelijk
veranderen (Zaller, 1992: 122). De kans op verandering is afhankelijk van een veelheid van
variabelen. Wij gaan hier niet op in omdat dit ons te ver van het thema zou leiden.5 Het volstaat
erop te wijzen dat Zaller het belang heeft onderstreept van het discours onder politieke elites en van
11
de aanwezigheid van onderwerpen in de massamedia als context waarbinnen antwoorden op
opinievragen moeten begrepen worden
Een en ander houdt in dat het met het oog op de interpretatie van resultaten van opiniepeilingen
noodzakelijk is om bij peilingen bijkomende informatie te verzamelen over individuele
predisposities, over ‘media exposure’ op individueel niveau, en over de toestand van de publieke
opinie in die andere betekenis (het publiek politiek debat en de mediaverslaggeving). Opnieuw
wordt hier het belang van de context van de voorafgaande vragen in de vragenlijst onderstreept
voor het interpreteren van de antwoorden op een bepaalde vraag. Zo kan een vraag over de
belangstelling voor een thema compleet verschillend beantwoord worden naargelang deze vraag in
het begin of het einde van een batterij vragen over dit thema gesteld wordt. Bij berichten in de
media over peilingen wordt die overweging nooit gemaakt. Het meten van opinies maakt vaak
plaats voor het produceren van een publieke opinie in een samenspel tussen opdrachtgever,
onderzoeksbureau en media. Wekelijks kan men hier voorbeelden van vinden in de media.
Voorbeeld 3. Een peiling in opdracht van het NCOS naar de belangstelling van de Vlamingen voor
armoede en onderontwikkeling in de Derde Wereld is een mooi voorbeeld van opwekken van
belangstelling en zelfselectie (zie verder in het gedeelte over de nonresponse). In een aantal peilingen
rukt de Derde Wereldproblematiek inzake belangstelling nooit verder op dan de tiende plaats, na
problemen zoals werkloosheid, milieuvervuiling, belastingsdruk, onveiligheid, sociale zekerheid,
verkeersdrukte, migranten, armoede in België, en aids (Cambré, Billiet & Swyngedouw, VRIND,
1998: 18). In de peiling die expliciet over de Derde Wereldproblemen handelt, zou de belangstelling
voor dit thema fors hoger staan in het belangstellingslijstje van de Vlamingen. Zie hiervoor: “Derde
Wereld ligt Vlaming na aan het hart” (De Morgen, 21/10/1999) en “Derde Wereld laat Vlaming niet
koud” (De Standaard, 21/10/1999).
Opdracht: Lees de vermelde krantenberichten aandachtig en schrijf een kritische en zo volledig
mogelijke methodologische reactie van twee bladzijden naar een fictieve krant, in een voor de lezers
begrijpelijke taal.
3. KLEINE WIJZIGINGEN, GROTE GEVOLGEN
De bevindingen inzake de instabiliteit van de antwoorden en het effect van de ‘geen mening’ filter
op de antwoordverdelingen van opinievragen zullen er de lezer wellicht van overtuigd hebben dat
de informatie over de distributie van opinies slechts kan geïnterpreteerd worden in het licht van
contextuele informatie. Het meedelen van de volledige vragenlijst of van minstens de exacte
formulering van de vragen waarvan men de antwoordverdeling geeft, zou tot de
standaardpraktijken van opiniepeilingen moeten behoren. Men kan immers uit de antwoorden geen
enkele conclusie trekken indien niet bekend is hoe de vraag precies luidde en in welke context ze
stond. Zelfs kleine wijzigingen in de verwoording van opinievragen, of een andere volgorde,
veroorzaken verschuivingen in de antwoordpercentages die de steekproeffouten in omvang ruim
12
overtreffen. De invloed van de vraagformulering en de context werd aangetoond door talrijke
veldexperimenten in de Verenigde Staten. (Schuman & Presser, 1981). Gelijkaardige effecten zijn
ook vastgesteld in Nederland (Molenaar, 1986) en in Vlaanderen (Billiet, Loosveldt en Waterplas,
1988).
De bevindingen met betrekking tot de zgn. response effecten zijn overwegend afkomstig van
zgn. ‘split ballot’ experimenten waarbij aan vergelijkbare toevalssteekproeven eenzelfde vraag in
verschillende varianten wordt voorgelegd. Indien na controle (of eventuele standaardisatie van de
streekproeven) blijkt dat de steekproeven strikt vergelijkbaar zijn, dan mag men aannemen dat
verschillen in de antwoordverdelingen toe te schrijven zijn aan de verschillen in vragen,
antwoordschalen of volgorde. Indien het verschil voorspeld werd op grond van theoretische
inzichten, dan zijn de conclusies nog steviger. Het onderzoek van Molenaar (1986) verschilt
hiervan omdat deze gebruikt maakt van een meta-analyse. Hij heeft in het Steinmetz Archief
(Nederland) een paar duizend vraagteksten met bijkomende antwoordverdelingen verzameld over
vergelijkbare algemene surveys. Op basis van formele kenmerken van vragen (onafhankelijke
variabelen) en formele kenmerken van antwoordverdelingen (afhankelijke variabelen) komt hij via
een multivariate variantie-analyse tot gelijkaardige bevindingen als de zgn. ‘split ballots’, maar dan
meer veralgemeenbaar en los van de particuliere vragen.
Soorten response effecten
Men kan analytisch een viertal response effecten onderscheiden, al moet toegegeven worden dat
concrete voorbeelden soms onder meerdere categorieën kunnen ondergebracht worden. Een eerste
categorie van effecten heeft te maken met de overtuigingskracht van de vraag. Men kan
respondenten in een bepaalde richting sturen door argumenten in de vragen op te nemen, door ge-
kleurde informatie in de inleiding op de vraag of door onevenwichtigheid in de vraagformulering of
antwoordschaal. Dit soort effecten kan gemakkelijk tot stand komen ten gevolge van al of niet
bewuste manipulatie door de ontwerper van de vragenlijst. In Zaller’s model zou dit beschouwd
worden als een poging om invloed uit te oefenen op de bereikbaarheid en de selectie van informatie
die in overweging wordt genomen.
Een tweede categorie van effecten houdt verband met de specifieke omstandigheden en de
conversatiecontext waarin survey-vragen worden beantwoord. De meeste ondervraagden blijken
zich tijdens een interview te houden aan onuitgesproken spelregels: "geef antwoord op de vraag
zoals ze geformuleerd is"; "spreek niet tegen". Ze zijn niet geneigd de spelregels te wijzigen
(Schuman en Presser, 1981: 298-299). De doorsnee respondent beantwoordt iedere vraag dan ook
binnen het aangeboden kader, ook al wordt hij daardoor in zijn antwoordmogelijkheden sterk
beperkt. De formuleringseffecten die betrekking hebben op het al of niet aanbieden van een 'geen
mening' filter, het middenalternatief en open of gesloten vragen illustreren de beperking door de
vraagvorm.
13
Een derde categorie van effecten heeft betrekking op onbedoelde informatie in de
antwoordschalen. Dit komt vooral voor bij vragen waarin aan de respondent gevraagd wordt om
gedragsfrequenties mee te delen m.b.v. een numerieke antwoordschaal die wordt aangeboden. Een
aantal respondenten lijkt aan te nemen dat de antwoordschaal de 'ware' verdeling in de populatie
weergeeft. Op die basis vormt de respondent zich een oordeel over typische of sociaal wenselijke
hoeveelheden. Het midden van de schaal zou het modale gedrag voorstellen terwijl de extremen
beschouwd worden als 'outliers' (Schwarz e.a., 1988, 108-109). Er is bijgevolg een tendens om het
midden te kiezen.
Een vierde categorie van effecten bij opinievragen heeft betrekking op het referentiekader van
de ondervraagde. Hierbij speelt de context van de vraag, d.w.z. voorafgaande vragen en
antwoorden, een belangrijke rol. Voorafgaande vragen en antwoorden kunnen de betekenis van
een volgende vraag wijzigen of de aandacht van de respondent aanscherpen. Het antwoord op een
vraag kan dan in contrast of in overeenstemming met de vorige vragen geformuleerd worden. Dit
maakt het bijzonder moeilijk om antwoorden op eenzelfde vraag uit twee verschillende
opiniepeilingen te vergelijken. Hier spelen vanzelfsprekend ten volle het ‘accessibility theorema’
en concepten uit de sociale psychologie een rol. Een voorbeeld hiervan is de onuitgesproken
“given new contract” regel die de verbale communicatie tijdens een survey interview zou
beheersen. De ondervraagde neemt impliciet aan dat de interviewster niet zal vragen wat zij al
weet en bijgevolg wordt aan de volgende vraag een betekenis gegeven die contrasteert met de
vorige vraag (Strack, Martin & Schwarz, 1987: 9).
Laten we nu enkele voorbeelden bekijken. Onderstaand voorbeeld combineert twee effecten,
een éénzijdige beïnvloeding door een argument en informatie via de antwoordschaal:
Voorbeeld 4. In een ‘split ballot’ experiment van 1987 met twee toevallige en volledig vergelijkbare
steekproeven van respectievelijk 191 en 179 gehuwde vrouwen uit de omgeving van Gent werd de
volgende vraag gesteld: "Er wordt soms beweerd dat werklozen niet willen werken. Hoe groot schat
U het percentage werklozen dat niet wil werken. Dus hoeveel werklozen op honderd willen volgens
U niet werken?" (Billiet, e.a. 1988: 38). De ene steekproef (A) kreeg daarbij een kaart met
antwoordmogelijkheden. De vrouwen uit de tweede steekproef (B) moesten zonder hulp hun
antwoord meedelen. Het resultaat staat in Tabel 3. Het effect van maar liefst 45,7 procentpunten in
de categorie “er zijn meer dan 20 procent werklozen die niet willen werken”, is van een zelden
geziene omvang. Het groot aantal ondervraagden (62,4%) dat het aantal werkonwillige werklozen zo
hoog schat kan voor een deel toegeschreven worden aan de eenzijdige informatie (argument) in de
tekst van de vraag: “Er wordt soms beweerd dat werklozen niet willen werken”. Dit duwt de
ondervraagden naar de hoge inschatting van het percentage werkonwillige werklozen. Het
merkwaardige is echter dat dit voluit plaats heeft in vorm B (open vraag) waarin de ondervraagden
geen enkel ankerpunt hebben (tenzij de bewering “werklozen willen niet werken”). Het aanbieden van
een antwoordkaart met een range van “minder dan 5 procent” tot “meer dan 20 procent” geeft aan de
respondenten in vorm A wel een ankerpunt (Billiet, 1993a: 49).
14
Tabel 3. Antwoordverdeling op een open en op een gesloten vraag naar het geraamd aantal werklozen dat
niet wil werken (percentages).
Antwoordkaart Vorm A Gesloten vraag (kaart)
Vorm B Open vraag (geen kaart)
Minder dan 5 procent
5 tot 9 procent
10 tot 14 procent
15 tot 19 procent
meer dan 20 procent
(weet niet)
18,3
27,8
28,8
8,4
16,7
0,0
5,6
2,8
21,4
5,6
62,4
2,8
Totaal (100%) 191 179
χ² = 105,42; df = 5; p = 0,000
In dit voorbeeld spelen in vorm A twee response effecten in tegengestelde richting, het eenzijdig argument en de aangeboden schaal. Dat respondenten de informatie in de antwoordschaal aanwenden bij het aanmaken van een opinie, blijkt ook uit het volgend bekende voorbeeld over de frequentie van televiekijken (Billiet, Loosveldt & Waterplas, 1988: 62-63):
Voorbeeld 5. Aan de ene toevallig gekozen steekproef van gehuwde vrouwen werd een schaal met
lage waarden voorgelegd (-1/2 uur tot +2,5 uur). De andere steekproef kreeg een schaal met hoge
waarden (-2,5 uur tot +4,5 uur). In de eerste groep beweerde 72% van de respondenten gemiddeld
minder dan twee en een half uur per dag naar TV te kijken; in de tweede groep was dat slecht 48%.
De aangeboden schaal blijkt bovendien door te werken op een volgende open vraag waarin naar het
dagelijks TV-kijken van anderen wordt gevraagd. Alhoewel die vervolgvraag precies dezelfde was
voor de twee steekproeven, en er nog een andere vraag aan voorafging over belangstelling voor
televisie, werd in de steekproef die de lage schaal had gekregen het gemiddeld aantal uren TV-kijken
significant lager geschat (3 uur 51 minuten) dan in de steekproef met de hoge schaal 4 u 34’ (t = - 4,4;
p < 0,001).
Dit is een voorbeeld van een ‘carryover’ effect (Tourangeau, e.a. 1989) Informatie die gebruikt wordt in een vroeger deel van de vragenlijst wordt overgedragen op een volgende vraag en dit leidt tot een grotere consistentie in de antwoorden. Dit wordt eveneens geïllustreerd in het volgende voorbeeld waarin een argument in een vraagtekst naar een volgende vraag wordt overgedragen.
Voorbeeld 6. In het reeds vermelde ‘split ballot ‘onderzoek bij Vlaamse huisvrouwen tussen 21 en 49
jaar werd het effect van de vraagverwoording onderzocht m.b.t. twee vragen die onmiddellijk na
elkaar werden gesteld. De eerste vraag over “het uit elkaar gaan van gehuwde koppels” werd in twee
varianten gebruikt. De daarop volgende tweede vraag over “begeleiding van gehuwde paren” werd
nadien op een identieke wijze verwoord in de twee steekproeven. In Tabel 4 staat de exacte
verwoording van de vragen en antwoordverdelingen in de twee steekproeven (vorm A en vorm B). Er
werd een effect verwacht van de aangeboden overweging over de oorzaak van het uit elkaar gaan in
vorm A (“gehuwde koppels doen te weinig moeite”) maar het effect is gering en niet significant op
niveau 0,05 (p = 0,142). De overweging speelt echter mee in de daaropvolgende vraag waarin naar
15
het effect van een concreet voorbeeld van “moeite doen” wordt gevraagd. Ruim twaalf procentpunten
meer respondenten zijn van oordeel dat begeleiding van de koppels kan bijdragen om minder snel uit
elkaar te gaan.
Tabel 4. Procentuele antwoordverdelingen op twee vragen over verwante opinies in twee vergelijkbare
steekproeven als illustratie van een context effect (een overdracht van informatie die tot consistentie leidt).
Vorm A Vorm B
“Vindt U dat gehuwde koppels tegenwoordig te weinig moeite doen om hun problemen op te lossen en daardoor te vlug uit elkaar gaan, of hebt U daar geen mening over?”
“Vindt U dat gehuwde koppels tegenwoordig te vlug uit elkaar gaan, of hebt U daar geen mening over?”
Ja
Neen
Geen mening
77,5
8,4
14,1
(N = 191)
Ja
Neen
Geen mening
73,2
5,6
21,2
(N = 179)
χ² = 3,9; df = 2; p = .142
“Denkt U dat begeleiding van echtparen er toe kan bijdragen dat zij niet te vlug uit elkaar gaan, of denkt U dat begeleiding daar weinig aan kan veranderen?”
Ja, begeleiding kan bijdragen
Neen, kan niet bijdragen
67,0
33,0
(N = 191)
Ja, begeleiding kan bijdragen
Neen, kan niet bijdragen
55,5
44,5
(N = 179)
χ² = 5,01; df = 1; p = 0,025
Indien informatie uit een voorafgaande vraag bij een aantal respondenten tot contrast
(inconsistentie) leidt in de antwoorden, dan is er sprake van een ‘backfire’ effect (Tourangeau,
1992: 37). Een van de meest bekende voorbeelden hiervan heeft betrekking op het effect op een
algemene (brede) vraag over de toelaatbaarheid van abortus indien deze gesteld wordt na een
specifieke vraag over abortus. De brede vraag heeft betrekking op vrouwenrechten, de specifieke
vraag heeft betrekking op een ernstige handicap van het kind. In Vlaanderen werd een effect
gevonden dat vrijwel van dezelfde orde is als in Angelsaksische studies (Schuman & Presser, 1981:
37; Billiet, Loosveldt & Waterplas, 1988: 75).
Voorbeeld 7. De brede (algemene) vraag luidt als volgt: "Vindt U dat het voor een zwangere vrouw
wettelijk moet mogelijk zijn om een abortus te ondergaan als ze gehuwd is en geen kinderen meer
wil?". De meer specifieke vraag is de volgende: "Vindt U dat het voor een zwangere vrouw wettelijk
mogelijk moet zijn om een abortus te ondergaan als er een grote kans bestaat dat haar baby ernstig
gehandicapt zal zijn?". Als de brede vraag als eerste (of apart) gesteld wordt dan keurt 56;1% van de
ondervraagde vrouwen de mogelijkheid tot abortus niet af. Als men deze brede vraag echter na de
specifieke vraag stelt, dan daalt het percentage vrouwen dat de mogelijkheid tot abortus niet afkeurt
16
volgens de algemene vraag naar 39,7%. Door een eenvoudige omwisseling van volgorde verandert
een meerderheid in een minderheid. De antwoorden op de specifieke vraag zijn echter niet gevoelig
voor de volgorde. Het goedkeuren schommelt rond 91% (zie Tabel 5). De tabel geeft de gezamenlijke antwoordverdelingen op de twee vragen (percentages op het totaal) en de marginale
verdelingen per vraag (percentages in vet). Het percentage respondenten dat abortus zou toelaten in
de twee situaties daalt van 55,3% in vorm B (vrouwenrechten eerst) naar 39,1% in vorm A (specifieke
vraag eerst). Het is duidelijk dat meer ondervraagde vrouwen abortus als middel tot
geboortebeperking (vrouwenrechten) afkeuren nadat ze eerst hun antwoord gegeven hebben op de
vraag over de meer aanvaardbare reden voor abortus (ernstige handicap). Dit wijst op een verenging
van de betekenis van de algemene vraag. Nadat het aanvaardbare bijzondere geval (ernstige handicap
als reden) in de voorafgaande vraag expliciet aan bod kwam, is die reden niet meer aanwezig in de
betekenisinhoud van de volgende vraag en die wordt bijgevolg minder aanvaardbaar (abortus in
andere gevallen dan een ernstige handicap).
Tabel 5. Procentuele antwoordverdelingen op twee vragen over de toelaatbaarheid van abortus in twee
omstandigheden als illustratie van een context effect (een wijziging van betekenis die tot contrast leidt).
Algemene vraag (vrouwenrechten) Volgorde van de vraag Specifieke vraag
(ernstige handicap) Ja Neen Totaal
Vorm A Ja 39,1 50,0 89,1
Specifiek/algemeen Neen 0,6 10,3 10,9
Totaal 39,7 60,3 100,0
(N = 179)
Vorm B Ja 55,3 38,1 93,1
Algemeen/specifiek Neen 1,1 5,8 6,9
Totaal 56,1 43,9 100,0
(N = 191)
Marginale verdeling ‘vrouwenrechten’ x volgorde: χ²= 10,1; df = 1; p = 0,001
marignale verdeling ‘ernstige handicap’ x volgorde: χ² = 1,79; df = 1; p = 0,18
Via dit context effect krijgt men een zicht op de wijze waarop de ondervraagden de vraag
interpreteren.
Voorbeeld 7 (vervolg). Uit het beluisteren van de bandopnames van de interviews blijkt dat een aantal
ondervraagden in de algemeen/specifiek situatie de wens uitdrukken om hun vorig antwoord te
bekijken en te wijzigen nadat ze ook de vervolgvraag gehoord hebben. Na deze twee vragen werd de
ambivalentie t.o.v. abortus gemeten. Vorm B brengt een aantal ondervraagden blijkbaar in
verwarring. In de algemeen/specifiek (vorm B) volgorde beweert 32,3% van de ondervraagden niet
goed te weten wat te denken over abortus. In vorm A is dit slechts bij 18,3% van de respondenten het
geval (Billiet, Waterplas & Loosveldt, 1992:135).
17
Naar een verklaring van contexteffecten
Zowel bij de vraag naar het bestaan van opinies als bij de commentaar op de effecten van
verwoording en de context is duidelijk geworden dat de inzichten van cognitieve en sociaal
psychologen met hun ‘social cognition’ benadering, een belangrijke rol spelen in de verklaring van
response effecten.6 Daarom wil ik hier nog even ingaan op het algemene model en op de
voornaamste concepten. De belangstelling van survey-methodologen en opinieonderzoekers voor
de verklaringen uit de cognitieve psychologie is er pas in het midden van de jaren tachtig gekomen.
Voordien was men heel sceptisch tegenover de inbreng van psychologen, o.m. omdat de
bevindingen betrekking hadden op onderzoek in homogene studentenpopulaties en niet in de
algemene bevolking (Schuman & Presser, 1981: 313-314). In de ‘invasie’ vanuit de sociale en
cognitieve psychologie kunnen twee perioden onderscheiden worden. De eerste periode werd
ingeleid door een aantal conferenties tussen 1983 en 1989 en was vooral georiënteerd op de
ontwikkeling van theoretische verklaringen voor de effecten die in de ‘split ballots’ waren
gevonden. Er werden experimenten opgezet om die verklaringen te testen. Syntheses van de
onderzoeksresultaten en theoretische reflecties zijn o.m. te vinden in “Context Effects in Social and
Psychological Research” (Schwarz & Sudman, 1992) en “Thinking about Answers. The
Application of Cognitive Processes to Survey Methodology” (Sudman, Bradburn & Schwarz,
1996). In de tweede periode sinds het begin van de jaren negentig is de focus verschoven naar het
cognitief testen van vragen in de voorbereidende fase van het survey-onderzoek in zgn. cognitieve
labo’s. Een voorlopige synthese hiervan is te vinden in “Answering Questions” (Schwarz &
Sudman, 1996). Het is de bedoeling om tot optimale formuleringen te komen. In de lijn van het
bekende onderscheid van Groves (1989: 5) die het heeft over ‘measurers’ en ‘reducers’, kunnen
we rustig stellen dat de eerste fase vooral gericht was op het meten en verklaren van response
effecten, en de tweede op het vermijden van ‘fouten’. Wij zullen ons hier beperken tot een beknopt
overzicht van de enkele centrale gedachten uit de eerste fase.
De cognitieve modellen van het vraag- en antwoordproces in opiniepeilingen zijn varianten van
een basismodel waarin (1) het interpreteren van de vraag, (2) het zoeken naar informatie in het
lange termijn geheugen, (3) het genereren en editeren van een antwoord, en (4) het articuleren van
het antwoord, de vier basisstappen zijn (Strack & Martin, 1987; Tourangeau & Rasinski, 1988). Er
wordt op gewezen dat het opzoeken in het geheugen niet alleen een rol speelt bij vragen over feiten
of gebeurtenissen maar evenzeer bij opinies. Attitudeobjecten en vroegere oordelen en gevoelens
daaromtrent zijn immers eveneens in het geheugen opgeslagen in associatieve netwerken (Anderson
& Bower, 1973; Tourangeau & Rasinski, 1988: 299; Sudman, Bradburn & Schwarz, 1996: 70-72).
Soms zal de ondervraagde, gebruikmakend van overwegingen, zich een volledig nieuw oordeel
moeten vormen, maar in veel gevallen zal de herinnering aan een gevormde opinie een rol spelen
bij het beantwoorden van de vraag. In elk van deze stappen kunnen externe factoren het antwoord
18
helpen ‘vormen’ (of ‘verstoren’) zoals bijvoorbeeld de context van het vraaggesprek (o.m. hints
van de interviewer), de context van voorafgaande vragen, informatie waarop recent de aandacht
werd gevestigd, en de reeds besproken predisposities (Zaller, 1992). Het is in dit kader dat de
belangstelling voor het concept ‘information accessibility’ moet begrepen worden bij het
interpreteren van antwoorden op opinievragen.
Sommigen hebben er op gewezen dat alle stappen in het vraag- en antwoorproces geëvalueerd
worden vanuit de pragmatische doelstelling van de deelnemers aan het gesprek (Graesser &
Murachver 1985: 27-28). Deze pragmatische doelen houden onder meer verband met de
zelfpresentatie (sociale wenselijkheid). Impliciete conversatienormen blijken eveneens een rol
spelen bij het interpreteren en beantwoorden van vragen (Grice, 1975). Een toepassing hiervan
vindt men in het concept ‘pragmatically significant answer’. Er wordt verondersteld dat de
respondent de kennis en belangstelling van de interviewer inschat en van daaruit een mogelijk
antwoord evalueert. Indien de conversatiecontext coöperatief is, - een eigenschap die in survey
interview verondersteld wordt - dan zal de geïnterviewde een antwoord geven met de grootste
pragmatische significantie. Dit is een antwoord dat informatief is in het licht van de staat van
kennis die bij de interviewer (of onderzoeker) verondersteld wordt; dat bruikbaar is in het licht van
de veronderstelde belangstelling (of doelstelling), en dat niet meer inspanning van de
geïnterviewde vraagt dan nodig is (Grewendorf 1983: 79-80). Een andere toepassing hiervan is de
‘given new contract’ regel die reeds ter sprake kwam. De ondervraagden veronderstellen dat de
interviewster het antwoord niet kent, dat zij het antwoord wenst te kennen, en dat zij niet zal vragen
wat zij reeds weet, en dat bijgevolg in een volgende vraag naar iets nieuws gevraagd wordt. Deze
veronderstelling zou meespelen bij het interpreteren van een nieuwe vraag die verwant lijkt met een
vorige. Het zgn. ‘inclusion/exclusion’ model is hierop gebaseerd: er wordt verondersteld dat het
gebruiken van gemakkelijk toegankelijke informatie de algemene regel is, tenzij deze informatie
wordt uitgesloten omwille van conversationele normen (“dat hoort niet” of “dat weet zij reeds”) of
door de taakomschrijving die de interviewer geeft (Sudman, Bradburn & Schwarz, 1996: 108-110).
19
4. RESPONSE EFFECTEN ALS DATA
Allemaal goed en wel, maar wat kan de gebruiker met deze inzichten doen als hij of zij
geconfronteerd wordt met resultaten van opiniepeilingen? Zou het niet beter zijn dat onderzoekers
hun opinievragen correct formuleren zodat al deze ‘fouten’ niet kunnen optreden? De aandachtige
lezer zal ondertussen allicht begrepen hebben dat dit niet kan. Een uitgedrukte opinie bestaat niet
onafhankelijk van de methode waarmee ze ‘gemeten’ is en bijgevolg moet ze steeds geïnterpreteerd
worden in de context van die meting. Er is bijgevolg maar één veilige weg om resultaten van
enquêtes naar opinies correct te interpreteren: rekening houden met het bestaan van methode
effecten. Informatie over mogelijke effecten, zoals in de hiervoor gegeven voorbeelden, en inzicht
in de cognitieve processen, zijn goede gidsen om zinnige conclusies uit resultaten van
opiniepeilingen te trekken. We zullen nu met enkele voorbeelden aantonen hoe inzicht in
cognitieve processen en in methode effecten een betere kijk op opinies kan verschaffen. Hiermee
willen we aantonen dat het soms niet aangewezen is om methode effecten proberen uit te
schakelen, gegeven dat men het al zou kunnen, en dat het soms beter is om effecten als bijkomende
gegevens te gebruiken bij de interpretatie van peilingen.
Het interpreteren van cognitief complexe vragen
Het belang van inzicht in de cognitieve processen bij het beantwoorden van vragen kan
geïllustreerd worden aan de hand van de peiling die werd gepubliceerd net voor de verkiezingen
van 13 juni 1999.
Voorbeeld 8. Een telefonische peiling werd uitgevoerd van 8 tot 10 juni bij een (zogenaamd)
representatieve steekproef van 1.000 Vlamingen van 18 jaar en ouder (Financieel Economische Tijd,
12 juni: 1). Zoals bij dergelijke peilingen steeds het geval is, werd de uitslag van Agalev overschat
(15,7% i.p.v. 11%) en die van het Vlaams Blok onderschat (11,1% i.p.v. 15,3%). Aangezien de trend
voor de twee ‘groten’ (CVP en VLD) relatief goed werd ingeschat, bleef de blaam voor deze ‘Ultieme
peiling’ deze keer uit. We zullen het echter niet over de accuraatheid van de voorspelling hebben
maar over het merkwaardig gegeven dat tijdens de verkiezingsshow deze peiling door toenmalig
CVP-voorzitter Van Peel dankbaar werd aangegrepen om te beweren dat het verlies van de CVP
volledig te herleiden was tot het eenmalig accident ‘dioxinecrisis’. “Zonder dat accident zou de CVP
gewonnen hebben”, aldus de voorzitter verwijzend naar de peiling. Ik laat in het midden of de CVP-
voorzitter nu echt in peilingen was gaan geloven. Hij citeerde in elk geval correct uit de krant:
“Vooral de CVP lijkt de kop van jut te worden. Zonder de affaire was de partij op weg te winnen in
vergelijken met 1995: van 27,3 naar 28,8 procent. De dioxinezaak knaagt daar meer dan vier
procentpunten af. De partij zou onder de ‘historische ‘ drempel van 25 procent zakken, maar toch
nog net de grootste Vlaamse partij blijven” (FET, 12 juni: 1 ). Pro memorie: de CVP behaalde 22,1%
op 13 juni. Deze onterechte uitspraak over winst zonder de affaire (het verschil tussen 27,3 en 28,8 is
statistisch niet significant op α-niveau 0,05) is gebaseerd op twee vragen die onmiddellijk na elkaar
20
werden gesteld, met name over het stemgedrag vóór en na de crisis. De verschillen werden
geïnterpreteerd als een aanduiding van het effect van de dioxinecrisis.
Is deze interpretatie die geen rekening houdt met cognitieve processen correct? Ik betwijfel dit
sterk. Het gaat hier immers over een hypothetisch gedrag gesitueerd in het verleden: “Wat zou je
gedaan hebben indien er geen dioxinecrisis zou geweest zijn?”. De cognitieve activiteit die de
ondervraagde moet ontwikkelen om tot een antwoord te komen is enorm. Bij de kiezers van de
CVP en de SP, de twee regeringspartijen die toen voor de crisis verantwoordelijk geacht werden, is
de kans op een contrasteffect groot.7 Precies door het contrast in de antwoorden (vóór nog wel; na
niet meer) konden de ondervraagden uiting geven aan het ongenoegen dat toen overheerste. De
boodschap “eigenlijk zouden we nog eens voor hen gestemd hebben, maar nu zeker niet meer” is
veel krachtiger dan “we zullen niet voor hen stemmen, maar we zouden het zonder de crisis toch al
niet gedaan hebben”. Een waarschijnlijk meer correcte interpretatie van deze peiling is dat de CVP
ook zonder de dioxinecrisis stemmen zou verloren hebben8, maar dat het verlies door de crisis nog
een stuk groter is geweest. Vandaar de noodzaak ook op zoek te gaan naar andere oorzaken, iets
wat de partijvoorzitter dank zij de peiling rustig van zich af kon houden voor de televisiecamera.
Bovenstaand voorbeeld geeft geen harde argumenten voor onze interpretatie. Wij kunnen alleen
steunen op de verworven theoretische inzichten in contexteffecten en op informatie uit alle vorige
peilingen.
Voorbeeld 8 (vervolg). In vijf vorige peilingen tussen 1 januari en 13 mei 1999 heeft de CVP nooit
meer dan 25,6% stemintenties achter zich gekregen. In April zat de intentie om voor de CVP te
stemmen met 22,9% zelfs dichter bij de werkelijke uitslag van 13 juni dan in de post-dioxine peiling
van 11 juni. Het is alleen de retrospectieve hypothetische pre-dioxinecrisis vraag die in contrast met
de post-dioxinecrisis vraag zo’n hoge score (28,8%) oplevert, naar ons oordeel precies omwille van
het contrast met de ‘pre-dioxine’ vraag.
Naast het gezond verstand en theoretisch inzicht in response effecten is informatie over
gelijkaardige peilingen en wetenschappelijk opgezette opinieonderzoeken van nut bij het
interpreteren van peilingen. Informatie over de samenleving die uit andere bronnen dan peilingen
afkomstig is, zijn eveneens nuttige bakens.
De blootstelling aan informatie in de media in rekening nemen
Het volgend voorbeeld heeft betrekking op het verschil tussen de antwoordverdeling op de open
vraag “waarom hebt U voor die partij gestemd?” van het ISPO verkiezingsonderzoek van 1991 en
1995 en de BRTN exit-poll van 1995 die eveneens door ISPO werd uitgevoerd.
Voorbeeld 9. Tijdens de analyse van de gegevens van de BRTN exit-poll, gehouden bij 3.748 kiezers
bij het verlaten van het stemlokaal op 21 mei 1995, werd vastgesteld dat 33% van de Vlaams Blok
kiezers beweerden voor die partij gestemd te hebben omwille van het migrantenthema (Swyngedouw,
21
Beerten & Billiet, 1997: 12). Dit was meer dan bij om het even welke andere partij maar toch
opvallend minder dan in het ISPO onderzoek dat gedurende een aantal maanden na de verkiezingen
van 1991 onder 2.691 Vlaamse kiezers werd gehouden. Toen beweerde ruim 50% van de kiezers van
het Vlaams Blok dat zij omwille van de migranten voor die partij gestemd hadden (Billiet, 1993b:
111). Als men de impliciete verwijzingen naar migranten ook in rekening neemt liep dit zelfs op tot
ruim 65%. In het ISPO onderzoek, dat in de maanden na de verkiezingen van mei 1995 werd
gehouden bij 2.099 Vlamingen, en dat op dezelfde bevolking als de exit-poll van 1995 betrekking
heeft, beweerde 41% van de Vlaams Blok kiezers expliciet omwille van de migranten voor die partij
gestemd te hebben.
Was voor de kiezers van het Vlaams Blok het migrantenthema werkelijk minder belangrijk in 1995
dan in 1991, en zo ja, in welke mate? Wie geen rekening houdt met cognitieve processen bij het tot
stand komen van het antwoord en met de context van de bevraging is het antwoord simpel: het
migrantenthema is minder belangrijk geworden. In welke mate? Dat is iets moeilijker te
beantwoorden want er zijn voor 1995 twee cijfer, 30% en 40%. Laat ons aannemen dat onze
gebruiker terecht beslist om cijfers te vergelijken die in (op het eerste zicht) gelijke context tot stand
gekomen zijn, dus de twee post-electorale surveys van ISPO. Dan is het verschil 10 procentpunten.
Onze gebruiker zal tot een redelijke afname van het belang van het migrantenthema besluiten. Is dat
terecht?
Laten we nagaan welke informatie we kunnen gebruiken bij het interpreteren van de cijfers in
bovenstaand voorbeeld. Om overwegingen in het stemhokje te achterhalen is de exit-poll beter
geschikt dan het post-electoraal survey omdat de afstand tussen keuze en het meedelen van
overwegingen die bij de keuze meegespeeld hebben veel korter is. In het onderzoek in de maanden
na de verkiezingen is de taak (beantwoorden van een ‘waarom’ vraag) veel complexer omwille van
de afstand tussen de keuze en het beantwoorden van de vraag. Bij het vormen van een antwoord
zal gebruik gemaakt worden van de gemakkelijkst bereikbare informatie, en dat kan de duiding in
de media zijn. Als in de weken na de verkiezingen in de media vaak geïnformeerd wordt over de
oorzakelijke band tussen het stemgedrag voor het Vlaams Blok en het migrantenthema, dan kan dit
de informatie zijn die de ondervraagden, afhankelijk van hun predispositie, gebruiken bij het
vormen en geven van een antwoord op de vraag naar de stemmotieven. Indien men bijgevolg tot
een ‘werkelijk’ verschil tussen de 50% in 1991 en de 40% in 1995 wil besluiten dan zou men
moeten nagaan of de blootstelling aan informatie over keuzemotieven wel dezelfde was in de twee
periodes. Het antwoord is ‘neen’. In 1991 overheerste in de maanden na de verkiezingen de
verbinding “extreem rechts – migranten” de mediaberichten; in 1995 waren hoofdzakelijk andere
thema’s aan de orde (politiek fatsoen, sociale zekerheid) en ging het vooral over de winst van de SP
en het niet doorbreken van VLD.
Wellicht werd het migrantenthema omwille van de media overschat in 1991 en is er niet zo heel
veel veranderd. We kunnen het niet weten want in 1991 was er geen exit poll. In Voorbeeld 9
werd duidelijk dat naast theoretische kennis, ook inzicht nodig is in de thema’s die gedurende
22
opiniepeilingen de media beheersen. Er zijn bovendien vaak twee verschillende methodes nodig
om de antwoorden interpreteren.
Inzicht via vergelijken van twee methodes
Het meten van een response effect via het gebruik van minstens twee vraagvarianten kan wel
degelijk beter substantieel inzicht verschaffen. Met andere woorden: methode-effecten als
waardevolle data. In “Ondanks beperkt zicht” (1993a: 54-55) is een verhelderend voorbeeld
opgenomen over het verschil in geregistreerde katholieken naargelang gebruik gemaakt wordt van
de zgn. ééntraps- of tweetrapsvraag. De toename van dit response effect tussen 1971 en 1987 leert
één en ander leren over veranderingen in de aard van de kerkelijke betrokkenheid. Laten we ons
echter beperken tot een recenter voorbeeld dat betrekking heeft op een opinie.
Voorbeeld 10. In een ISPO-onderzoek van 1996 over politieke kennis bij Vlamingen tussen 18 en 74
jaar werden twee vragen voorgelegd met als bedoeling de neiging tot discriminatie ten opzichte van
etnische minderheden te meten. Aangezien de onderzoeker zich bewust was van mogelijke effecten
van de vraagverwoording werd voor deze vragen een ‘split-ballot’ experiment opgezet. De vragen
hadden betrekking op het ontslag en de promotie van vreemde en Vlaamse werknemers. In toevallige
steekproef A (N = 532) kregen de ondervraagden twee antwoordmogelijkheden voor ontslag
respectievelijk promotie aangeboden: de Vlaamse werknemer of de werknemer van een etnische
minderheidsgroep. In de tweede toevallige steekproef B (N = 455) werd het middenalternatief “dat
mag geen verschil maken” expliciet aangeboden. De antwoordverdelingen bij deze vragen staan in
Tabel 6. Indien het middenalternatief niet wordt aangeboden dan wordt dit toch spontaan vermeld
door ongeveer 40% van de ondervraagden (Steekfproef A). Dit aantal neemt echter toe met méér dan
20 procentpunten indien deze antwoordmogelijkheid expliciet wordt vermeld.
We leren hieruit dat vermoedelijk niet alle ondervraagden wier opinie, gemeten via de vragen in
steekproef A, naar discriminatie neigt (rond 46%), een stabiele opinie hebben. Ik zeg vermoedelijk
omdat de twee verschillende verwoordingen niet aan dezelfde respondenten werden aangeboden. We
weten bijgevolg niet precies wie van opinie zou veranderen onder invloed van de toevoeging van de
overweging “het mag geen verschil maken”. Om daar zicht op te krijgen is een paneldesign vereist,
op voorwaarde dat geen herinneringseffect op zou treden. We mogen echter wel aannemen dat de
meer stabiele categorie die sterker uitgesproken tot discriminatie geneigd is, een heel stuk lager ligt
(25,9% volgens de ‘ontslagvraag’ en 31,7% volgens de ‘promotievraag’). Tussen 15% tot 20% van
de ondervraagden laat zich leiden door de suggestie van de onderzoeker dat het geen verschil mag
maken.
23
Tabel 6. Procentuele antwoordverdelingen bij twee vragen zonder en met een middenalternatief in de
Vlaamse bevolking tussen 18 en 75 jaar.
Steekproef A Steekproef B
Veronderstel dat er twee werknemers zijn. De ene is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als één van hen ontslagen wordt omdat het slecht gaat met het bedrijf, wie zou dat volgens u dan moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer?
Veronderstel dat er twee werknemers zijn. De ene is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als één van hen ontslagen wordt omdat het slecht gaat met het bedrijf, wie zou dat volgens u dan moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer? Of mag dat geen verschil uitmaken?
Werknemer van etnische minderheid
Vlaamse werknemer
Mag geen verschil maken
Geen mening
45,1
7,4
39,5
7,9
Werknemer van etnische minderheid
Vlaamse werknemer
Mag geen verschil maken
Geen mening
25,9
6,4
65,1
2,60
N (100%) 532 N (100%) 455
χ² = 70,087; df = 3; p = 0,001
Veronderstel dat er twee werknemers zijn. De ene werknemer is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als maar één van hen in aanmerking kan komen voor een promotie, wie zou het dan volgens u moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer?
Veronderstel dat er twee werknemers zijn. De ene werknemer is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als maar één van hen in aanmerking kan komen voor een promotie, wie zou het dan volgens u moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer? Of mag dat geen verschil uitmaken?
Werknemer van etnische minderheid De Vlaamse werknemer
Mag geen verschil maken
Geen mening
4.0 47.1
43.0
6.0
Werknemer van etnische minderheid De Vlaamse werknemer
Mag geen verschil maken
Geen mening
0.8
31.7
65.5
2.0
N (100%) 532 N (100%) 455
χ² = 57.195; df = 3; p = 0,001
Dit voorbeeld maakt duidelijk dat de keuze voor de ene of de andere verwoording afhankelijk is
van het onderzoeksopzet. Indien men zicht wil krijgen op degenen met een meer uitgesproken
neiging tot discriminatie, dan is vorm B aangewezen. Ondanks de suggestie door de onderzoeker,
kiest men in steekproef B toch nog voor het ontslag van de etnische minderheid. Wil men echter
een meer uitgesproken categorie op het spoor komen die discriminatie afwijst, dan is vorm A meest
aangewezen omdat daar spontaan voor “mag geen verschil maken” gekozen wordt ondanks het
ontbreken van dit antwoord in de antwoordmogelijkheden.
24
Het ‘meten’ van meetfouten
We hebben enkele voorbeelden gezien die aantonen dat methode-effecten rijk aan informatie
kunnen zijn met het oog op inhoudelijke gevolgtrekkingen over opinies en andere gerapporteerde
subjectieve toestanden. Zo’n inzicht is maar mogelijk als de effecten gemeten en geïnterpreteerd
kunnen worden met behulp van andere informatie en van theoretisch inzicht. Het is zelfs mogelijk
om nog een stap verder te gaan en de gemeten opinies te corrigeren voor methode-effecten.
Voorbeelden hiervan vindt men in de reeds aangehaalde ‘multitrait-multimethod’ benadering
(Saris, 1995) en het meten van de zgn. vertekening omwille van volgzaamheid via structurele
modellen (Billiet & McClendon, 1998).
Het eerstgenoemde bouwt verder op de ideeën die door Campbell en Fiske (1959) werden
uitgewerkt in hun bekend artikel over convergerende en discriminerende geldigheid met behulp van
de ‘multitrait-multimethod’ (MTMM) matrix. Indien meerdere eigenschappen (opinies) bij
dezelfde subjecten meermaals onafhankelijk van elkaar met verschillende methodes gemeten
worden, dan is het mogelijk om parameters voor de betrouwbaarheid en de meetgeldigheid te
bekomen. Men krijgt m.a.w. in principe zicht op de methode-effecten en de onbetrouwbaarheid en
men kan deze informatie gebruiken om de geobserveerde correlaties tussen eigenschappen te
corrigeren met het oog op betere schattingen. In principe, want er zijn nog wel een aantal
problemen die moeten opgelost worden. Het herhaaldelijk meten is kostelijk en indien dit te vlug
na elkaar gebeurt zijn de metingen niet onafhankelijk van elkaar (test-retest effect). De methode
werd vaak toegepast op varianten van antwoordschalen. Indien de methodes niet voldoende van
elkaar verschillen, dan kunnen ze onderling correleren, wat normaal niet verondersteld wordt. Zo
kunnen antwoordschalen van diverse lengte (5, 10 of 100 punten) wel degelijk een
gemeenschappelijk methode effect hebben (tendens om het midden te kiezen) dat niet ontdekt
wordt door toepassing van MTMM. Tenslotte blijken de kwaliteitsmetingen met betrekking tot een
bepaalde methode afhankelijk van de context van de andere methoden die gebruikt worden (De Wit
& Billiet, 1995). We gaan hier niet verder op in.
De tweede methode, het meten van methode effecten via structurele modellen, heeft niet
toevallig betrekking op volgzaamheid. Uitspraken in verband met opvattingen in de vorm van
“helemaal eens” (score 5 of 7) tot “helemaal oneens” (score 1) hebben immers de eigenschap dat ze
zowel in de gunstige als in de ongunstige richting ten overstaan van het attitudeobject kunnen
verwoord zijn. Men kan bijgevolg verwachten dat ondervraagden het niet eens zijn met ongunstige
uitspraken als zij het eens zijn met gunstige uitspraken, en omgekeerd. Subjecten die in het geval
van gebalanceerde sets van uitspraken (evenveel gunstig als ongunstig) de neiging vertonen om het
met alle of met de meerderheid van de uitspraken eens te zijn verstoren de theoretisch verwachte
covarianties (correlaties) tussen de indicatoren; zij veroorzaken additionele gemeenschappelijke
residuele covariantie die omwille van de inconsistentie van de antwoorden niet aan de inhoudelijke
25
achterliggende attitudevariabelen kan toegeschreven worden. Dit verschaft de mogelijkheid om via
structurele modellen een gemeenschappelijke methodefactor te identificeren. Zonder op de
technisch details in te gaan kan dit best visueel geïllustreerd worden met het volgend voorbeeld.
Voorbeeld 11. In het ISPO verkiezingsonderzoek van 1995 werden twee concepten, zich bedreigd
voelen door migranten en politiek wantrouwen gemeten met gebalanceerde sets van respectievelijk
zes en vier items. De verwoording van deze items was de volgende:
V108_2 (-)
V108_4 (-)
V108_7 (-)
V108_6 (+)
V108_8 (+)
V108_10 (+)
Over het algemeen zijn de migranten niet te vertrouwen.
Gastarbeiders zijn een gevaar voor de tewerkstelling van de Belgen.
Moslims zijn een bedreiging voor onze cultuur en gebruiken
De migranten dragen bij tot de welvaart van ons land.
De aanwezigheid van verschillende culturen is een verrijkt onze samenleving.
Wij zouden de buitenlanders die zich in België willen vestigen hartelijk welkom moeten heten.
V97_7 (-)
V97_9 (-)
V97_3 (+)
V97_4 (+)
De politici hebben nooit geleerd om te luisteren naar mensen zoals ik.
Van zodra ze gekozen zijn, voelen de meeste politici zich te goed voor mensen zoals ik.
Als mensen zoals ik aan politici hun opvattingen laten weten, dan wordt daar rekening mee gehouden.
De meeste van onze politici zijn bekwame mensen die weten wat ze doen.
Zowel in de Vlaamse als in de Waalse steekproef past het model in Figuur 2. De cijfers bij de pijlen
(factorladingen) van de latente variabelen naar de geobserveerde indicatoren geven aan in welke mate
de indicatoren beïnvloed zijn door het latente construct dat we bedoelden te meten.
Figuur 2 . Meetmodel voor twee inhoudelijke concepten en gemeenschappelijke stijlfactor, gemeten met twee
sets van gebalanceerde items.
v108_2
v108_4
v108_7
v108_6
v108_8
v108_10
v97_7
v97_9
v97_3
v97_4
STIJL
.35
.40
.54
.47
.44
.49
.51
.24
.70
.79.14
.47
.18
.18
.18
.18
.18
.18
.18
.18
.18
.18
.78
.75
.66
-70
-.73
-.69
.68
.85
-.52
-.42
WANTROUW
DREIGING
26
Die coëfficiënten zijn een aanduiding van de meetgeldigheid. Ideaal moet dit, rekening houdend met
toevalsfouten dicht bij 1 (of –1) zijn maar dat wordt zelden bereikt. De verklaring hiervoor is dat de
variantie in elke indicator ook nog beïnvloed wordt door een unieke bron die niet geïdentificeerd is.
Het zich bedreigd voelen is hier adequater gemeten dan het wantrouwen in politici .
In dit voorbeeld wordt een methode-effect gespecificeerd, de antwoordstijl “neiging tot
instemming”. Een deel van de residuele variantie die niet door de inhoudelijke concepten
verklaard kan worden, beschouwen we m.a.w. als een methode-effect dat alle items van die vorm
gemeenschappelijk hebben. Vanzelfsprekend zijn de factorladingen van de stijlfactor op de
indicatoren geringer. Dat is maar goed ook, het is immers de bedoeling om een inhoudelijke
variabele te meten en niet een methode-effect. We zien ook dat twee indicatoren van
machteloosheid nog wat gemeenschappelijke variantie hebben, maar we zijn niet in staat om deze
te identificeren, vandaar de toegestane correlatie tussen de residuen (error termen) van de twee
uitspraken die gunstig zijn voor de politici. Meet deze stijlfactor de neiging tot instemming?
Vrijwel zeker, want de stijlfactor blijkt meer dan 0,90 te correleren met een construct “aantal keren
instemming met een set van 14 items” (Billiet & McClendon, 1998: 145). Het zou natuurlijk ook
kunnen gaan om een neiging om score 5 te kiezen, maar dat is weinig waarschijnlijk. Onze
stijlfactor correleert negatief met de genoten opleiding (r = -0,23). Dit is opnieuw een aanduiding
dat het om de tendens tot instemmen gaat die meer voorkomt bij lager geschoolde respondenten.
Het model met een stijlfactor past veel beter bij de gegevens dan een model met alleen maar de
inhoudelijke variabelen9. Dit model hebben wij met succes toegepast op een gebalanceerde set van
acht etnocentrisme items in acht West Europese landen (ISSP 1995). Indien geen stijlfactor
gespecificeerd wordt dan is het niet mogelijk om een equivalent meetinstrument te vinden met de
acht indicatoren. De antwoordstijl verschilt weinig tussen deze landen (Billiet, Cambré &
Welkenhuysen-Gijbels, 1999). Er zijn wel verschillen tussen hogere en lager opgeleiden. Het
effect van instemming is groter bij de lager geschoolden. Voor zover wij tot nog toe gevonden
hebben, is het stijleffect te gering om de correlaties tussen de inhoudelijke factoren substantieel te
beïnvloeden. Dat is maar best zo.
5. WIE WEIGERT TELT (NIET) MEE
Opiniepeilingen pretenderen om op grond van resultaten van beperkte steekproeven iets te zeggen
over de spreiding van opinies in de bevolking. De wijze waarop de steekproef getrokken werd en
de mate waarin deze werkelijk gerealiseerd werd, is bijgevolg van essentieel belang om te oordelen
over de zin of onzin van uitspraken over de bevolking. Het gaat steeds om schattingen met een
vooraf vastgestelde kans op vergissing (bijvoorbeeld 5%) dat de schattingen binnen een bepaald
27
interval liggen. Statistische uitspraken zijn dus nooit zeker. Hun waarde ligt in de kwaliteit dat het
in principe mogelijk is om de kans op een fout van een bepaalde omvang vast te stellen. Dit is
alleen mogelijk indien men over een toevalssteekproef beschikt, indien men de kans op trekking
van de steekproefeenheden kan berekenen, en indien men mag aannemen dat de uitval
(weigeringen, onbereikbaarheid) zuiver toevallig is. Deze voorwaarden zijn omzeggens nooit
vervuld in de vele peilingen die wij voorgeschoteld krijgen.
Vaak worden verkeerde veronderstellingen gemaakt worden over de steekproef. Men
veronderstelt immers een steekproef met een gelijke kans op selectie van alle eenheden terwijl dit
helemaal niet het geval is (bijvoorbeeld met telefonische enquêtes of bij geclusterde steekproeven).
Daardoor zijn de standaardfouten en betrouwbaarheidsintervallen meestal groter dan wordt
voorgehouden. De algemene foutenmarge voor de totale steekproef wordt meegedeeld
(bijvoorbeeld 1.000 Belgen), maar de percentages worden dan apart berekend voor deelgroepen
waarvan de (geringe) omvang zelden wordt meegedeeld (bijvoorbeeld de kiezers van een kleine
Vlaamse partij). Wij zullen het verder niet hebben over het steekproefontwerp (zie: Billiet 1993a:
31-38) maar over de vertekening van de feitelijke steekproef als gevolg van de weigeringen. Dáár
ligt immers de grootste bron van foutieve gevolgtrekkingen.
Wie weigert mee te werken?
Stilzwijgend wordt door onderzoeksbureaus aangenomen dat de weigeringen binnen de klassen van
gekende kenmerken (sekse, leeftijd, woonomgeving) toevallig zijn en dat ze bijgevolg de resultaten
niet vertekenen. Dat is doorgaans niet het geval. De nonrespons hangt wel degelijk samen met
inhoudelijke kenmerken waarover uitspraken gedaan worden. Precies om die reden wekt het
opgeven van foutenmarges een valse indruk van betrouwbaarheid. Hoe ernstig is dit probleem en
hoe moet men daar mee omgaan om tot zinnige uitspraken over peilingen te komen?
Het percentage geselecteerde respondenten dat weigert om aan een interview deel te nemen,
heeft zorgwekkende afmetingen aangenomen (Carton, 1999: 121-123). In de verschillende ISPO
onderzoeken in Vlaanderen schommelt het aantal weigeringen rond 30%. Dit is te veel, maar in
vergelijking met andere onderzoeken in Vlaanderen waar in ‘face-to-face’ interviews het
percentage weigeringen regelmatig rond 50% ligt, valt dit nog mee. De kwaliteit van de respons
heeft natuurlijk te maken met de taakuitoefening van de interviewers, maar daarnaast zijn sommige
respondentkenmerken mee bepalend voor het weigeren. Verschillen degenen die meewerken van
degenen die weigeren wat hun kenmerken die samenhangen met de inhoudelijke onderwerpen van
peilingen aangaat? Dát is de hamvraag. Eigenlijk zou men er steeds moeten van uitgaan dat
respondenten systematisch verschillen van de weigeraars waardoor een systematische vertekening
optreedt.
Het is reeds lang geweten dat persoonskenmerken zoals genoten opleiding, sekse en leeftijd een
effect hebben op de kans tot medewerking. In de steekproeven van sommige onderzoeksbureaus is
28
bijvoorbeeld het percentage lager geschoolden dat bekomen zal worden voorspelbaar, met name
12%. In het recent ISPO onderzoek ligt dit rond 20%; maar we weten dat dit percentage in de
bevolking tussen 18 en 75 jaar minstens 25% bedraagt. In Nederland is dit ongeveer hetzelfde
(Visscher, 1997: 155-197). Alle algemene peilingen zijn gekenmerkt door een systematische fout
omdat de lagere sociale klassen fors ondervertegenwoordigd zijn. Men zou natuurlijk via zgn.
post-stratificeren10 het aandeel van lager geschoolden kunnen bijstellen, maar dat lost het probleem
niet op. De lager geschoolden die in de steekproeven aanwezig zijn, verschillen systematisch van
de afwezigen. De aanpassing via wegen geeft dus eigenlijk een valse indruk van meer correct te
zijn.
Wij weten ook dat responscijfers sterk verschillen naargelang van de woonomgeving. In
sommige gemeenten bedraagt de nonrespons amper 10%; elders is dat soms méér dan 50%. Het
recent onderzoek naar nonrespons besteedt veel aandacht aan de sociale context en sociale
omgeving van de ondervraagde (Couper & Groves, 1995; Groves & Couper, 1998). Men neemt
aan dat de sociale desorganisatie en het ontbreken van sociale cohesie in de gemeente een negatief
effect heeft op de participatie aan survey onderzoek. In omgevingen met een gebrekkige sociale
cohesie zouden meer geïsoleerde individuen voorkomen die niet bereid zijn om te investeren in
goederen waarin ze geen direct belang hebben. Zij die daarentegen wel ingebed zijn in sociale
netwerken, participeren in verenigingen, nemen deel aan het sociaal leven en vertonen een grotere
bereidheid om mee te werken. Het hoeft niet gezegd dat dit tot grote vertekeningen kan leiden in
de bevindingen.
De grote verschillen in response naargelang van de woonomgeving wijzen in die richting. Het
systematisch overschatten in peilingen van het stemmen voor Agalev wijst eveneens in die richting.
Maar er zijn sterkere indicaties. Dank zij de informatie over de weigeringen in panelonderzoek
hebben we een goed zicht op een aantal kenmerken van de weigeraars vanaf de tweede golf.
Voorbeeld 12: In het verkiezingsonderzoek van 1991 en 1995 is een schaal opgenomen die het
zogenaamde ‘utilitair individualisme’ meet. Respondenten die hoog scoren op deze schaal zijn
mensen die beweren dat geld en macht het enige is wat telt, dat solidariteit onzin is en dat iedereen
eerst voor zichzelf moet zorgen, dat men best niet te veel met anderen omgaat, en dat het streven naar
persoonlijk succes het belangrijkste is. We kunnen nagaan in hoever de respondenten die in 1991
hoog scoren op deze schaal een grotere kans hebben om hun medewerking te weigeren in 1995. Geert
Loosveldt heeft dit onderzocht. Bij degenen die in 1991 laag scoren op de individualisme-schaal (N =
604) weigert 16,6% mee te werken in 1995. Bij degenen die matig scoren neemt dit toe tot 24,8% (N
= 1.259). Bij degenen die hoog scoren op de individualisme-schaal stijgt het percentage weigeringen
tot 33,5%. Aangezien het individualisme samenhangt met onder meer het genoten onderwijs en
woonomgeving, twee factoren die eveneens de nonrespons beïnvloeden, werd via een logistisch
regressiemodel nagegaan of het individualisme een netto effect heeft op de kansverhouding
nonrespons/respons. Dit blijkt inderdaad het geval. Deze kansverhouding neemt toe met een factor
29
1.28 (d.i. met 28%) voor een stijging van één eenheid standaardafwijking op de individualismeschaal
(Loosveldt, 1999).
Individuen die sterk op zichzelf betrokken zijn zouden dus minder geneigd zijn om mee te werken
aan enquêtes.
Voorbeeld 12 (vervolg). Grondig onderzoek naar de individualisme items heeft aangetoond dat de
schaal ambigu is. Ze meet in de eerste plaats de aanvaardbaarheid van collectieve voorstellingen over
eigenbelang die in de samenleving aanwezig zijn. Ze meet niet noodzakelijk de eigen leefwijze van
de respondent. De items worden bovendien verschillend geïnterpreteerd door hoger en door lager
geschoolden (Waege, 1997: 339). Globaal kan men aannemen dat ze meet in hoever de
ondervraagden de samenleving en ‘anderen’ zien als een verzameling van mensen die allemaal op de
eerste plaats hun eigen belang nastreven (Waege, 1997). Volgens ons onderzoek is de
individualismeschaal een indicator voor maatschappelijke desintegratie. Dit blijkt uit de samenhang
met andere variabelen die dicht bij het anomieconcept van Srole (1956) aansluiten (wantrouwen in de
toekomst, wantrouwen in de politici, wantrouwen in anderen).
Dit kan er op wijzen dat een zeker wantrouwen tegenover anderen tot een hogere kans op
nonrespons leidt. Er zijn nog andere subjectieve kenmerken van respondenten van belang voor de
verklaring van de nonrespons.
Voorbeeld 13. In het panelonderzoek naar de politieke kennis van de Vlamingen stelde men vast dat
het percentage weigeringen in de tweede golf (1996) amper 7,6% bedroeg bij de respondenten die in
de eerste golf (1995) gekenmerkt waren door een hoge politieke kennis. Dit percentage steeg tot
12,8% bij respondenten met een matige kennis en het bedroeg 21,1% bij hen die een heel gebrekkige
politieke kennis bezaten (Cambré, Billiet en Swyngedouw, 1996: 15).
Naast de kennis omtrent het onderwerp speelt ook de interesse een rol bij de nonrespons. Dit blijkt
duidelijk uit de panelgegevens bij politieke peilingen.
Voorbeeld 14. In de tweede golf van het verkiezingsonderzoek werd vastgesteld dat het percentage
weigeringen steeg van 18,7% bij degenen met veel politieke interesse naar 28,7% bij de respondenten
met weinig politieke interesse. In dit onderzoek werd echter ook de “bekwaamheid” van de
ondervraagden gemeten aan de hand van het aantal “gebrekkige” antwoorden (geen antwoord, geen
mening, steeds de middencategorie kiezen, enz…). Belangstelling voor het onderwerp en de zgn.
bekwaamheid tot participatie aan survey onderzoek hangen sterk samen. Om die reden heeft de
belangstelling geen significant netto effect op de kansverhouding nonrespons/respons eens
gecontroleerd werd voor opleiding, sekse en bekwaamheid (Loosveldt, Carton & Pickery, 1998: 255-
257).
Een gevolg van de samenhang tussen politieke kennis, en belangstelling en vertrouwen in de
politiek heeft voor gevolg dat politieke panelsurveys doorheen de tijd al maar ‘beter’ worden. Op
de duur blijven alleen belangstellenden en positief ingestelde respondenten over. Indien de
conclusies uit panelonderzoeken geen rekening houden met dit verschijnsel dan worden de
30
gebruikers natuurlijk op een verkeerd been gezet. Voor een zittende regering kan het wel gunstig
zijn als peilingen aangeven dat het vertrouwen almaar toeneemt, degene die ernstig in
maatschappelijke trends geïnteresseerd is, komt daarentegen bedrogen uit.
Voorbeeld 15. In Nederland kregen twee grootschalige onderzoeken juist omwille van het negeren van
de impact van de nonrespons op de kwaliteit van de gegevens heel wat kritiek te verduren. De door
het Nationaal Kiezersonderzoek vastgestelde toename in politieke belangstelling bleek zeer sterk
samen te hangen met de toename in percentage weigeraars (van Goor, 1996: 166-170).
Dit alles houdt in dat men ook bijzonder omzichtig moet omgaan met resultaten van enquêtes die
worden georganiseerd door magazines en organisaties. Vaak blijkt de respons bij zulke
schriftelijke enquêtes 20% of minder te bedragen. Zelfs indien dit in absolute cijfers om veel
grotere aantallen gaat dan bij toevalssteekproeven zijn de resultaten meestal compleet
onbetrouwbaar omwille van de zelfselectie door belangstellende respondenten die er een
welbepaalde opinie op nahouden. Vaak is het zo dat naarmate de vertekening door nonrespons
groter is, de opdrachtgever ook meer tevreden zijn met de uitkomsten. Dat komt natuurlijk goed uit
voor de organisatoren van peilingen. Het is voor hen gunstiger om de vertekening te verzwijgen.
Dat is één van de grote verschillen met wetenschappelijke peilingen.
Hoe omgaan met de nonrespons?
Indien de uitval volledig toevallig zou zijn dan is er weinig aan de hand omdat de schattingen niet
vertekend zijn. Volledig toevallige uitval komt zelden voor. Indien de uitval systematisch zou zijn
met betrekking tot bekende kenmerken (bijvoorbeeld sekse, leeftijd, genoten opleiding en
woonomgeving) maar toevalling binnen de categorieën van die variabelen, dan kan men in principe
tot niet-vertekende schattingen komen via poststratificatie (Kalton & Kasprzyk, 1986). Maar we
hebben gezien dat ook deze hypothese niet steeds opgaat omdat er binnen de combinaties van
bekende kenmerken nog een systematische vertekening plaats heeft naargelang van subjectieve
kenmerken van respondenten, kenmerken die vaak verband houden met het onderwerp
(belangstelling, betrokkenheid). Vandaar de noodzaak om op een andere wijze met de nonrespons
om te gaan. Naast investeringen om de weigeringen zoveel mogelijk te beperken11 zou men
evenveel aandacht moeten besteden aan het verwerven van informatie over de weigeraars en aan de
analyse daarvan als men besteedt aan de verzameling en analyse van de substantiële gegevens. Er
is geen enkele zinvolle interpretatie van opiniepeilingen mogelijk tenzij er een interpretatie is op
basis van informatie over de nonrespons. Dit sluit terug aan bij de basisfilosofie van onze
benadering: fouten (in dit geval ontbrekende data) zijn gegevens die bij de inhoudelijke analyse of
bij de interpretatie van de resultaten moeten gebruikt worden.
Hier rijst natuurlijk een probleem. Hoe kan men iets leren uit iets waarover men geen
informatie heeft? Mits enige inventiviteit is het wel degelijk mogelijk om te leren uit de
31
nonrespons. Vooreerst kan gepoogd worden om bij het opstellen van het steekproefplan reeds
gebruik te maken van bekende gegevens. Dit kan bij steekproeven uit het bevolkingsregister
(sekse, leeftijd, woonomgeving) en zeker bij steekproeven in opdracht van organisaties of
tijdschriften (lezersprofielen, kenmerken van leden). Verder kan men aan de interviewsters vragen
om voor elk contact (weigering of medewerking) een zgn. contactblad in te vullen. Dit bevat dan
bijkomende informatie via een toegelaten vraag (“waarom wilt U niet meewerken?”), of een meting
via observeren (“Welk type van woning?”, “welk type van buurt?”…). Tenslotte kan men
onrechtstreeks via panelonderzoek een zicht krijgen op factoren die vermoedelijk ook bij nieuwe
steekproeven de nonrespons beïnvloeden. Vanaf de tweede golf heeft men bij panels immers een
pak inhoudelijke informatie over de respondenten die afhaken (zie hiervoor: Carton, 1999;
Loosveldt, Carton & Pickery, 1998). Deze informatie schept een context waarbinnen de
verzamelde gegevens kunnen geïnterpreteerd, en soms gecorrigeerd worden.
BESLUIT: "CIJFERS SPREKEN NIET VOOR ZICHZELF" De uitdrukking "cijfers spreken voor zichzelf" berust blijkbaar op een grof misverstand. De idee
dat survey-onderzoekers goedgelovigen zijn die de antwoorden op hun vragen zomaar voor 'waar'
aannemen, behoort nu hopelijk tot het verleden. Het naïef en onkritisch voorschotelen van cijfers
zonder enige controle of zonder enige informatie over vraagverwoording en respons is veeleer een
kenmerk van de mediaberichtgeving over opiniepeilingen.
Cijfers behoeven een zorgvuldige interpretatie en daarvoor is inzicht nodig in de sociologische
en psychologische aspecten van het onderzoeksproces dat de geregistreerde antwoorden doet
ontstaan. Reactiviteit, d.i. de omstandigheid dat de gebruikte methodes effect hebben op de
'metingen', is inherent aan onderzoek naar menselijke gedragingen en houdingen. Men kan in
principe elk individueel antwoord beschouwen als het resultaat van een kans op het 'ware'
antwoord, een kans op een systematische fout die hardnekkig in een of andere richting gaat, en een
kans op toevallige fouten die nu eens optreden in deze of gene richting, dan weer niet. Als onder-
zoekers zijn we natuurlijk niet geïnteresseerd in elk individueel antwoord maar in
frequentieverdelingen en samenhangen op niveau van de totale populatie of van deelgroepen in de
bevolking. Ook op dat niveau moet elke geobserveerde waarde (statistiek) beschouwd worden als
een combinatie van de drie vermelde effecten: (a) de onbekende werkelijke waarde die ons
uiteindelijk interesseert en die moet geschat worden; (b) systematisch effecten die doorgaans als
ongeldigheid worden aangeduid omdat ze meten wat de onderzoeker niet bedoelde te meten; (c)
toevallige fouten die de scherpte van de metingen vertroebelen, d.i. de onbetrouwbaarheid. Het zal
nu wel duidelijk zijn dat het realiseren van de perfecte geldigheid waarbij de onderzoeker de
32
eigenschappen observeert die hij wil waarnemen, en geen andere, een nobel en verwijderd
streefdoel is.
Toevallige fouten (onbetrouwbaarheid) stellen weinig problemen indien men beseft dat ze er
zijn want men kan hun omvang berekenen en correcties aanbrengen. Indien men echter geen
rekening houdt met toevalsfouten dan kunnen vergelijkingen over de tijd wel degelijk tot zeer
verstoorde conclusies over verandering leiden (zie: Billiet, 1995: 101-102).
We hebben het hier voornamelijk gehad over systematische fouten (of effecten). Die zijn
hoofdzakelijk afkomstig van factoren tijdens de dataverzameling. Sommige daarvan zijn te
boeiend en te rijk aan informatie om ze nog langer 'fouten' te noemen. Aangezien er een structuur
schuilt in die ‘fouten’, kan men ze leren kennen, ze vermijden of er rekening mee houden bij de
interpretatie van de gegevens. Vaak leren response effecten ons iets over gedragingen en
houdingen van mensen in sociale interacties, en daar gaat het toch om.
Voor de opiniepeilers mag dit verhaal eindigen. Voor wetenschappelijke onderzoekers in de
gedragswetenschappen begint het pas. De 'werkelijke' waarden of de 'ware' antwoorden zijn
immers geen objectieve en externe feiten buiten de geest van de onderzoeker. Het zijn
verwijzingen, tekens of indicatoren die de theoretisch verantwoorde concepten en theorieën in zijn
hoofd moeten verbinden met de objectieve werkelijkheid buiten hem. Daarom is geldigheid
aantonen niet alleen een kwestie van technische operaties en procedures maar evenzeer van de
creatieve en systematische ‘geest’. Sommigen kunnen dit een reden vinden om
gedragswetenschappen te wantrouwen, voor ons is dit haar grootste troef. Dit betekent dan wel dat
cijfers tekens zijn die moeten geïnterpreteerd worden binnen een door de onderzoeker
geconstrueerde ‘context van de data’ waarin zowel informatie uit andere bronnen
(maatschappelijke feiten, historische kennis), als substantiële theorieën en theorieën over het
onderzoeksproces (in het bijzonder het vraag- en antwoordproces) deel van uitmaken (zie hiervoor:
Billiet 1993a).
33
LITERATUUR Alwin, Duane, F. (1992), “Information transmission in the survey interview: number of response categories
and the reliability of attitude measurement”, Pp. 82-118 in: Marsden, Peter, V. (Ed.), Sociological Methodology 1992. Vol. 22. San Francisco: Jossey Bass.
Alwin, D. F. & Scott, J. (1996), “Attitude change: its measurement and interpretation using longitudinal surveys”. Pp. 75-106 in: Bridget Taylor & Katarina Thomson (Eds.), Understanding Change in Social Attitudes. Aldershot: Dartmouth Pub. Co.
Anderson, J. R. & Bower, G.H. (1973), Human associative memory. Washington, DC: Winston & Sons.
Billiet, J. (1993a), Ondanks beperkt zicht. Studies over waarden, ontzuiling en politieke veranderingen in Vlaanderen. Brussel/Leuven: VUB Press/SOI.
Billiet, J. (1993b), “Stabiliteit en verandering in de attitude tegenover vreemdelingen”. Pp 147-162 in: M. Swyngedouw, J. Billiet, A. Carton & R. Beerten (red.), Kiezen is verliezen. Onderzoek naar de politieke opvattingen van de Vlamingen. Leuven: Acco.
Billiet, J. (1995), Methoden van sociaal-wetenschappelijk onderzoek: ontwerp en dataverzameling. Leuven: Acco (zesde druk).
Billiet, J., Loosveldt, G. & Waterplas L. (1984), Het survey-interview onderzocht. Effecten van het ontwerp en gebruik van vragenlijsten op de kwaliteit van de antwoorden. Leuven: SOI.
Billiet, J., Loosveldt, G. & Waterplas, L. (1988), Response-effecten bij survey-vragen in het Nederlands taalgebied. Leuven: SOI (rapport 1988/6).
Billiet, J., Waterplas, L. &. Loosveldt, G. (1992), “Context Effects as Substantive Data in Social Surveys”. Pp. 131-147 in: Schwarz, N. & Sudman, S. (Eds.), Context Effects in Social and Psychological Research. New York: Springer.
Billiet, J. & McClendon, J. McKee (1998), “On the identification of acquiescence in balanced sets of items using a structural equation approach”. Pp. 129-150 in: Ferligoj, A. (Ed.), Advances in Methodology, Data Analysis, and Statistics. Ljubljana: FDV.
Billiet, J. Cambré, B. & Welkenhuysen-Gijbels, J. (1999), Equivalence of measurement instruments for attitude variables in comparative surveys, taking method effects into account: the case of ethnocentrism. Paper presented at the International Conference on Large Scale Data Analysis, Cologne, 26-29 May 1999, 20 pp.
Cambré, B., Billiet, J. & Swyngdouw, M. (1996), De kennis van de Vlaminen en hun houding tegenover de Vlaamse Overheid. Resultaten van de effectpeiling. Onderzoeksrapport, Leuven/ISPO.
Campbell, D.T. & Fiske, D.W. (1959), Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56: 81-105
Carton, A. (1999), Selectie, training en evaluatie van interviewers binnen een interviewernetwerk. Leuven: Garant.
Champagne, P. (1990), Faire l’opinion. Le nouveau jeu politique. Paris: Les Éditions de minuit.
Converse, Ph. (1964), “The nature of belief systems in mass publics”. Pp. 206-261 in: Apter, D. (ed.), Ideology and Discontent. New York: The Free Press.
Couper, M. & Groves, R. (1996), “Social environmental impacts on survey co-operation”, Quality & Quantity, 30: 173-188.
Curtise, John (1996), “Why methodology matters”. Pp. 131-149 in: Bridget Taylor & Katarina Thomson (Eds.), Understanding Change in Social Attitudes. Aldershot: Dartmouth Pub. Co.
De Poot, C.J. (1996), De sturende werking van het werkwoord in de vraag. Academisch proefschrift. VU Amsterdam.
34
De Wit, H. & Billiet, J. (1995) The MTMM design: back to the Founding Fathers. Pp. 39-59 in: Saris, W. & Akos, M. (Eds.) The Multitrait-Multimethod Approach to Evaluate Measurement Instruments. Budapest: Eötvös University Press.
Dillman, D. (1978), Mail and Telephone Surveys. The Total Design Method. New York: Wiley.
Evans, G. & A. Heath (1995), “The measurement of left-right and libertarian-authoritarian values: a comparison of balanced and unbalanced scales”. Quality and Quantity, 29, pp. 191-206.
Graesser, J.M. & Murachver, T. (1985) Symbolic Procedures of Question Answering, in: Graesser, A.C. & Black, J.B. (eds.) (1985) The Psychology of Questions. Hillsdale: Erlbaum, 15-87.
Grewendorf, G. (1983) What Answers can be given?, in Kiefer, F. (ed.) Questions and Answers. Dordrecht, Reidel, 45-84.
Grice, H.P. (1975) Logic of conversation. Pp. 41-58 in: Cole, P. & Morgan, J.L. (eds.) Syntax and Semantics 3/Speech Acts. New York: Academic Press.
Groves, R. M. (1989) Survey Errors and Survey Costs. New York: John Wiley & Sons.
Groves, R. & Couper, M. (1998), Nonresponse in Household Surveys. New York: John Wiley & Sons.
Huckfeldt, R. & Sprague, J. (1995), Citizens, Politics, and Social Communication. Information and Influence in an Election Campaign. New York: Cambridge University Press.
Kalton, G. & Kasprzyk, D. (1986), “The Treatment of Missing Survey Data”, Survey Methodology, 12: 1 -16.
Jöreskog, K. G. (1990), “New developments in LISREL Analysis of ordinal variables using polychoric correlations and weighted least squares”. Quality and Quality, 24: 387-404..
Krosnick, J.A. (1988), “Attitude importance and attitude change”. Journal of Experimental Social Psychology, 24: 205-255.
Krosnick, J.A. & Robert P. Abelson (1992), “ The Case for Measuring Attitude Strength in Surveys”, Pp. 177-203 in: Judith, M. Tanur (ed.), Questions about Questions. Inquiries into the Cognitive Bases of Surveys. New York: Russell Sage Foundation.
Lazarsfeld, P. F., Berelson, B. & Gaudet, H. (1944), The people’s choice. How the Voter Makes Up His Mind in a Presidential Campaign. New York: Duell.
Loosveldt, G. (1999), Utilitarian individualism and panel non-response. Onderzoeksnota. Centrum voor Dataverzameling en Analyse. Departement Sociologie, K.U Leuven.
Loosveldt, G., Carton, A. & Pickery, J. (1998), “The Effect of Interviewer and Respondent Characteristics on Refusals in a Panel Survey”. Pp. 249-261 in: Koch, A. & Porst, R. (Eds.), Nonresponse in Survey Research. ZUMA Nachrichten Spezial, August 1998.
Molenaar, N. (1986), Formuleringseffecten in survey-interviews. Amsterdam, VU uitgeverij.
Moser, C.A. (1958), Survey Methods in Social Investigation. Melbourne: William Heinemann LTD.
Prislin, R. (1996), “Attitude stability and attitude strength: one is enough to make it stable”, European Journal of Social Psychology, 26: 447-477.
Saris, W.E. (1995) “Designs and models for quality assessment of survey measures”. Pp. 9 -37 in: W.E. Saris & A. Munnich (eds.), The Multitrait-Multimethod Approach to evaluate Measurement Instruments. Budapest: Eötvös University Press.
Scherpenzeel, A. & W. Saris (1997), “The Validity and Reliability of Survey Questions”. Sociological Methods and Research, 25 (3): 341-383.
Schuman, H. & Presser, S. (1981), Questions and Answers in Attitude Surveys: Experiments on Question From, Wording and Context. New York: Academic Press.
Schwarz, N., Strack, F., Müller, G. & Chassein, B. (1988), “The range of response alternatives may determine the meaning of the questions. Further evidence on informative functions of response alternatives”. Social Cognition, 6 (2): 107-117.
35
Schwarz, N. & Sudman, S. (1992) (Eds.), Context Effects in Social and Psychological Research. New York: Springer.
Schwarz, N. & Sudman, S. (1996) (Eds.), Answering Questions. Methodology for Determining Cognitive and Communicative Processes in Survey Research. San Francisco: Jossey-Bass Publishers.
Srole, L. (1956), “Social integration and certain corollaries: An exploratory study”. American Sociological Review, 21: 709-716.
Strack, F. & Martin, L. (1987) Thinking, Judging and Communicating: A Process Account of Context Effects in Attitude Surveys, in: Hippler, J.J., Schwarz, N. & Sudman, S; (eds.) Social Information Processing and Survey Methodology. New York: Springer Verlag, 123-148.
Strack, F., Martin, L; & N. Schwarz (1987), “The context paradox in attitude surveys: assimilation or contrast?”, ZUMA-Arbeitsbericht, nr. 87/07.
Sudman, S., Bradburn, N.M. & Schwarz, N. (1996), Thinking about Answers. The Application of Cognitive Processes to Survey Methodology. San Francisco: Jossey-Bass Publishers.
Tourangeau, R. & Rasinski, K.A. (1988), “Cognitive processes underlying context effects in attitude measurement”, Psychological Bulletin, 103: 299-314.
Tourangeau, R., Rasinski, K.A., Bradburn, N. & D’Andrade, R. (1989), “Carryover effects in attitude surveys”, Public Opinion Quarterly, 27: 48-75.
Tourangeau, R. (1992), “Context Effects on Responses to Attitude Questions: Attitudes as Memory Structures”. Pp. 35-48 in: Schwarz, N. & Sudman, S. (Eds.), Context Effects in Social and Psychological Research. New York: Springer.
Smith, Tom, W. (1988), “Nonattitudes: A Review and Evaluation. Pp. 215-255 in: Charles, F. Turner & Elizabeth Martin (Eds.), Surveying Subjective Phenomena. Vol. 2. New York: Russell Sage Foundation.
Swyngedouw, M. (1989), De keuze van de kiezer. Naar een verbetering van schattingen van verschuivingen en partijvoorkeur bij opeenvolgende verkiezingen en peilingen. Leuven/Rotterdam: SOI/BMG.
Swyngedouw, M., Beerten, R. & Billiet, J. (1997), Les motivations électorales en Flandre 21 mai 1995. Courrier Hebdomadaire, nr. 1557. CRISP.
Van Goor, H. (1996), “Het lijk uit de kast. Nonrespons in het Nationaal Kiezersonderzoek”, Sociologische Gids, 43: 166-170.
VRIND (1998). Vlaamse regionale indicatoren. Ministerie van de Vlaamse Gemeenschap. Administratie Planning en Statistiek.
Visscher, G. (1997), “De blinde vlek van het CBS: systematische vertekening in het opleidingsniveau. De nonrespons in de Enquête Beroepsbevolking”, Sociologische Gids, 44: 155-179.
Zaller, J. R. (1992), The nature and origins of mass opinion. Cambridge: Cambridge University Press.
Waege, H. (1997), Vertogen over de relatie tussen individu en gemeenschap. Ontwikkeling en validering van meetinstrumenten in het kader van survey-onderzoek. Leuven: Acco.
36
1 Het is hier niet de plaats om uitvoerig de regels voor het gebruik van de “geen mening” filter te
behandelen. De regels houden verband met wat men wil meten met de vragen in het kader van een onderzoek en dit kan niet binnen het bestek van deze les kan behandeld worden (zie o.m. J. Billiet e.a. 1988: 104-105).
2 Een ‘drop off’ vragenlijst is een schriftelijke vragenlijst die tijdens het mondelinge interview wordt achtergelaten met de vraag om deze na een week en binnen de veertien dagen in te vullen en op te sturen. Door het toepassen van de ‘Total Design Methode’ (Dillman, 1978) bedraagt de response rond 85%. De TDM-methode is kort beschreven in Billiet (1995: 227-230).
3 Dit is ook het geval voor de test-retest correlatie tussen de latente variabele ‘politieke aliënatie’ bij de hoger geschoolden. Deze correlatie bedraagt 0,76 daar waar de gemiddelde test-retest correlatie tussen de (geobserveerde) scores op de acht particuliere items bij de hoger geschoolden slechts 0,42 bedraagt. In dit voorbeeld waren er ongeveer 12 maanden tussen de eerste en de tweede meting.
4 Ook bij de andere uitspraken die twee keer werden voorgelegd, is er een tendens dat in de schriftelijke vragenlijst wat vaker het neutrale midden wordt gekozen, en dat dit dan vooral ten koste is van de helemaal oneens en oneens categorieën, maar dit is niet systematisch over de hele lijn het geval. Het is bijgevolg niet helemaal duidelijk wat hier gaande is.
5 Binnenkort verschijnt hierover een excellent werk van H. Kriesi met als titel “Opinion formation and change” (Cambridge University Press).
6 Recent wordt ook in experimenten aandacht besteed aan linguistieke kenmerken van vragen (De Poot, 1996).
7 16,5% van de ondervraagden beweert dat ze vóór de crisis voor de SP zouden gestemd hebben, tegenover 12,9% er na.
8 We zullen daar een beter zicht op hebben na de analyse van de 7.000 antwoorden op de vraag van de exit poll: “waarom hebt U voor die partij gestemd”?
9 Het model werd getest met behulp van LISREL_8® met een methode die geschikt is voor ordinale data (Jöreskog, 1990). De passingsmaten van het model zijn de volgende: Chi-square = 55,07; df = 32; p = 0,007; RMSEA = 0,027; p-value for test of close fit = 1.0.
10 Poststratificatie is het via weegfactoren aanpassen van de geobserveerde gezamenlijke verdeling over enkele kenmerken in de steekproef aanpassen aan de bekende gezamenlijke verdeling van deze kenmerken in de populatie. Er bestaat in de populatie een bekende gezamenlijke verdeling van sekse naar leeftijd. Via iteratief proportioneel fitten en gebruik makend van informatie in de steekproef is het soms mogelijk om daar zelfs nog een derde variabele bij te betrekken waarvan men in de populatie alleen de marginale verdeling kent, bijvoorbeeld het stemgedrag (zie: Billiet, 1993: 98-104; Swyngedouw, 1989: 131-133) of het genoten onderwijs. Dat laatste is echter bijzonder onbetrouwbaar in de bevolkingsstatistieken.
11 Voor schriftelijke enquêtes verwijzen we naar de ‘Total Design Method’ van Dillman (zie: Billiet, 1995: 227-230).