de publieke opinie ondervraagd:-over de zin en onzin van opiniepeilingen

36
1 DE PUBLIEKE OPINIE ONDERVRAAGD: OVER DE ZIN EN ONZIN VAN OPINIEPEILINGEN JAAK BILLIET INLEIDING Net vóór Kerstmis van 1997 werd dagbladlezend en radioluisterend België verrast door de mededeling dat opinie-onderzoek in opdracht van de Europese Commissie aantoonde dat België van alle landen van de Europese Unie het grootst aantal racisten telde. Volgens de Eurobarometer van 1997 over xenofobie zou niet minder dan 55% van de ondervraagde Belgen zichzelf als racist bestempelen. Na jarenlang onderzoek naar de verspreiding en de verklaring van etnocentrisme in België was mijn reactie er een van ongeloof: er moest één en ander mis zijn met die peiling of met de berichtgeving daarover. Na kennisname van het rapport en de gebruikte vragenlijst werd mijn spontaan oordeel bevestigd. In de fasen die een opiniepeiling doormaakt, waren beslissingen genomen die tot een geruchtmakend ‘beeld’ over de Belgische burgers moesten leiden. Laten we die beslissingen even overlopen; ze geven een goed overzicht van de materie die wij zullen behandelen. Bij het bekijken van de verwoording van de nieuwsmakende vraag valt onmiddellijk op dat niemand zichzelf rechtstreeks een racist heeft genoemd. De vraag bestaat immers uit drie delen. (1) Ze begint met een typische introductie om het bedreigend karakter van de vraag weg te nemen: “sommigen voelen zich hoegenaamd niet en anderen voelen zich uitgesproken wel racistisch”. (2) Vervolgens wordt aan de ondervraagden een antwoordschaal voorgesteld die varieert van 1 met als betekenis “hoegenaamd niet racistisch”, tot 10 met als betekenis “uitgesproken wel racistisch”. (3) Dan wordt aan de ondervraagden gevraagd om zichzelf op deze schaal te plaatsen overeenkomstig hun eigen gevoel. Degenen die geen opinie hebben kunnen die aangeven door de score 11 aan te duiden. Tot zover de vraagverwoording. Het is niet onbelangrijk om te vermelden dat de respondenten antwoorden door het meedelen van cijfers die zich tussen twee gelabelde extremen bevinden. Het zijn de onderzoekers zelf die vervolgens deze cijfers interpreteren en verwerken. Alleen degenen die een 1 opgeven worden “niet racistisch” genoemd. De ondervraagden die gekozen hebben voor de scores 4 tot 6 worden “tamelijk racistisch” genoemd (33%) Zij die de scores 7 tot 10 hebben aangewezen, krijgen het label “zeer racistisch” (22%). Hoeveel ondervraagden geen mening hadden, wordt niet vermeld, en dezen worden ook niet meegerekend bij de berekening van de percentages met substantiële antwoorden waardoor deze iets hoger uitvallen. Deze arbitraire

Upload: independent

Post on 15-Nov-2023

0 views

Category:

Documents


0 download

TRANSCRIPT

1

DE PUBLIEKE OPINIE ONDERVRAAGD: OVER DE ZIN EN ONZIN VAN

OPINIEPEILINGEN

JAAK BILLIET

INLEIDING

Net vóór Kerstmis van 1997 werd dagbladlezend en radioluisterend België verrast door de

mededeling dat opinie-onderzoek in opdracht van de Europese Commissie aantoonde dat België

van alle landen van de Europese Unie het grootst aantal racisten telde. Volgens de Eurobarometer

van 1997 over xenofobie zou niet minder dan 55% van de ondervraagde Belgen zichzelf als racist

bestempelen. Na jarenlang onderzoek naar de verspreiding en de verklaring van etnocentrisme in

België was mijn reactie er een van ongeloof: er moest één en ander mis zijn met die peiling of met

de berichtgeving daarover. Na kennisname van het rapport en de gebruikte vragenlijst werd mijn

spontaan oordeel bevestigd. In de fasen die een opiniepeiling doormaakt, waren beslissingen

genomen die tot een geruchtmakend ‘beeld’ over de Belgische burgers moesten leiden. Laten we

die beslissingen even overlopen; ze geven een goed overzicht van de materie die wij zullen

behandelen.

Bij het bekijken van de verwoording van de nieuwsmakende vraag valt onmiddellijk op dat

niemand zichzelf rechtstreeks een racist heeft genoemd. De vraag bestaat immers uit drie delen.

(1) Ze begint met een typische introductie om het bedreigend karakter van de vraag weg te nemen:

“sommigen voelen zich hoegenaamd niet en anderen voelen zich uitgesproken wel racistisch”. (2)

Vervolgens wordt aan de ondervraagden een antwoordschaal voorgesteld die varieert van 1 met als

betekenis “hoegenaamd niet racistisch”, tot 10 met als betekenis “uitgesproken wel racistisch”. (3)

Dan wordt aan de ondervraagden gevraagd om zichzelf op deze schaal te plaatsen overeenkomstig

hun eigen gevoel. Degenen die geen opinie hebben kunnen die aangeven door de score 11 aan te

duiden. Tot zover de vraagverwoording. Het is niet onbelangrijk om te vermelden dat de

respondenten antwoorden door het meedelen van cijfers die zich tussen twee gelabelde extremen

bevinden.

Het zijn de onderzoekers zelf die vervolgens deze cijfers interpreteren en verwerken. Alleen

degenen die een 1 opgeven worden “niet racistisch” genoemd. De ondervraagden die gekozen

hebben voor de scores 4 tot 6 worden “tamelijk racistisch” genoemd (33%) Zij die de scores 7 tot

10 hebben aangewezen, krijgen het label “zeer racistisch” (22%). Hoeveel ondervraagden geen

mening hadden, wordt niet vermeld, en dezen worden ook niet meegerekend bij de berekening van

de percentages met substantiële antwoorden waardoor deze iets hoger uitvallen. Deze arbitraire

2

beslissingen van de onderzoekers resulteren uiteindelijk in een cijfer van 55%: “meer dan de helft

noemt zich racistisch!”. Dit is een gedroomd geschenk voor de media die zulke cijfers maar al te

graag zonder enige kritische reflectie publiceren. Dit gebeurde in Knack zelfs nog veertien dagen

nadat we in ‘De Standaard’ (21 en 24 december 1997) een dergelijke uitspraak beargumenteerd als

onzin hadden bestempeld. Met een enigszins andere berekening kon daar een cijfer van 20% of

30% of wat dan ook gestaan hebben. Ernstige journalistiek moet toch in staat moet zijn om

berichten over dergelijke nonsens kritisch te duiden, ook al komen deze uit een officieel rapport.

De verwoording van de vraag en de interpretatie van de antwoordverdeling zijn niet de enige

aspecten die een kritische houding verantwoorden. De context van de vraag is eveneens van

belang voor de wijze waarop de ondervraagden de term ‘racistisch’ opvatten. De bewuste vraag

over het racisme staat helemaal achteraan in de vragenlijst. Ze wordt dus voorgelegd nadat op alle

mogelijke wijzen al de aandacht op facetten van ‘alledaags racisme’ werd getrokken, wat men daar

ook mag onder verstaan. Zo werd bijvoorbeeld gevraagd of men z’n kinderen graag wil zien

huwen met partners van een etnische minderheid. Bijna iedereen zal wel op grond van zijn of haar

antwoorden op de vorige vragen op de eigen vrees voor ‘vreemdelingen’ attent gemaakt zijn.

Tenslotte toont een verdere analyse van de Belgische gegevens sporen van ernstige gebreken

aan de steekproef of bij de interviewers. Het is echter niet zeker of dit tot minder of tot méér

‘racisten’ zou leiden, maar daar gaat het natuurlijk niet om. Het is veeleer de vraag of zulke

uitspraken over de gefabriceerde antwoordverdeling op een delicate vraag wel zinvol zijn? Het

gevolg van dit bericht was alvast dat in een aantal middens van etnische minderheden het

wantrouwen tegenover de Belgen nog toenam. Over zulke morele argumenten zal ik het echter

verder niet hebben.

Sommigen zullen op mijn opmerkingen antwoorden dat de enquête op dezelfde wijze en met

dezelfde vragenlijst in alle landen van de Europese Unie is uitgevoerd. Ze zullen er op wijzen dat

België helemaal op kop staat van het racisme, nog voor Duitsland , Frankrijk, Oostenrijk en Italië.

Dit is correct, tenminste als de premisse opgaat dat de fouten in alle landen ongeveer dezelfde zijn

zodat deze bij vergelijking uitgevlakt worden, en de verschillen werkelijke verschillen zijn. Maar

dat is natuurlijk niet zo. Opinie-onderzoek wordt niet op dezelfde wijze uitgevoerd in de

verschillende landen. Er zijn verschillen in steekproeftrekking, wijze van bevragen, enz… Het

argument gaat er ook van uit dat verschil in taal en betekenis van de woorden geen rol zou spelen,

en belangrijker nog, dat de tendenties om op sociaal bedreigende vragen te antwoorden in alle

culturen van de Europese unie dezelfde zou zijn. Dit zijn voorwaarden die niet zomaar kunnen

aangenomen worden.

Dit voorbeeld van de ondertussen veelbesproken Eurobarometer heeft ons een eerste kijk

gegeven op een aantal van de valstrikken in opiniepeilingen. Deze worden nu verder uitgewerkt.

Na een korte verduidelijking van de termen ‘publieke opinie’ en ‘opinieonderzoek’ gaan we in op

veel voorkomende bronnen van foutieve interpretaties van resultaten van opiniepeilingen. We

3

zullen het hebben over de vraag in hoever opinies bestaan, hoe men kan weten of opinies

veranderen, welke de invloed is van relatief kleine wijzigingen in de verwoording en de context

van de vragen, welk het effect is van de zgn. non response, en hoe men met dit alles kan omgaan.

In het besluit wordt mijn grondhouding tegenover opinieonderzoek samenvattend verduidelijkt aan

de hand van het concept ‘context van de data’. Een belangrijk aspect zal hier niet behandeld

worden, met name de rol van de interviewer. Hiervoor verwijs ik naar het recente doctoraat van

Ann Carton (1999) waarin dit uitvoerig aan bod komt.

1. DE PUBLIEKE OPINIE VAN DE PEILINGEN

Opiniepeilingen trachten een zicht te krijgen op de toestand van, en veranderingen in de publieke

opinie. Wat moet men daaronder verstaan? Het concept “publieke opinie” heeft twee betekenissen

die vaak met elkaar verward worden. Op de eerste plaats is de publieke opinie een product dat

oprijst uit het debat in de publieke arena. Dit is een collectieve entiteit in het communicatiesysteem

van de publieke ruimte. De toegang tot dit communicatiesysteem is beperkt en de deelnemers

behoren tot de politieke en andere elites uit bijvoorbeeld de sociale bewegingen of de wereld van

de media. De publieke opinie als resultaat van het publiek debat kan beschouwd worden als de

‘dominante opinie’ waarover overeenstemming verondersteld wordt zolang deze niet wordt

uitgedaagd door nieuwe deelnemers aan het debat. In de tweede betekenis verwijst “publieke

opinie” naar de opinie van de toehoorders van het publiek debat, met name naar de opinie van de

bevolking zoals deze wordt gemeten in opiniepeilingen. In deze tweede betekenis is de publieke

opinie eveneens een collectieve entiteit, maar dan als het resultaat van het aggregeren van opinies

van individuen. De “publieke opinie” is dan de opinie van de veronderstelde meerderheid

(Champagne, 1990: 200).

Deze twee opinies hoeven niet noodzakelijk overeen te stemmen. De deelnemers aan het

publieke debat kunnen enerzijds de opinie van de meerderheid negeren, omdat zij die bijvoorbeeld

niet kennen of er geen rekening willen mee houden, en anderzijds bereiken de uitkomsten van het

publiek debat de toehoorders slechts via talrijke filters. Welke opinies kans hebben om aan te

slaan, hangt in belangrijke mate af van welke elites toegang tot de media hebben. Maar het publiek

van de media bestaat niet uit passieve ontvangers. Zoals Lazarsfeld e.a. (1944) reeds suggereerden

in hun concept van de “two-step flow of communications” worden de mediaboodschappen

bediscussieerd en geïnterpreteerd in sociale netwerken waarin opinieleiders een belangrijke rol

spelen. Meer recent hebben andere onderzoekers aangetoond hoe de sociale interacties in een

specifieke locale context vorm geven aan de voorraad van politieke informatie van individuen

(Huckfeldt & Sprague, 1995).

Ook Champagne wijst er in zijn kritische analyse in “Faire L’opinion. Le nouveau jeu

politique” (1990) op dat de twee “publieke opinies” niet naast elkaar bestaan als twee gescheiden

4

entiteiten. De resultaten van de opiniepeilingen worden als strategisch wapen gebruikt door

politieke elites, commentatoren en drukkingsgroepen. De constructie van de “publieke opinie” is

een symbolisch wapen in het politieke spel, en de peilingen zijn daarin een cruciaal en reflexief

onderdeel. Peilingen verschaffen beelden van de publieke opinie die op hun beurt de individuele

opinies kunnen vormen. Met behulp van de resultaten van peilingen over de “publieke opinie”

scheppen de media een symbolische werkelijkheid die als referentiekader kan dienen voor het

handelen (Billiet, 1993a: 9).

Hiermee heb ik alvast een argument gegeven voor de zin van deze les. Enig inzicht in de

mogelijke valstrikken van opiniepeilingen kan de burgers wapenen tegen de misleiding die kan

uitgaan van beelden over de “publieke opinie” die de media aan de hand van peilingen verspreiden.

2. OVER ONBESTAANDE (?) OPINIES

Opiniepeilers veronderstellen dat de ondervraagden een opinie hebben over de onderwerpen die

hen worden voorgelegd en dat ze die opinie ook kunnen verwoorden als antwoord op een vraag.

Het enige wat de interviewster moet doen is aan de respondent duidelijk maken wat zij wenst te

weten, en zich er van overtuigen dat zij het antwoord van de respondent begrijpt. Het is natuurlijk

mogelijk dat de respondent het correct antwoord niet wil geven, maar hij weet in elk geval wel voor

zichzelf het juiste antwoord. Zo eenvoudig is dit echter niet. Opinies zijn immers geen objecten

die de ondervraagden al of niet feitelijk bezitten, en waarvan zij weten of zij die bezitten. Neem

bijvoorbeeld de opinie over de doodstraf voor zeer zware misdaden. De houding van de respondent

tegenover de doodstraf kan latent zijn. Het is zelfs mogelijk dat hij daar nog nooit heeft over

nagedacht tot op het moment dat de vraag wordt gesteld. De respondent zal dus moeten nadenken

en nagaan welke zijn opinie is. Indien hij zich niets kan ‘herinneren’ zal hij zich op basis van

overwegingen een opinie moeten vormen en het is onzeker wat voor die respondent het correcte

antwoord is (Moser, 1958: 220-221). Het antwoord op een opinievraag kan dus zowel afkomstig

zijn van iemand die reeds veel over het onderwerp heeft nagedacht, als van iemand die voorafgaand

aan de vraag niet eens een opinie had. Op zicht lijken bestaande en onbestaande opinies even echt.

Iemands opinie over vrijwel elk mogelijk onderwerp is veelzijdig. Zo zijn er m.b.t. de doodstraf

morele, medische, wettelijke en ideologische aspecten. Iemand kan tegen de doodstraf zijn op

morele gronden, maar niet op wettelijke basis. Het is dus mogelijk dat het ene correcte antwoord

voor de ondervraagde niet bestaat. Hij of zij kan over een onderwerp meerdere opinies hebben. De

meegedeelde opinie hangt af van de overwegingen die op het moment van de bevraging het meest

levendig in het hoofd van de ondervraagde aanwezig zijn. De levendigheid wordt bepaald door de

context van vorige vragen en antwoorden, en door externe factoren zoals de aandacht voor het

onderwerp in de media. Evenals de hypothese van onbestaande opinies kan de hypothese van de

arbitraire keuze uit meerdere opinies verklaren waarom de antwoorden op opinievragen zo gevoelig

5

zijn voor de context en voor kleine wijzigingen in de verwoording, of waarom de antwoorden op

opinievragen zeer onstabiel zijn. Deze gevoeligheid maakt uitspraken over veranderingen in de tijd

en over verschillen tussen bevolkingen bijzonder problematisch.

Het vraagstuk van onbestaande opinies wordt aangekaart door twee soorten

onderzoeksbevindingen, enerzijds de zgn. ‘split ballot’ experimenten waarin het effect van de

(quasi) geen mening filter werd onderzocht, en anderzijds het onderzoek naar de stabiliteit van de

antwoorden in kortlopende panelonderzoeken. In het eerste geval, de ‘split ballot’ wordt eenzelfde

vraag in licht gewijzigde vorm aan twee (of) meer vergelijkbare steekproeven voorgelegd; in het

tweede geval worden dezelfde respondenten nogmaals benaderd met dezelfde vragen.

Experimenten met gesplitste steekproeven

Indien in de vraagtekst de antwoordmogelijkheid “geen mening” uitdrukkelijk aan de respondent

wordt aangeboden dan wordt, vergeleken met vragen waarin deze mogelijkheid ontbreekt,

gemiddeld door 20 procentpunten méér respondenten geantwoord dat ze geen mening hebben

(Schuman & Presser, 1981: 116-125; Billiet, Loosveldt & Waterplas, 1984: 161-169).

Voorbeeld 1. Laten we het gebruik van de quasi filter illustreren met een vraag die wij in 1987

voorlegden aan twee zeer vergelijkbare toevallige steekproeven uit de populatie van gehuwde

vrouwen tussen 21 en 55 jaar in de Gentse agglomeratie (Billiet, Loosveldt & Waterplas, 1988). De

exacte verwoordingen van de vragen en de antwoordverdelingen zijn opgenomen in Tabel 1. Het

effect van het expliciet aanbieden van de mogelijkheid om “geen mening” te hebben is hier bijzonder

groot (ruim 27 procentpunten verschil) als men bedenkt dat het om een thema gaat dat de

ondervraagden (gehuwde vrouwen) aanbelangt. Had in 1987 in de populatie van gehuwde vrouwen

rond Gent zo’n groot aantal vrouwen werkelijk geen opinie over dit onderwerp?

Tabel 1. Antwoordverdelingen in twee vergelijkbare steekproeven naargelang de vraag werd gesteld zonder of met een “geen mening” filter.

Steekproef A. filter Steekproef B: geen filter

“In de schoot van de huidige regering is er een Staatssecretariaat voor vrouwenemancipatie. Vindt U dat daardoor de situatie van de vrouw in de maatschappij kan verbeteren, vindt U van niet of hebt U daar geen mening over?”

“In de schoot van de huidige regereing is er een Staatssecretariaat voor vrouwenemancipatie. Vindt U dat daardoor de situatie van de vrouw in de maatschappij kan verbeteren of vindt U van niet?”

Verbeteren

Niet verbeteren

Geen mening

54,7

16,2

29,1

72,3

26,2

1,6

Verbeteren

Niet verbeteren

Geen mening (spontaan)

Samen (N) 100,0 (179) 100,0 (191)

χ² = 55,7; df = 2; p = 0,00

6

Waarom geven ondervraagden dan toch een opinie als de filter niet wordt aangeboden? Schuman

en Presser (1981: 298-299) gewagen van een ‘question constraint’. Respondenten hebben de

neiging om binnen het aangeboden kader van de vraag te antwoorden, ook al komt dat niet overeen

met hun toestand. Aangezien de vraagvorm suggereert dat zij een opinie moeten kiezen, doen zij

dat. Maar dit is niet het ganse verhaal. Het is helemaal niet zeker dat allen die in de vraagvorm

met de “geen mening” optie beweren geen opinie te hebben, ook werkelijk geen opinie hebben.

Sommige respondenten laten zich door interviewers niet graag in hun kaarten kijken, en de uitweg

“geen opinie” is dan een elegante weg om te ontsnappen. Met “geen mening” antwoorden vergt

minder inspanning dan zich een opinie vormen.

Om die reden is het niet aangewezen om kwistig met de “geen mening” filter om te springen bij

het ontwerpen van vragenlijsten.1 Er is nog een ander argument daarvoor. Onderzoek naar de

antwoorden op uitspraken over onbestaande onderwerpen waarover de ondervraagden geen opinie

kunnen hebben, toont aan dat de antwoorden niet toevallig verdeeld zijn over de substantiële

antwoordalternatieven (Schuman & Presser, 1991: 152-156). Indien we even veronderstellen dat

de maatregel waarover sprake is in ons voorbeeld een fictieve maatregel zou zijn, dan zouden de

tegenstanders van de “huidige regering” een veel grotere kans hebben om met een vraag zonder

filter in de categorie “niet verbeteren” terecht te komen. Vragen zonder filter kunnen bijgevolg

best bruikbaar zijn om achterliggende attitude disposities te meten ook al zouden sommige

respondenten over het concrete onderwerp geen opinie hebben.

Alles samen genomen geven de experimenten met de “geen mening” filter geen sluitend antwoord

op de vraag naar het aantal ondervraagden dat over een onderwerp werkelijk geen opinie heeft. Laten

we daarom te rade gaan bij de tweede soort onderzoeksbevindingen waarbij aan dezelfde

ondervraagden herhaalde keren eenzelfde vraag wordt gesteld.

Instabiliteit bij herhaaldelijk bevragen van dezelfde respondenten

Reeds in 1964 merkte Converse (1964) op dat de stabiliteit over de tijd van antwoorden op

opinievragen veel lager is dan dit zou moeten zijn. De test-retest betrouwbaarheid van 41 attitude

items uit de US National Election Study panels tussen 1950 en 1970 bedroeg gemiddeld slechts 0,55.

Dit zou betekenen dat slechts iets meer dan de helft van de variantie in de antwoorden ware variantie

zou zijn (Alwin & Scott, 1996: 81). De antwoorden van hoger geschoolden blijken veel stabieler te

zijn dan de antwoorden van lager geschoolden (Evans & Heath: 1995; Curtice, 1996: 139). Converse

schreef deze instabileit toe aan de omstandigheid dat veel lager geschoolden over politieke

onderwerpen geen opinie, of toch minstens geen uitgekristalliseerde opinie, zouden hebben. Dit zou

dan de verklaring kunnen zijn van het voortdurend op en neer gaan van de antwoorden bij een groot

aantal ondervraagden. Omwille van het tijdsverloop tussen de opeenvolgende peilingen en omwille

van verschillen in de organisatie van het onderzoek is het echter niet duidelijk in hoever deze

7

instabiliteit toe te schrijven is aan onbetrouwbaarheid, aan systematische meetfouten, aan werkelijke

opinieverandering, of aan gokken omwille van de afwezigheid van opinies.

Voorbeeld 2. Wij vonden hetzelfde in al onze panelstudies in de jaren negentig. In één van deze

onderzoeken waarbij de afstand tussen de eerste en de tweede bevraging hooguit een drietal weken

bedraagt, is de gemiddelde test-retest (Spearman) correlatie van negen items over etnische minderheden

0,56 (range van 0,43 tot 0,60). De items zijn gesteld in Likert format (antwoordmogelijkheden variërend

tussen ‘volledig oneens’ en ‘volledig eens’). Bij meer abstracte uitspraken (met zeven

antwoordmogelijkheden) over cultureel conformisme blijkt de gemiddelde test-retest stabiliteit nog

zwakker (tussen 0,32 en 0,63). Omwille van de korte tijd tussen de twee metingen is verandering van de

onderliggende houding zeer onwaarschijnlijk. Men moet echter wel rekening houden met een methode

effect vermits de tweede bevraging gebeurde via een schriftelijk ‘drop-off’2 vragenlijst. Anderzijds wordt

de stabiliteit wellicht wat geflatteerd omdat de ondervraagden zich het vorig antwoord kunnen herinneren.

Tabel 2 illustreert de betekenis van zo’n lage test-retest correlatie (r = 0,43) voor de uitspraak “De

aanwezigheid van etnische minderheden is over het algemeen goed voor onze economie”.

Tabel 2. Transitietabel m.b.t. een positief verwoorde uitspraak over etnische minderheden bij een toevalssteekproef van 528 Vlamingen tussen 24 en 75 jaar.

Tweede (schriftelijke) bevraging binnen 14 dagen

Eerste bevraging Volledig oneens

Oneens Noch eens noch oneens

eens Volledig eens

Geen mening

Samen (%)

Volledig oneens 43 23 11 5 6 3 91 (17,2)

Oneens 12 61 47 12 6 12 150 (28,4)

Noch…noch 5 26 83 13 2 11 140 (26,5)

Eens 3 10 25 24 5 4 71 (13,5)

Volledig eens 2 2 5 3 6 1 19 (3,6)

Geen mening 3 10 23 2 0 19 57 (10,8)

Samen (%)

68 (12,9)

132 (25,0)

194 (36,7)

59 (11,2)

25 (4,7)

50 (9,5)

528

(100,0)

Spearman correlatie (zonder “geen mening”) = 0,43 (Kendall tau = 0,50); Kappa = 0,32 (‘eens’ en ‘helemaal

eens’ evenals ‘oneens’ en ‘helemaal oneens’ samen genomen).

Alleen de antwoorden in de grijze vakken kunnen als stabiel beschouwd worden, dit zijn er 279

(52,8%) Ruim 47% van de ondervraagden reageert m.a.w. anders op de uitspraak dan hooguit drie

weken vroeger. De maat Kappa, die de mate van overeenstemming meet in de beoordeling van de

paren observaties, uitgezuiverd voor toevallige overeenstemming, bedraagt amper 0,32. Vaak blijven

bij herhaalde metingen, ondanks de interne verschuivingen in de cellen van de tabel, de marginale

verdelingen ongewijzigd omdat, met uitzondering van de diagonaal, de uitwisseling tussen de cellen

op toeval berust (de zgn. quasi onafhankelijkheid). Hier is dit echter niet het geval. In de schriftelijke

8

antwoorden is er een systematische verschuiving naar de neutrale middencategorie (vergelijk de

overeenkomstige cursieve aantallen: 47-26; 25-13 en 23-11). Indien de media enkel van de twee

marginale verdelingen kennis zouden hebben, dan zou volstrekt ten onrechte besloten worden dat het

aantal ondervraagden dat een ongunstig beeld heeft over de etnische minderheden (helemaal oneens

en oneens met de uitspraak) significant gedaald is van 45,6% naar 37,9%.

Drie verklaringen voor de instabiliteit

Survey methodologen zien een drietal mogelijke verklaringen voor de instabiliteit bij herhaalde

metingen van opinies. De eerste verklaring is al gegeven. Volgens Converse (1964) moet de

instabiliteit grotendeels toegeschreven worden aan de ondervraagden die geen opinie, of hoogstens

een niet gekristalliseerde opinie, hebben over het betreffende onderwerp. Zulke respondenten

zouden toevallig kiezen tussen de aangeboden opties. Het concept ‘opinie kristallisatie’ of de zgn.

‘opiniesterkte’ is zeker een cruciaal concept om instabiliteit te begrijpen. Opiniesterkte verwijst

naar de mate waarin de ondervraagden betrokken zijn bij het onderwerp (is het voor hen een

belangrijk onderwerp en niet zomaar iets vrijblijvend?). Er wordt dan ook aangeraden om niet

enkel de richting van opinies te meten (de mate waarin men voor of tegen iets is) maar eveneens de

sterkte (de belangrijkheid van het onderwerp) (zie Schuman & Presser, 1991; 253-264; Krosnick,

& Abelson, 1988). Respondenten met sterke en gekristalliseerde attitudes geven meer stabiele

antwoorden op opinievragen (Krosnick, 1988; Prislin, 1996). Dit vonden wij ook in ons eigen

onderzoek: bij ondervraagden met een goede politieke kennis (indicator voor attitudesterkte) zijn

de gobserveerde test-retest correlaties tussen items over politiek vertrouwen gemiddeld .15 punten

hoger. Het is hier niet de plaats om in te gaan op de verschillende methoden om de attitudesterkte

te meten, maar we kunnen wel wijzen op een bijkomend voordeel van sterktemetingen. De relatie

tussen opinies en gedragingen is doorgaans bijzonder zwak, maar indien informatie over de richting

van opinies gecombineerd wordt met geldige sterktemetingen, dan kan men adequater (toekomstig)

gedrag voorspellen op basis van informatie over houdingen en opinies. Dit werd o.m. toegepast op

de relatie tussen etnocentrisme en stemgedrag (Billiet, 1993a: 72-74; 1993b: 160).

Voor de verklaring van de systematische verschuiving die werd geobserveerd in Tabel 2 lijkt

deze eerste verklaring niet adequaat. Onder de hypothese dat geen werkelijke verandering optrad,

kan de instabiliteit toegeschreven worden aan toevallige en aan systematische meetfouten. In zover

de verschuivingen in een bepaalde richting gaan (naar de neutrale middencategorie) en er geen

werkelijke verandering heeft plaatsgegrepen, zouden methode-effecten die inherent zijn aan de

antwoordschalen voor de instabiliteit van de antwoorden verantwoordelijke zijn (Smith, 1988;

Alwin, 1992). Deze verklaring gaat er van uit dat de ondervraagden wel degelijk een werkelijke

opinie hebben, maar deze achterliggende ‘true score’ zou slechts gebrekkig gemeten worden via de

geobserveerde scores. Door gebruik te maken van speciale procedures, zoals bijvoorbeeld het

meermaals meten van opinies via meerdere methodes in de zgn. ‘Multitrait Multimethod’

9

benadering zou het mogelijk zijn om de correlaties tussen de geobserveerde scores te corrigeren

voor toevallige en systematische meetfouten (zie hiervoor: Saris, 1995; Scherpenzeel & Saris,

1997). Ook de zgn. ‘multiple indicator’ benadering situeert zich in die lijn. De correlaties tussen

samengestelde of latente variabelen die geconstrueerd zijn op basis van een factoranalyse model

zijn veel stabieler dan de correlaties tussen de particuliere items waaruit de schaal bestaat.3

Bemerk echter dat in dit laatste geval enkel gecorrigeerd wordt voor toevallige fouten en niet voor

systematisch fouten.

Voorbeeld 2 (vervolg). Het is zeer aannemelijk dat het response effect in ons voorbeeld te maken

heeft met de overgang van een ‘face-to-face’ interview naar een schriftelijke (zelf in te vullen)

vragenlijst. Het is echter onduidelijk waarom de neutrale positie meer wordt gekozen in de

schriftelijke vorm. Een mogelijke hypothese luidt dat de vorm van de antwoordschaal in de

schriftelijke vragenlijst (horizontale rij scores) beter het metrisch (of ordinaal) karakter van de schaal

weergeeft dan de verticale ordening van de antwoordkaart in het mondeling interview (zie Figuur 1).

Deze laatste zou dan meer gevoelig zijn voor ‘primacy’ effecten (het eerst gehoorde of bovenste

antwoord kiezen).4

Figuur 1. Verschil tussen de antwoordkaart in het mondeling interview en de antwoordschaal in de schriftelijke vragenlijst.

Mondeling interview Schriftelijk interview

Kaart 3 Volledig

oneens Eerder oneens

Noch eens noch

oneens

Eerder eens

Volledig eens

Geen mening

1 2 3 4 5 9 Volledig oneens

Eerder oneens

Noch eens, noch oneens

Eerder oneens

Volledig eens

Geen mening

1

2

3

4

5

9

Een derde verklaring voor de instabiliteit van opinies heeft te maken met de reeds vermelde

omstandigheid dat eenzelfde object vanuit meerdere overwegingen kan beoordeeld worden.

Bijgevolg kunnen de antwoorden op opinievragen wijzigen naargelang van de overwegingen die op

het moment van de bevraging doorslaggevend zijn. In zijn bekend boek over de aard en oorsprong

van de massa-opinie verwerpt Zaller (1992) de gedachte dat burgers over elk onderwerp waarover

ze ondervraagd worden ‘ware opinies’ zouden hebben, maar hij verwerpt evenzeer de idee dat ze

geen opinies hebben.

Antwoorden op opinievragen: het RAS model

Zaller (1992: 42-51) stelt een model voor dat zeer sterk aanleunt bij de verworvenheden van de

cognitieve psychologie met betrekking tot informatieverwerking. Zijn RAS model (Receive-

10

Accept-Sample) vat opinie-uitspraken op als de uitkomst van een proces waarin individuen nieuwe

informatie ontvangen (receive), beslissen of zij deze accepteren en vervolgens een selectie maken

(sample) op het moment dat zij een opinievraag beantwoorden. Dit model steunt op vier axioma’s.

De meeste respondenten zijn ambivalent m.b.t. allerhande onderwerpen. Zij staan constant

bloot aan een stroom van (politieke) informatie die hun opinie in de ene of de andere richting kan

duwen. Zij zijn zich daar doorgaans niet van bewust en hun ‘reservoir’ wordt gevuld met

allerhande inconsistente informatie waaraan ze weinig aandacht besteden. Er is echter, afhankelijk

van hun betrokkenheid bij het onderwerp of hun cognitief engagement, een zekere predispositie om

bepaalde informatie wél op te slaan en andere informatie niet. Vanuit sociologisch oogpunt kan

men opmerken dat deze predispositie mede afhankelijk is van de milieus (en groeperingen) waarin

mensen zich bewegen en van de socialisatie tijdens de adolescentie en de periode daarna.

Het receptie axioma stelt dat de kans op het begrijpen en ontvangen van informatie stijgt

naarmate het cognitief engagement met betrekking tot een issue groter is. Het resistentie axioma

gaat er van uit dat toehoorders een weerstand hebben tegen argumenten die inconsistent zijn met

hun (politieke) predisposities, maar zij zullen dit maar met succes kunnen in de mate dat zij over

contextuele informatie beschikken die hen in staat stelt om het verband te leggen tussen de

boodschap en de predisposities. Het ‘accessibility’ axioma stelt dat de respondenten bij het

beantwoorden van opinievragen gebruik maken van informatie die voor hen het gemakkelijkst

bereikbaar is en die het minst tijd vergt om op te halen. Dat is doorgaans de informatie die het

meest recent in overweging werd genomen of informatie die gemakkelijk met recent gebruikte

overwegingen geassocieerd wordt. Deze stelling is afkomstig uit het ‘information accessibility’

theorema (Tourangeau & Rasinski, 1988). Gemakkelijk bereikbare informatie kan informatie zijn

die in de periode van de opiniepeiling manifest in de massamedia en het publiek discours aanwezig

is, of informatie die gebruikt werd in de voorafgaande vragen en antwoorden (het belang van

‘priming’), of informatie afkomstig uit de particuliere context van de ondervraagde. Tenslotte

beantwoorden volgens het response axioma de respondenten de vragen door een keuze te maken uit

de overwegingen die het meest toegankelijk zijn (‘top of the head’).

Het RAS model kan een verklaring verschaffen voor het gebrek aan stabiliteit van de

antwoorden op opinievragen. De informatie die in overweging wordt genomen bij het

beantwoorden van de vragen kan immers verschillend zijn. Het model verklaart ook waarom, in

geval van ongewijzigde opinies, de antwoorden stabieler zijn bij degenen die meer

uitgekristalliseerde of sterke opinies hebben (predispositie, receptie). Zij gaan bewuster om met de

informatie die op hen afkomt. Het RAS model bevat eveneens een aanzet voor het beantwoorden

van de complexe vraag onder welke omstandigheden de kans toeneemt dat opinies werkelijk

veranderen (Zaller, 1992: 122). De kans op verandering is afhankelijk van een veelheid van

variabelen. Wij gaan hier niet op in omdat dit ons te ver van het thema zou leiden.5 Het volstaat

erop te wijzen dat Zaller het belang heeft onderstreept van het discours onder politieke elites en van

11

de aanwezigheid van onderwerpen in de massamedia als context waarbinnen antwoorden op

opinievragen moeten begrepen worden

Een en ander houdt in dat het met het oog op de interpretatie van resultaten van opiniepeilingen

noodzakelijk is om bij peilingen bijkomende informatie te verzamelen over individuele

predisposities, over ‘media exposure’ op individueel niveau, en over de toestand van de publieke

opinie in die andere betekenis (het publiek politiek debat en de mediaverslaggeving). Opnieuw

wordt hier het belang van de context van de voorafgaande vragen in de vragenlijst onderstreept

voor het interpreteren van de antwoorden op een bepaalde vraag. Zo kan een vraag over de

belangstelling voor een thema compleet verschillend beantwoord worden naargelang deze vraag in

het begin of het einde van een batterij vragen over dit thema gesteld wordt. Bij berichten in de

media over peilingen wordt die overweging nooit gemaakt. Het meten van opinies maakt vaak

plaats voor het produceren van een publieke opinie in een samenspel tussen opdrachtgever,

onderzoeksbureau en media. Wekelijks kan men hier voorbeelden van vinden in de media.

Voorbeeld 3. Een peiling in opdracht van het NCOS naar de belangstelling van de Vlamingen voor

armoede en onderontwikkeling in de Derde Wereld is een mooi voorbeeld van opwekken van

belangstelling en zelfselectie (zie verder in het gedeelte over de nonresponse). In een aantal peilingen

rukt de Derde Wereldproblematiek inzake belangstelling nooit verder op dan de tiende plaats, na

problemen zoals werkloosheid, milieuvervuiling, belastingsdruk, onveiligheid, sociale zekerheid,

verkeersdrukte, migranten, armoede in België, en aids (Cambré, Billiet & Swyngedouw, VRIND,

1998: 18). In de peiling die expliciet over de Derde Wereldproblemen handelt, zou de belangstelling

voor dit thema fors hoger staan in het belangstellingslijstje van de Vlamingen. Zie hiervoor: “Derde

Wereld ligt Vlaming na aan het hart” (De Morgen, 21/10/1999) en “Derde Wereld laat Vlaming niet

koud” (De Standaard, 21/10/1999).

Opdracht: Lees de vermelde krantenberichten aandachtig en schrijf een kritische en zo volledig

mogelijke methodologische reactie van twee bladzijden naar een fictieve krant, in een voor de lezers

begrijpelijke taal.

3. KLEINE WIJZIGINGEN, GROTE GEVOLGEN

De bevindingen inzake de instabiliteit van de antwoorden en het effect van de ‘geen mening’ filter

op de antwoordverdelingen van opinievragen zullen er de lezer wellicht van overtuigd hebben dat

de informatie over de distributie van opinies slechts kan geïnterpreteerd worden in het licht van

contextuele informatie. Het meedelen van de volledige vragenlijst of van minstens de exacte

formulering van de vragen waarvan men de antwoordverdeling geeft, zou tot de

standaardpraktijken van opiniepeilingen moeten behoren. Men kan immers uit de antwoorden geen

enkele conclusie trekken indien niet bekend is hoe de vraag precies luidde en in welke context ze

stond. Zelfs kleine wijzigingen in de verwoording van opinievragen, of een andere volgorde,

veroorzaken verschuivingen in de antwoordpercentages die de steekproeffouten in omvang ruim

12

overtreffen. De invloed van de vraagformulering en de context werd aangetoond door talrijke

veldexperimenten in de Verenigde Staten. (Schuman & Presser, 1981). Gelijkaardige effecten zijn

ook vastgesteld in Nederland (Molenaar, 1986) en in Vlaanderen (Billiet, Loosveldt en Waterplas,

1988).

De bevindingen met betrekking tot de zgn. response effecten zijn overwegend afkomstig van

zgn. ‘split ballot’ experimenten waarbij aan vergelijkbare toevalssteekproeven eenzelfde vraag in

verschillende varianten wordt voorgelegd. Indien na controle (of eventuele standaardisatie van de

streekproeven) blijkt dat de steekproeven strikt vergelijkbaar zijn, dan mag men aannemen dat

verschillen in de antwoordverdelingen toe te schrijven zijn aan de verschillen in vragen,

antwoordschalen of volgorde. Indien het verschil voorspeld werd op grond van theoretische

inzichten, dan zijn de conclusies nog steviger. Het onderzoek van Molenaar (1986) verschilt

hiervan omdat deze gebruikt maakt van een meta-analyse. Hij heeft in het Steinmetz Archief

(Nederland) een paar duizend vraagteksten met bijkomende antwoordverdelingen verzameld over

vergelijkbare algemene surveys. Op basis van formele kenmerken van vragen (onafhankelijke

variabelen) en formele kenmerken van antwoordverdelingen (afhankelijke variabelen) komt hij via

een multivariate variantie-analyse tot gelijkaardige bevindingen als de zgn. ‘split ballots’, maar dan

meer veralgemeenbaar en los van de particuliere vragen.

Soorten response effecten

Men kan analytisch een viertal response effecten onderscheiden, al moet toegegeven worden dat

concrete voorbeelden soms onder meerdere categorieën kunnen ondergebracht worden. Een eerste

categorie van effecten heeft te maken met de overtuigingskracht van de vraag. Men kan

respondenten in een bepaalde richting sturen door argumenten in de vragen op te nemen, door ge-

kleurde informatie in de inleiding op de vraag of door onevenwichtigheid in de vraagformulering of

antwoordschaal. Dit soort effecten kan gemakkelijk tot stand komen ten gevolge van al of niet

bewuste manipulatie door de ontwerper van de vragenlijst. In Zaller’s model zou dit beschouwd

worden als een poging om invloed uit te oefenen op de bereikbaarheid en de selectie van informatie

die in overweging wordt genomen.

Een tweede categorie van effecten houdt verband met de specifieke omstandigheden en de

conversatiecontext waarin survey-vragen worden beantwoord. De meeste ondervraagden blijken

zich tijdens een interview te houden aan onuitgesproken spelregels: "geef antwoord op de vraag

zoals ze geformuleerd is"; "spreek niet tegen". Ze zijn niet geneigd de spelregels te wijzigen

(Schuman en Presser, 1981: 298-299). De doorsnee respondent beantwoordt iedere vraag dan ook

binnen het aangeboden kader, ook al wordt hij daardoor in zijn antwoordmogelijkheden sterk

beperkt. De formuleringseffecten die betrekking hebben op het al of niet aanbieden van een 'geen

mening' filter, het middenalternatief en open of gesloten vragen illustreren de beperking door de

vraagvorm.

13

Een derde categorie van effecten heeft betrekking op onbedoelde informatie in de

antwoordschalen. Dit komt vooral voor bij vragen waarin aan de respondent gevraagd wordt om

gedragsfrequenties mee te delen m.b.v. een numerieke antwoordschaal die wordt aangeboden. Een

aantal respondenten lijkt aan te nemen dat de antwoordschaal de 'ware' verdeling in de populatie

weergeeft. Op die basis vormt de respondent zich een oordeel over typische of sociaal wenselijke

hoeveelheden. Het midden van de schaal zou het modale gedrag voorstellen terwijl de extremen

beschouwd worden als 'outliers' (Schwarz e.a., 1988, 108-109). Er is bijgevolg een tendens om het

midden te kiezen.

Een vierde categorie van effecten bij opinievragen heeft betrekking op het referentiekader van

de ondervraagde. Hierbij speelt de context van de vraag, d.w.z. voorafgaande vragen en

antwoorden, een belangrijke rol. Voorafgaande vragen en antwoorden kunnen de betekenis van

een volgende vraag wijzigen of de aandacht van de respondent aanscherpen. Het antwoord op een

vraag kan dan in contrast of in overeenstemming met de vorige vragen geformuleerd worden. Dit

maakt het bijzonder moeilijk om antwoorden op eenzelfde vraag uit twee verschillende

opiniepeilingen te vergelijken. Hier spelen vanzelfsprekend ten volle het ‘accessibility theorema’

en concepten uit de sociale psychologie een rol. Een voorbeeld hiervan is de onuitgesproken

“given new contract” regel die de verbale communicatie tijdens een survey interview zou

beheersen. De ondervraagde neemt impliciet aan dat de interviewster niet zal vragen wat zij al

weet en bijgevolg wordt aan de volgende vraag een betekenis gegeven die contrasteert met de

vorige vraag (Strack, Martin & Schwarz, 1987: 9).

Laten we nu enkele voorbeelden bekijken. Onderstaand voorbeeld combineert twee effecten,

een éénzijdige beïnvloeding door een argument en informatie via de antwoordschaal:

Voorbeeld 4. In een ‘split ballot’ experiment van 1987 met twee toevallige en volledig vergelijkbare

steekproeven van respectievelijk 191 en 179 gehuwde vrouwen uit de omgeving van Gent werd de

volgende vraag gesteld: "Er wordt soms beweerd dat werklozen niet willen werken. Hoe groot schat

U het percentage werklozen dat niet wil werken. Dus hoeveel werklozen op honderd willen volgens

U niet werken?" (Billiet, e.a. 1988: 38). De ene steekproef (A) kreeg daarbij een kaart met

antwoordmogelijkheden. De vrouwen uit de tweede steekproef (B) moesten zonder hulp hun

antwoord meedelen. Het resultaat staat in Tabel 3. Het effect van maar liefst 45,7 procentpunten in

de categorie “er zijn meer dan 20 procent werklozen die niet willen werken”, is van een zelden

geziene omvang. Het groot aantal ondervraagden (62,4%) dat het aantal werkonwillige werklozen zo

hoog schat kan voor een deel toegeschreven worden aan de eenzijdige informatie (argument) in de

tekst van de vraag: “Er wordt soms beweerd dat werklozen niet willen werken”. Dit duwt de

ondervraagden naar de hoge inschatting van het percentage werkonwillige werklozen. Het

merkwaardige is echter dat dit voluit plaats heeft in vorm B (open vraag) waarin de ondervraagden

geen enkel ankerpunt hebben (tenzij de bewering “werklozen willen niet werken”). Het aanbieden van

een antwoordkaart met een range van “minder dan 5 procent” tot “meer dan 20 procent” geeft aan de

respondenten in vorm A wel een ankerpunt (Billiet, 1993a: 49).

14

Tabel 3. Antwoordverdeling op een open en op een gesloten vraag naar het geraamd aantal werklozen dat

niet wil werken (percentages).

Antwoordkaart Vorm A Gesloten vraag (kaart)

Vorm B Open vraag (geen kaart)

Minder dan 5 procent

5 tot 9 procent

10 tot 14 procent

15 tot 19 procent

meer dan 20 procent

(weet niet)

18,3

27,8

28,8

8,4

16,7

0,0

5,6

2,8

21,4

5,6

62,4

2,8

Totaal (100%) 191 179

χ² = 105,42; df = 5; p = 0,000

In dit voorbeeld spelen in vorm A twee response effecten in tegengestelde richting, het eenzijdig argument en de aangeboden schaal. Dat respondenten de informatie in de antwoordschaal aanwenden bij het aanmaken van een opinie, blijkt ook uit het volgend bekende voorbeeld over de frequentie van televiekijken (Billiet, Loosveldt & Waterplas, 1988: 62-63):

Voorbeeld 5. Aan de ene toevallig gekozen steekproef van gehuwde vrouwen werd een schaal met

lage waarden voorgelegd (-1/2 uur tot +2,5 uur). De andere steekproef kreeg een schaal met hoge

waarden (-2,5 uur tot +4,5 uur). In de eerste groep beweerde 72% van de respondenten gemiddeld

minder dan twee en een half uur per dag naar TV te kijken; in de tweede groep was dat slecht 48%.

De aangeboden schaal blijkt bovendien door te werken op een volgende open vraag waarin naar het

dagelijks TV-kijken van anderen wordt gevraagd. Alhoewel die vervolgvraag precies dezelfde was

voor de twee steekproeven, en er nog een andere vraag aan voorafging over belangstelling voor

televisie, werd in de steekproef die de lage schaal had gekregen het gemiddeld aantal uren TV-kijken

significant lager geschat (3 uur 51 minuten) dan in de steekproef met de hoge schaal 4 u 34’ (t = - 4,4;

p < 0,001).

Dit is een voorbeeld van een ‘carryover’ effect (Tourangeau, e.a. 1989) Informatie die gebruikt wordt in een vroeger deel van de vragenlijst wordt overgedragen op een volgende vraag en dit leidt tot een grotere consistentie in de antwoorden. Dit wordt eveneens geïllustreerd in het volgende voorbeeld waarin een argument in een vraagtekst naar een volgende vraag wordt overgedragen.

Voorbeeld 6. In het reeds vermelde ‘split ballot ‘onderzoek bij Vlaamse huisvrouwen tussen 21 en 49

jaar werd het effect van de vraagverwoording onderzocht m.b.t. twee vragen die onmiddellijk na

elkaar werden gesteld. De eerste vraag over “het uit elkaar gaan van gehuwde koppels” werd in twee

varianten gebruikt. De daarop volgende tweede vraag over “begeleiding van gehuwde paren” werd

nadien op een identieke wijze verwoord in de twee steekproeven. In Tabel 4 staat de exacte

verwoording van de vragen en antwoordverdelingen in de twee steekproeven (vorm A en vorm B). Er

werd een effect verwacht van de aangeboden overweging over de oorzaak van het uit elkaar gaan in

vorm A (“gehuwde koppels doen te weinig moeite”) maar het effect is gering en niet significant op

niveau 0,05 (p = 0,142). De overweging speelt echter mee in de daaropvolgende vraag waarin naar

15

het effect van een concreet voorbeeld van “moeite doen” wordt gevraagd. Ruim twaalf procentpunten

meer respondenten zijn van oordeel dat begeleiding van de koppels kan bijdragen om minder snel uit

elkaar te gaan.

Tabel 4. Procentuele antwoordverdelingen op twee vragen over verwante opinies in twee vergelijkbare

steekproeven als illustratie van een context effect (een overdracht van informatie die tot consistentie leidt).

Vorm A Vorm B

“Vindt U dat gehuwde koppels tegenwoordig te weinig moeite doen om hun problemen op te lossen en daardoor te vlug uit elkaar gaan, of hebt U daar geen mening over?”

“Vindt U dat gehuwde koppels tegenwoordig te vlug uit elkaar gaan, of hebt U daar geen mening over?”

Ja

Neen

Geen mening

77,5

8,4

14,1

(N = 191)

Ja

Neen

Geen mening

73,2

5,6

21,2

(N = 179)

χ² = 3,9; df = 2; p = .142

“Denkt U dat begeleiding van echtparen er toe kan bijdragen dat zij niet te vlug uit elkaar gaan, of denkt U dat begeleiding daar weinig aan kan veranderen?”

Ja, begeleiding kan bijdragen

Neen, kan niet bijdragen

67,0

33,0

(N = 191)

Ja, begeleiding kan bijdragen

Neen, kan niet bijdragen

55,5

44,5

(N = 179)

χ² = 5,01; df = 1; p = 0,025

Indien informatie uit een voorafgaande vraag bij een aantal respondenten tot contrast

(inconsistentie) leidt in de antwoorden, dan is er sprake van een ‘backfire’ effect (Tourangeau,

1992: 37). Een van de meest bekende voorbeelden hiervan heeft betrekking op het effect op een

algemene (brede) vraag over de toelaatbaarheid van abortus indien deze gesteld wordt na een

specifieke vraag over abortus. De brede vraag heeft betrekking op vrouwenrechten, de specifieke

vraag heeft betrekking op een ernstige handicap van het kind. In Vlaanderen werd een effect

gevonden dat vrijwel van dezelfde orde is als in Angelsaksische studies (Schuman & Presser, 1981:

37; Billiet, Loosveldt & Waterplas, 1988: 75).

Voorbeeld 7. De brede (algemene) vraag luidt als volgt: "Vindt U dat het voor een zwangere vrouw

wettelijk moet mogelijk zijn om een abortus te ondergaan als ze gehuwd is en geen kinderen meer

wil?". De meer specifieke vraag is de volgende: "Vindt U dat het voor een zwangere vrouw wettelijk

mogelijk moet zijn om een abortus te ondergaan als er een grote kans bestaat dat haar baby ernstig

gehandicapt zal zijn?". Als de brede vraag als eerste (of apart) gesteld wordt dan keurt 56;1% van de

ondervraagde vrouwen de mogelijkheid tot abortus niet af. Als men deze brede vraag echter na de

specifieke vraag stelt, dan daalt het percentage vrouwen dat de mogelijkheid tot abortus niet afkeurt

16

volgens de algemene vraag naar 39,7%. Door een eenvoudige omwisseling van volgorde verandert

een meerderheid in een minderheid. De antwoorden op de specifieke vraag zijn echter niet gevoelig

voor de volgorde. Het goedkeuren schommelt rond 91% (zie Tabel 5). De tabel geeft de gezamenlijke antwoordverdelingen op de twee vragen (percentages op het totaal) en de marginale

verdelingen per vraag (percentages in vet). Het percentage respondenten dat abortus zou toelaten in

de twee situaties daalt van 55,3% in vorm B (vrouwenrechten eerst) naar 39,1% in vorm A (specifieke

vraag eerst). Het is duidelijk dat meer ondervraagde vrouwen abortus als middel tot

geboortebeperking (vrouwenrechten) afkeuren nadat ze eerst hun antwoord gegeven hebben op de

vraag over de meer aanvaardbare reden voor abortus (ernstige handicap). Dit wijst op een verenging

van de betekenis van de algemene vraag. Nadat het aanvaardbare bijzondere geval (ernstige handicap

als reden) in de voorafgaande vraag expliciet aan bod kwam, is die reden niet meer aanwezig in de

betekenisinhoud van de volgende vraag en die wordt bijgevolg minder aanvaardbaar (abortus in

andere gevallen dan een ernstige handicap).

Tabel 5. Procentuele antwoordverdelingen op twee vragen over de toelaatbaarheid van abortus in twee

omstandigheden als illustratie van een context effect (een wijziging van betekenis die tot contrast leidt).

Algemene vraag (vrouwenrechten) Volgorde van de vraag Specifieke vraag

(ernstige handicap) Ja Neen Totaal

Vorm A Ja 39,1 50,0 89,1

Specifiek/algemeen Neen 0,6 10,3 10,9

Totaal 39,7 60,3 100,0

(N = 179)

Vorm B Ja 55,3 38,1 93,1

Algemeen/specifiek Neen 1,1 5,8 6,9

Totaal 56,1 43,9 100,0

(N = 191)

Marginale verdeling ‘vrouwenrechten’ x volgorde: χ²= 10,1; df = 1; p = 0,001

marignale verdeling ‘ernstige handicap’ x volgorde: χ² = 1,79; df = 1; p = 0,18

Via dit context effect krijgt men een zicht op de wijze waarop de ondervraagden de vraag

interpreteren.

Voorbeeld 7 (vervolg). Uit het beluisteren van de bandopnames van de interviews blijkt dat een aantal

ondervraagden in de algemeen/specifiek situatie de wens uitdrukken om hun vorig antwoord te

bekijken en te wijzigen nadat ze ook de vervolgvraag gehoord hebben. Na deze twee vragen werd de

ambivalentie t.o.v. abortus gemeten. Vorm B brengt een aantal ondervraagden blijkbaar in

verwarring. In de algemeen/specifiek (vorm B) volgorde beweert 32,3% van de ondervraagden niet

goed te weten wat te denken over abortus. In vorm A is dit slechts bij 18,3% van de respondenten het

geval (Billiet, Waterplas & Loosveldt, 1992:135).

17

Naar een verklaring van contexteffecten

Zowel bij de vraag naar het bestaan van opinies als bij de commentaar op de effecten van

verwoording en de context is duidelijk geworden dat de inzichten van cognitieve en sociaal

psychologen met hun ‘social cognition’ benadering, een belangrijke rol spelen in de verklaring van

response effecten.6 Daarom wil ik hier nog even ingaan op het algemene model en op de

voornaamste concepten. De belangstelling van survey-methodologen en opinieonderzoekers voor

de verklaringen uit de cognitieve psychologie is er pas in het midden van de jaren tachtig gekomen.

Voordien was men heel sceptisch tegenover de inbreng van psychologen, o.m. omdat de

bevindingen betrekking hadden op onderzoek in homogene studentenpopulaties en niet in de

algemene bevolking (Schuman & Presser, 1981: 313-314). In de ‘invasie’ vanuit de sociale en

cognitieve psychologie kunnen twee perioden onderscheiden worden. De eerste periode werd

ingeleid door een aantal conferenties tussen 1983 en 1989 en was vooral georiënteerd op de

ontwikkeling van theoretische verklaringen voor de effecten die in de ‘split ballots’ waren

gevonden. Er werden experimenten opgezet om die verklaringen te testen. Syntheses van de

onderzoeksresultaten en theoretische reflecties zijn o.m. te vinden in “Context Effects in Social and

Psychological Research” (Schwarz & Sudman, 1992) en “Thinking about Answers. The

Application of Cognitive Processes to Survey Methodology” (Sudman, Bradburn & Schwarz,

1996). In de tweede periode sinds het begin van de jaren negentig is de focus verschoven naar het

cognitief testen van vragen in de voorbereidende fase van het survey-onderzoek in zgn. cognitieve

labo’s. Een voorlopige synthese hiervan is te vinden in “Answering Questions” (Schwarz &

Sudman, 1996). Het is de bedoeling om tot optimale formuleringen te komen. In de lijn van het

bekende onderscheid van Groves (1989: 5) die het heeft over ‘measurers’ en ‘reducers’, kunnen

we rustig stellen dat de eerste fase vooral gericht was op het meten en verklaren van response

effecten, en de tweede op het vermijden van ‘fouten’. Wij zullen ons hier beperken tot een beknopt

overzicht van de enkele centrale gedachten uit de eerste fase.

De cognitieve modellen van het vraag- en antwoordproces in opiniepeilingen zijn varianten van

een basismodel waarin (1) het interpreteren van de vraag, (2) het zoeken naar informatie in het

lange termijn geheugen, (3) het genereren en editeren van een antwoord, en (4) het articuleren van

het antwoord, de vier basisstappen zijn (Strack & Martin, 1987; Tourangeau & Rasinski, 1988). Er

wordt op gewezen dat het opzoeken in het geheugen niet alleen een rol speelt bij vragen over feiten

of gebeurtenissen maar evenzeer bij opinies. Attitudeobjecten en vroegere oordelen en gevoelens

daaromtrent zijn immers eveneens in het geheugen opgeslagen in associatieve netwerken (Anderson

& Bower, 1973; Tourangeau & Rasinski, 1988: 299; Sudman, Bradburn & Schwarz, 1996: 70-72).

Soms zal de ondervraagde, gebruikmakend van overwegingen, zich een volledig nieuw oordeel

moeten vormen, maar in veel gevallen zal de herinnering aan een gevormde opinie een rol spelen

bij het beantwoorden van de vraag. In elk van deze stappen kunnen externe factoren het antwoord

18

helpen ‘vormen’ (of ‘verstoren’) zoals bijvoorbeeld de context van het vraaggesprek (o.m. hints

van de interviewer), de context van voorafgaande vragen, informatie waarop recent de aandacht

werd gevestigd, en de reeds besproken predisposities (Zaller, 1992). Het is in dit kader dat de

belangstelling voor het concept ‘information accessibility’ moet begrepen worden bij het

interpreteren van antwoorden op opinievragen.

Sommigen hebben er op gewezen dat alle stappen in het vraag- en antwoorproces geëvalueerd

worden vanuit de pragmatische doelstelling van de deelnemers aan het gesprek (Graesser &

Murachver 1985: 27-28). Deze pragmatische doelen houden onder meer verband met de

zelfpresentatie (sociale wenselijkheid). Impliciete conversatienormen blijken eveneens een rol

spelen bij het interpreteren en beantwoorden van vragen (Grice, 1975). Een toepassing hiervan

vindt men in het concept ‘pragmatically significant answer’. Er wordt verondersteld dat de

respondent de kennis en belangstelling van de interviewer inschat en van daaruit een mogelijk

antwoord evalueert. Indien de conversatiecontext coöperatief is, - een eigenschap die in survey

interview verondersteld wordt - dan zal de geïnterviewde een antwoord geven met de grootste

pragmatische significantie. Dit is een antwoord dat informatief is in het licht van de staat van

kennis die bij de interviewer (of onderzoeker) verondersteld wordt; dat bruikbaar is in het licht van

de veronderstelde belangstelling (of doelstelling), en dat niet meer inspanning van de

geïnterviewde vraagt dan nodig is (Grewendorf 1983: 79-80). Een andere toepassing hiervan is de

‘given new contract’ regel die reeds ter sprake kwam. De ondervraagden veronderstellen dat de

interviewster het antwoord niet kent, dat zij het antwoord wenst te kennen, en dat zij niet zal vragen

wat zij reeds weet, en dat bijgevolg in een volgende vraag naar iets nieuws gevraagd wordt. Deze

veronderstelling zou meespelen bij het interpreteren van een nieuwe vraag die verwant lijkt met een

vorige. Het zgn. ‘inclusion/exclusion’ model is hierop gebaseerd: er wordt verondersteld dat het

gebruiken van gemakkelijk toegankelijke informatie de algemene regel is, tenzij deze informatie

wordt uitgesloten omwille van conversationele normen (“dat hoort niet” of “dat weet zij reeds”) of

door de taakomschrijving die de interviewer geeft (Sudman, Bradburn & Schwarz, 1996: 108-110).

19

4. RESPONSE EFFECTEN ALS DATA

Allemaal goed en wel, maar wat kan de gebruiker met deze inzichten doen als hij of zij

geconfronteerd wordt met resultaten van opiniepeilingen? Zou het niet beter zijn dat onderzoekers

hun opinievragen correct formuleren zodat al deze ‘fouten’ niet kunnen optreden? De aandachtige

lezer zal ondertussen allicht begrepen hebben dat dit niet kan. Een uitgedrukte opinie bestaat niet

onafhankelijk van de methode waarmee ze ‘gemeten’ is en bijgevolg moet ze steeds geïnterpreteerd

worden in de context van die meting. Er is bijgevolg maar één veilige weg om resultaten van

enquêtes naar opinies correct te interpreteren: rekening houden met het bestaan van methode

effecten. Informatie over mogelijke effecten, zoals in de hiervoor gegeven voorbeelden, en inzicht

in de cognitieve processen, zijn goede gidsen om zinnige conclusies uit resultaten van

opiniepeilingen te trekken. We zullen nu met enkele voorbeelden aantonen hoe inzicht in

cognitieve processen en in methode effecten een betere kijk op opinies kan verschaffen. Hiermee

willen we aantonen dat het soms niet aangewezen is om methode effecten proberen uit te

schakelen, gegeven dat men het al zou kunnen, en dat het soms beter is om effecten als bijkomende

gegevens te gebruiken bij de interpretatie van peilingen.

Het interpreteren van cognitief complexe vragen

Het belang van inzicht in de cognitieve processen bij het beantwoorden van vragen kan

geïllustreerd worden aan de hand van de peiling die werd gepubliceerd net voor de verkiezingen

van 13 juni 1999.

Voorbeeld 8. Een telefonische peiling werd uitgevoerd van 8 tot 10 juni bij een (zogenaamd)

representatieve steekproef van 1.000 Vlamingen van 18 jaar en ouder (Financieel Economische Tijd,

12 juni: 1). Zoals bij dergelijke peilingen steeds het geval is, werd de uitslag van Agalev overschat

(15,7% i.p.v. 11%) en die van het Vlaams Blok onderschat (11,1% i.p.v. 15,3%). Aangezien de trend

voor de twee ‘groten’ (CVP en VLD) relatief goed werd ingeschat, bleef de blaam voor deze ‘Ultieme

peiling’ deze keer uit. We zullen het echter niet over de accuraatheid van de voorspelling hebben

maar over het merkwaardig gegeven dat tijdens de verkiezingsshow deze peiling door toenmalig

CVP-voorzitter Van Peel dankbaar werd aangegrepen om te beweren dat het verlies van de CVP

volledig te herleiden was tot het eenmalig accident ‘dioxinecrisis’. “Zonder dat accident zou de CVP

gewonnen hebben”, aldus de voorzitter verwijzend naar de peiling. Ik laat in het midden of de CVP-

voorzitter nu echt in peilingen was gaan geloven. Hij citeerde in elk geval correct uit de krant:

“Vooral de CVP lijkt de kop van jut te worden. Zonder de affaire was de partij op weg te winnen in

vergelijken met 1995: van 27,3 naar 28,8 procent. De dioxinezaak knaagt daar meer dan vier

procentpunten af. De partij zou onder de ‘historische ‘ drempel van 25 procent zakken, maar toch

nog net de grootste Vlaamse partij blijven” (FET, 12 juni: 1 ). Pro memorie: de CVP behaalde 22,1%

op 13 juni. Deze onterechte uitspraak over winst zonder de affaire (het verschil tussen 27,3 en 28,8 is

statistisch niet significant op α-niveau 0,05) is gebaseerd op twee vragen die onmiddellijk na elkaar

20

werden gesteld, met name over het stemgedrag vóór en na de crisis. De verschillen werden

geïnterpreteerd als een aanduiding van het effect van de dioxinecrisis.

Is deze interpretatie die geen rekening houdt met cognitieve processen correct? Ik betwijfel dit

sterk. Het gaat hier immers over een hypothetisch gedrag gesitueerd in het verleden: “Wat zou je

gedaan hebben indien er geen dioxinecrisis zou geweest zijn?”. De cognitieve activiteit die de

ondervraagde moet ontwikkelen om tot een antwoord te komen is enorm. Bij de kiezers van de

CVP en de SP, de twee regeringspartijen die toen voor de crisis verantwoordelijk geacht werden, is

de kans op een contrasteffect groot.7 Precies door het contrast in de antwoorden (vóór nog wel; na

niet meer) konden de ondervraagden uiting geven aan het ongenoegen dat toen overheerste. De

boodschap “eigenlijk zouden we nog eens voor hen gestemd hebben, maar nu zeker niet meer” is

veel krachtiger dan “we zullen niet voor hen stemmen, maar we zouden het zonder de crisis toch al

niet gedaan hebben”. Een waarschijnlijk meer correcte interpretatie van deze peiling is dat de CVP

ook zonder de dioxinecrisis stemmen zou verloren hebben8, maar dat het verlies door de crisis nog

een stuk groter is geweest. Vandaar de noodzaak ook op zoek te gaan naar andere oorzaken, iets

wat de partijvoorzitter dank zij de peiling rustig van zich af kon houden voor de televisiecamera.

Bovenstaand voorbeeld geeft geen harde argumenten voor onze interpretatie. Wij kunnen alleen

steunen op de verworven theoretische inzichten in contexteffecten en op informatie uit alle vorige

peilingen.

Voorbeeld 8 (vervolg). In vijf vorige peilingen tussen 1 januari en 13 mei 1999 heeft de CVP nooit

meer dan 25,6% stemintenties achter zich gekregen. In April zat de intentie om voor de CVP te

stemmen met 22,9% zelfs dichter bij de werkelijke uitslag van 13 juni dan in de post-dioxine peiling

van 11 juni. Het is alleen de retrospectieve hypothetische pre-dioxinecrisis vraag die in contrast met

de post-dioxinecrisis vraag zo’n hoge score (28,8%) oplevert, naar ons oordeel precies omwille van

het contrast met de ‘pre-dioxine’ vraag.

Naast het gezond verstand en theoretisch inzicht in response effecten is informatie over

gelijkaardige peilingen en wetenschappelijk opgezette opinieonderzoeken van nut bij het

interpreteren van peilingen. Informatie over de samenleving die uit andere bronnen dan peilingen

afkomstig is, zijn eveneens nuttige bakens.

De blootstelling aan informatie in de media in rekening nemen

Het volgend voorbeeld heeft betrekking op het verschil tussen de antwoordverdeling op de open

vraag “waarom hebt U voor die partij gestemd?” van het ISPO verkiezingsonderzoek van 1991 en

1995 en de BRTN exit-poll van 1995 die eveneens door ISPO werd uitgevoerd.

Voorbeeld 9. Tijdens de analyse van de gegevens van de BRTN exit-poll, gehouden bij 3.748 kiezers

bij het verlaten van het stemlokaal op 21 mei 1995, werd vastgesteld dat 33% van de Vlaams Blok

kiezers beweerden voor die partij gestemd te hebben omwille van het migrantenthema (Swyngedouw,

21

Beerten & Billiet, 1997: 12). Dit was meer dan bij om het even welke andere partij maar toch

opvallend minder dan in het ISPO onderzoek dat gedurende een aantal maanden na de verkiezingen

van 1991 onder 2.691 Vlaamse kiezers werd gehouden. Toen beweerde ruim 50% van de kiezers van

het Vlaams Blok dat zij omwille van de migranten voor die partij gestemd hadden (Billiet, 1993b:

111). Als men de impliciete verwijzingen naar migranten ook in rekening neemt liep dit zelfs op tot

ruim 65%. In het ISPO onderzoek, dat in de maanden na de verkiezingen van mei 1995 werd

gehouden bij 2.099 Vlamingen, en dat op dezelfde bevolking als de exit-poll van 1995 betrekking

heeft, beweerde 41% van de Vlaams Blok kiezers expliciet omwille van de migranten voor die partij

gestemd te hebben.

Was voor de kiezers van het Vlaams Blok het migrantenthema werkelijk minder belangrijk in 1995

dan in 1991, en zo ja, in welke mate? Wie geen rekening houdt met cognitieve processen bij het tot

stand komen van het antwoord en met de context van de bevraging is het antwoord simpel: het

migrantenthema is minder belangrijk geworden. In welke mate? Dat is iets moeilijker te

beantwoorden want er zijn voor 1995 twee cijfer, 30% en 40%. Laat ons aannemen dat onze

gebruiker terecht beslist om cijfers te vergelijken die in (op het eerste zicht) gelijke context tot stand

gekomen zijn, dus de twee post-electorale surveys van ISPO. Dan is het verschil 10 procentpunten.

Onze gebruiker zal tot een redelijke afname van het belang van het migrantenthema besluiten. Is dat

terecht?

Laten we nagaan welke informatie we kunnen gebruiken bij het interpreteren van de cijfers in

bovenstaand voorbeeld. Om overwegingen in het stemhokje te achterhalen is de exit-poll beter

geschikt dan het post-electoraal survey omdat de afstand tussen keuze en het meedelen van

overwegingen die bij de keuze meegespeeld hebben veel korter is. In het onderzoek in de maanden

na de verkiezingen is de taak (beantwoorden van een ‘waarom’ vraag) veel complexer omwille van

de afstand tussen de keuze en het beantwoorden van de vraag. Bij het vormen van een antwoord

zal gebruik gemaakt worden van de gemakkelijkst bereikbare informatie, en dat kan de duiding in

de media zijn. Als in de weken na de verkiezingen in de media vaak geïnformeerd wordt over de

oorzakelijke band tussen het stemgedrag voor het Vlaams Blok en het migrantenthema, dan kan dit

de informatie zijn die de ondervraagden, afhankelijk van hun predispositie, gebruiken bij het

vormen en geven van een antwoord op de vraag naar de stemmotieven. Indien men bijgevolg tot

een ‘werkelijk’ verschil tussen de 50% in 1991 en de 40% in 1995 wil besluiten dan zou men

moeten nagaan of de blootstelling aan informatie over keuzemotieven wel dezelfde was in de twee

periodes. Het antwoord is ‘neen’. In 1991 overheerste in de maanden na de verkiezingen de

verbinding “extreem rechts – migranten” de mediaberichten; in 1995 waren hoofdzakelijk andere

thema’s aan de orde (politiek fatsoen, sociale zekerheid) en ging het vooral over de winst van de SP

en het niet doorbreken van VLD.

Wellicht werd het migrantenthema omwille van de media overschat in 1991 en is er niet zo heel

veel veranderd. We kunnen het niet weten want in 1991 was er geen exit poll. In Voorbeeld 9

werd duidelijk dat naast theoretische kennis, ook inzicht nodig is in de thema’s die gedurende

22

opiniepeilingen de media beheersen. Er zijn bovendien vaak twee verschillende methodes nodig

om de antwoorden interpreteren.

Inzicht via vergelijken van twee methodes

Het meten van een response effect via het gebruik van minstens twee vraagvarianten kan wel

degelijk beter substantieel inzicht verschaffen. Met andere woorden: methode-effecten als

waardevolle data. In “Ondanks beperkt zicht” (1993a: 54-55) is een verhelderend voorbeeld

opgenomen over het verschil in geregistreerde katholieken naargelang gebruik gemaakt wordt van

de zgn. ééntraps- of tweetrapsvraag. De toename van dit response effect tussen 1971 en 1987 leert

één en ander leren over veranderingen in de aard van de kerkelijke betrokkenheid. Laten we ons

echter beperken tot een recenter voorbeeld dat betrekking heeft op een opinie.

Voorbeeld 10. In een ISPO-onderzoek van 1996 over politieke kennis bij Vlamingen tussen 18 en 74

jaar werden twee vragen voorgelegd met als bedoeling de neiging tot discriminatie ten opzichte van

etnische minderheden te meten. Aangezien de onderzoeker zich bewust was van mogelijke effecten

van de vraagverwoording werd voor deze vragen een ‘split-ballot’ experiment opgezet. De vragen

hadden betrekking op het ontslag en de promotie van vreemde en Vlaamse werknemers. In toevallige

steekproef A (N = 532) kregen de ondervraagden twee antwoordmogelijkheden voor ontslag

respectievelijk promotie aangeboden: de Vlaamse werknemer of de werknemer van een etnische

minderheidsgroep. In de tweede toevallige steekproef B (N = 455) werd het middenalternatief “dat

mag geen verschil maken” expliciet aangeboden. De antwoordverdelingen bij deze vragen staan in

Tabel 6. Indien het middenalternatief niet wordt aangeboden dan wordt dit toch spontaan vermeld

door ongeveer 40% van de ondervraagden (Steekfproef A). Dit aantal neemt echter toe met méér dan

20 procentpunten indien deze antwoordmogelijkheid expliciet wordt vermeld.

We leren hieruit dat vermoedelijk niet alle ondervraagden wier opinie, gemeten via de vragen in

steekproef A, naar discriminatie neigt (rond 46%), een stabiele opinie hebben. Ik zeg vermoedelijk

omdat de twee verschillende verwoordingen niet aan dezelfde respondenten werden aangeboden. We

weten bijgevolg niet precies wie van opinie zou veranderen onder invloed van de toevoeging van de

overweging “het mag geen verschil maken”. Om daar zicht op te krijgen is een paneldesign vereist,

op voorwaarde dat geen herinneringseffect op zou treden. We mogen echter wel aannemen dat de

meer stabiele categorie die sterker uitgesproken tot discriminatie geneigd is, een heel stuk lager ligt

(25,9% volgens de ‘ontslagvraag’ en 31,7% volgens de ‘promotievraag’). Tussen 15% tot 20% van

de ondervraagden laat zich leiden door de suggestie van de onderzoeker dat het geen verschil mag

maken.

23

Tabel 6. Procentuele antwoordverdelingen bij twee vragen zonder en met een middenalternatief in de

Vlaamse bevolking tussen 18 en 75 jaar.

Steekproef A Steekproef B

Veronderstel dat er twee werknemers zijn. De ene is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als één van hen ontslagen wordt omdat het slecht gaat met het bedrijf, wie zou dat volgens u dan moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer?

Veronderstel dat er twee werknemers zijn. De ene is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als één van hen ontslagen wordt omdat het slecht gaat met het bedrijf, wie zou dat volgens u dan moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer? Of mag dat geen verschil uitmaken?

Werknemer van etnische minderheid

Vlaamse werknemer

Mag geen verschil maken

Geen mening

45,1

7,4

39,5

7,9

Werknemer van etnische minderheid

Vlaamse werknemer

Mag geen verschil maken

Geen mening

25,9

6,4

65,1

2,60

N (100%) 532 N (100%) 455

χ² = 70,087; df = 3; p = 0,001

Veronderstel dat er twee werknemers zijn. De ene werknemer is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als maar één van hen in aanmerking kan komen voor een promotie, wie zou het dan volgens u moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer?

Veronderstel dat er twee werknemers zijn. De ene werknemer is Vlaming, de andere behoort tot een etnische minderheidsgroep. Op alle punten zijn de werknemers gelijk. Als maar één van hen in aanmerking kan komen voor een promotie, wie zou het dan volgens u moeten zijn: de werknemer behorende tot een etnische minderheidsgroep of de Vlaamse werknemer? Of mag dat geen verschil uitmaken?

Werknemer van etnische minderheid De Vlaamse werknemer

Mag geen verschil maken

Geen mening

4.0 47.1

43.0

6.0

Werknemer van etnische minderheid De Vlaamse werknemer

Mag geen verschil maken

Geen mening

0.8

31.7

65.5

2.0

N (100%) 532 N (100%) 455

χ² = 57.195; df = 3; p = 0,001

Dit voorbeeld maakt duidelijk dat de keuze voor de ene of de andere verwoording afhankelijk is

van het onderzoeksopzet. Indien men zicht wil krijgen op degenen met een meer uitgesproken

neiging tot discriminatie, dan is vorm B aangewezen. Ondanks de suggestie door de onderzoeker,

kiest men in steekproef B toch nog voor het ontslag van de etnische minderheid. Wil men echter

een meer uitgesproken categorie op het spoor komen die discriminatie afwijst, dan is vorm A meest

aangewezen omdat daar spontaan voor “mag geen verschil maken” gekozen wordt ondanks het

ontbreken van dit antwoord in de antwoordmogelijkheden.

24

Het ‘meten’ van meetfouten

We hebben enkele voorbeelden gezien die aantonen dat methode-effecten rijk aan informatie

kunnen zijn met het oog op inhoudelijke gevolgtrekkingen over opinies en andere gerapporteerde

subjectieve toestanden. Zo’n inzicht is maar mogelijk als de effecten gemeten en geïnterpreteerd

kunnen worden met behulp van andere informatie en van theoretisch inzicht. Het is zelfs mogelijk

om nog een stap verder te gaan en de gemeten opinies te corrigeren voor methode-effecten.

Voorbeelden hiervan vindt men in de reeds aangehaalde ‘multitrait-multimethod’ benadering

(Saris, 1995) en het meten van de zgn. vertekening omwille van volgzaamheid via structurele

modellen (Billiet & McClendon, 1998).

Het eerstgenoemde bouwt verder op de ideeën die door Campbell en Fiske (1959) werden

uitgewerkt in hun bekend artikel over convergerende en discriminerende geldigheid met behulp van

de ‘multitrait-multimethod’ (MTMM) matrix. Indien meerdere eigenschappen (opinies) bij

dezelfde subjecten meermaals onafhankelijk van elkaar met verschillende methodes gemeten

worden, dan is het mogelijk om parameters voor de betrouwbaarheid en de meetgeldigheid te

bekomen. Men krijgt m.a.w. in principe zicht op de methode-effecten en de onbetrouwbaarheid en

men kan deze informatie gebruiken om de geobserveerde correlaties tussen eigenschappen te

corrigeren met het oog op betere schattingen. In principe, want er zijn nog wel een aantal

problemen die moeten opgelost worden. Het herhaaldelijk meten is kostelijk en indien dit te vlug

na elkaar gebeurt zijn de metingen niet onafhankelijk van elkaar (test-retest effect). De methode

werd vaak toegepast op varianten van antwoordschalen. Indien de methodes niet voldoende van

elkaar verschillen, dan kunnen ze onderling correleren, wat normaal niet verondersteld wordt. Zo

kunnen antwoordschalen van diverse lengte (5, 10 of 100 punten) wel degelijk een

gemeenschappelijk methode effect hebben (tendens om het midden te kiezen) dat niet ontdekt

wordt door toepassing van MTMM. Tenslotte blijken de kwaliteitsmetingen met betrekking tot een

bepaalde methode afhankelijk van de context van de andere methoden die gebruikt worden (De Wit

& Billiet, 1995). We gaan hier niet verder op in.

De tweede methode, het meten van methode effecten via structurele modellen, heeft niet

toevallig betrekking op volgzaamheid. Uitspraken in verband met opvattingen in de vorm van

“helemaal eens” (score 5 of 7) tot “helemaal oneens” (score 1) hebben immers de eigenschap dat ze

zowel in de gunstige als in de ongunstige richting ten overstaan van het attitudeobject kunnen

verwoord zijn. Men kan bijgevolg verwachten dat ondervraagden het niet eens zijn met ongunstige

uitspraken als zij het eens zijn met gunstige uitspraken, en omgekeerd. Subjecten die in het geval

van gebalanceerde sets van uitspraken (evenveel gunstig als ongunstig) de neiging vertonen om het

met alle of met de meerderheid van de uitspraken eens te zijn verstoren de theoretisch verwachte

covarianties (correlaties) tussen de indicatoren; zij veroorzaken additionele gemeenschappelijke

residuele covariantie die omwille van de inconsistentie van de antwoorden niet aan de inhoudelijke

25

achterliggende attitudevariabelen kan toegeschreven worden. Dit verschaft de mogelijkheid om via

structurele modellen een gemeenschappelijke methodefactor te identificeren. Zonder op de

technisch details in te gaan kan dit best visueel geïllustreerd worden met het volgend voorbeeld.

Voorbeeld 11. In het ISPO verkiezingsonderzoek van 1995 werden twee concepten, zich bedreigd

voelen door migranten en politiek wantrouwen gemeten met gebalanceerde sets van respectievelijk

zes en vier items. De verwoording van deze items was de volgende:

V108_2 (-)

V108_4 (-)

V108_7 (-)

V108_6 (+)

V108_8 (+)

V108_10 (+)

Over het algemeen zijn de migranten niet te vertrouwen.

Gastarbeiders zijn een gevaar voor de tewerkstelling van de Belgen.

Moslims zijn een bedreiging voor onze cultuur en gebruiken

De migranten dragen bij tot de welvaart van ons land.

De aanwezigheid van verschillende culturen is een verrijkt onze samenleving.

Wij zouden de buitenlanders die zich in België willen vestigen hartelijk welkom moeten heten.

V97_7 (-)

V97_9 (-)

V97_3 (+)

V97_4 (+)

De politici hebben nooit geleerd om te luisteren naar mensen zoals ik.

Van zodra ze gekozen zijn, voelen de meeste politici zich te goed voor mensen zoals ik.

Als mensen zoals ik aan politici hun opvattingen laten weten, dan wordt daar rekening mee gehouden.

De meeste van onze politici zijn bekwame mensen die weten wat ze doen.

Zowel in de Vlaamse als in de Waalse steekproef past het model in Figuur 2. De cijfers bij de pijlen

(factorladingen) van de latente variabelen naar de geobserveerde indicatoren geven aan in welke mate

de indicatoren beïnvloed zijn door het latente construct dat we bedoelden te meten.

Figuur 2 . Meetmodel voor twee inhoudelijke concepten en gemeenschappelijke stijlfactor, gemeten met twee

sets van gebalanceerde items.

v108_2

v108_4

v108_7

v108_6

v108_8

v108_10

v97_7

v97_9

v97_3

v97_4

STIJL

.35

.40

.54

.47

.44

.49

.51

.24

.70

.79.14

.47

.18

.18

.18

.18

.18

.18

.18

.18

.18

.18

.78

.75

.66

-70

-.73

-.69

.68

.85

-.52

-.42

WANTROUW

DREIGING

26

Die coëfficiënten zijn een aanduiding van de meetgeldigheid. Ideaal moet dit, rekening houdend met

toevalsfouten dicht bij 1 (of –1) zijn maar dat wordt zelden bereikt. De verklaring hiervoor is dat de

variantie in elke indicator ook nog beïnvloed wordt door een unieke bron die niet geïdentificeerd is.

Het zich bedreigd voelen is hier adequater gemeten dan het wantrouwen in politici .

In dit voorbeeld wordt een methode-effect gespecificeerd, de antwoordstijl “neiging tot

instemming”. Een deel van de residuele variantie die niet door de inhoudelijke concepten

verklaard kan worden, beschouwen we m.a.w. als een methode-effect dat alle items van die vorm

gemeenschappelijk hebben. Vanzelfsprekend zijn de factorladingen van de stijlfactor op de

indicatoren geringer. Dat is maar goed ook, het is immers de bedoeling om een inhoudelijke

variabele te meten en niet een methode-effect. We zien ook dat twee indicatoren van

machteloosheid nog wat gemeenschappelijke variantie hebben, maar we zijn niet in staat om deze

te identificeren, vandaar de toegestane correlatie tussen de residuen (error termen) van de twee

uitspraken die gunstig zijn voor de politici. Meet deze stijlfactor de neiging tot instemming?

Vrijwel zeker, want de stijlfactor blijkt meer dan 0,90 te correleren met een construct “aantal keren

instemming met een set van 14 items” (Billiet & McClendon, 1998: 145). Het zou natuurlijk ook

kunnen gaan om een neiging om score 5 te kiezen, maar dat is weinig waarschijnlijk. Onze

stijlfactor correleert negatief met de genoten opleiding (r = -0,23). Dit is opnieuw een aanduiding

dat het om de tendens tot instemmen gaat die meer voorkomt bij lager geschoolde respondenten.

Het model met een stijlfactor past veel beter bij de gegevens dan een model met alleen maar de

inhoudelijke variabelen9. Dit model hebben wij met succes toegepast op een gebalanceerde set van

acht etnocentrisme items in acht West Europese landen (ISSP 1995). Indien geen stijlfactor

gespecificeerd wordt dan is het niet mogelijk om een equivalent meetinstrument te vinden met de

acht indicatoren. De antwoordstijl verschilt weinig tussen deze landen (Billiet, Cambré &

Welkenhuysen-Gijbels, 1999). Er zijn wel verschillen tussen hogere en lager opgeleiden. Het

effect van instemming is groter bij de lager geschoolden. Voor zover wij tot nog toe gevonden

hebben, is het stijleffect te gering om de correlaties tussen de inhoudelijke factoren substantieel te

beïnvloeden. Dat is maar best zo.

5. WIE WEIGERT TELT (NIET) MEE

Opiniepeilingen pretenderen om op grond van resultaten van beperkte steekproeven iets te zeggen

over de spreiding van opinies in de bevolking. De wijze waarop de steekproef getrokken werd en

de mate waarin deze werkelijk gerealiseerd werd, is bijgevolg van essentieel belang om te oordelen

over de zin of onzin van uitspraken over de bevolking. Het gaat steeds om schattingen met een

vooraf vastgestelde kans op vergissing (bijvoorbeeld 5%) dat de schattingen binnen een bepaald

27

interval liggen. Statistische uitspraken zijn dus nooit zeker. Hun waarde ligt in de kwaliteit dat het

in principe mogelijk is om de kans op een fout van een bepaalde omvang vast te stellen. Dit is

alleen mogelijk indien men over een toevalssteekproef beschikt, indien men de kans op trekking

van de steekproefeenheden kan berekenen, en indien men mag aannemen dat de uitval

(weigeringen, onbereikbaarheid) zuiver toevallig is. Deze voorwaarden zijn omzeggens nooit

vervuld in de vele peilingen die wij voorgeschoteld krijgen.

Vaak worden verkeerde veronderstellingen gemaakt worden over de steekproef. Men

veronderstelt immers een steekproef met een gelijke kans op selectie van alle eenheden terwijl dit

helemaal niet het geval is (bijvoorbeeld met telefonische enquêtes of bij geclusterde steekproeven).

Daardoor zijn de standaardfouten en betrouwbaarheidsintervallen meestal groter dan wordt

voorgehouden. De algemene foutenmarge voor de totale steekproef wordt meegedeeld

(bijvoorbeeld 1.000 Belgen), maar de percentages worden dan apart berekend voor deelgroepen

waarvan de (geringe) omvang zelden wordt meegedeeld (bijvoorbeeld de kiezers van een kleine

Vlaamse partij). Wij zullen het verder niet hebben over het steekproefontwerp (zie: Billiet 1993a:

31-38) maar over de vertekening van de feitelijke steekproef als gevolg van de weigeringen. Dáár

ligt immers de grootste bron van foutieve gevolgtrekkingen.

Wie weigert mee te werken?

Stilzwijgend wordt door onderzoeksbureaus aangenomen dat de weigeringen binnen de klassen van

gekende kenmerken (sekse, leeftijd, woonomgeving) toevallig zijn en dat ze bijgevolg de resultaten

niet vertekenen. Dat is doorgaans niet het geval. De nonrespons hangt wel degelijk samen met

inhoudelijke kenmerken waarover uitspraken gedaan worden. Precies om die reden wekt het

opgeven van foutenmarges een valse indruk van betrouwbaarheid. Hoe ernstig is dit probleem en

hoe moet men daar mee omgaan om tot zinnige uitspraken over peilingen te komen?

Het percentage geselecteerde respondenten dat weigert om aan een interview deel te nemen,

heeft zorgwekkende afmetingen aangenomen (Carton, 1999: 121-123). In de verschillende ISPO

onderzoeken in Vlaanderen schommelt het aantal weigeringen rond 30%. Dit is te veel, maar in

vergelijking met andere onderzoeken in Vlaanderen waar in ‘face-to-face’ interviews het

percentage weigeringen regelmatig rond 50% ligt, valt dit nog mee. De kwaliteit van de respons

heeft natuurlijk te maken met de taakuitoefening van de interviewers, maar daarnaast zijn sommige

respondentkenmerken mee bepalend voor het weigeren. Verschillen degenen die meewerken van

degenen die weigeren wat hun kenmerken die samenhangen met de inhoudelijke onderwerpen van

peilingen aangaat? Dát is de hamvraag. Eigenlijk zou men er steeds moeten van uitgaan dat

respondenten systematisch verschillen van de weigeraars waardoor een systematische vertekening

optreedt.

Het is reeds lang geweten dat persoonskenmerken zoals genoten opleiding, sekse en leeftijd een

effect hebben op de kans tot medewerking. In de steekproeven van sommige onderzoeksbureaus is

28

bijvoorbeeld het percentage lager geschoolden dat bekomen zal worden voorspelbaar, met name

12%. In het recent ISPO onderzoek ligt dit rond 20%; maar we weten dat dit percentage in de

bevolking tussen 18 en 75 jaar minstens 25% bedraagt. In Nederland is dit ongeveer hetzelfde

(Visscher, 1997: 155-197). Alle algemene peilingen zijn gekenmerkt door een systematische fout

omdat de lagere sociale klassen fors ondervertegenwoordigd zijn. Men zou natuurlijk via zgn.

post-stratificeren10 het aandeel van lager geschoolden kunnen bijstellen, maar dat lost het probleem

niet op. De lager geschoolden die in de steekproeven aanwezig zijn, verschillen systematisch van

de afwezigen. De aanpassing via wegen geeft dus eigenlijk een valse indruk van meer correct te

zijn.

Wij weten ook dat responscijfers sterk verschillen naargelang van de woonomgeving. In

sommige gemeenten bedraagt de nonrespons amper 10%; elders is dat soms méér dan 50%. Het

recent onderzoek naar nonrespons besteedt veel aandacht aan de sociale context en sociale

omgeving van de ondervraagde (Couper & Groves, 1995; Groves & Couper, 1998). Men neemt

aan dat de sociale desorganisatie en het ontbreken van sociale cohesie in de gemeente een negatief

effect heeft op de participatie aan survey onderzoek. In omgevingen met een gebrekkige sociale

cohesie zouden meer geïsoleerde individuen voorkomen die niet bereid zijn om te investeren in

goederen waarin ze geen direct belang hebben. Zij die daarentegen wel ingebed zijn in sociale

netwerken, participeren in verenigingen, nemen deel aan het sociaal leven en vertonen een grotere

bereidheid om mee te werken. Het hoeft niet gezegd dat dit tot grote vertekeningen kan leiden in

de bevindingen.

De grote verschillen in response naargelang van de woonomgeving wijzen in die richting. Het

systematisch overschatten in peilingen van het stemmen voor Agalev wijst eveneens in die richting.

Maar er zijn sterkere indicaties. Dank zij de informatie over de weigeringen in panelonderzoek

hebben we een goed zicht op een aantal kenmerken van de weigeraars vanaf de tweede golf.

Voorbeeld 12: In het verkiezingsonderzoek van 1991 en 1995 is een schaal opgenomen die het

zogenaamde ‘utilitair individualisme’ meet. Respondenten die hoog scoren op deze schaal zijn

mensen die beweren dat geld en macht het enige is wat telt, dat solidariteit onzin is en dat iedereen

eerst voor zichzelf moet zorgen, dat men best niet te veel met anderen omgaat, en dat het streven naar

persoonlijk succes het belangrijkste is. We kunnen nagaan in hoever de respondenten die in 1991

hoog scoren op deze schaal een grotere kans hebben om hun medewerking te weigeren in 1995. Geert

Loosveldt heeft dit onderzocht. Bij degenen die in 1991 laag scoren op de individualisme-schaal (N =

604) weigert 16,6% mee te werken in 1995. Bij degenen die matig scoren neemt dit toe tot 24,8% (N

= 1.259). Bij degenen die hoog scoren op de individualisme-schaal stijgt het percentage weigeringen

tot 33,5%. Aangezien het individualisme samenhangt met onder meer het genoten onderwijs en

woonomgeving, twee factoren die eveneens de nonrespons beïnvloeden, werd via een logistisch

regressiemodel nagegaan of het individualisme een netto effect heeft op de kansverhouding

nonrespons/respons. Dit blijkt inderdaad het geval. Deze kansverhouding neemt toe met een factor

29

1.28 (d.i. met 28%) voor een stijging van één eenheid standaardafwijking op de individualismeschaal

(Loosveldt, 1999).

Individuen die sterk op zichzelf betrokken zijn zouden dus minder geneigd zijn om mee te werken

aan enquêtes.

Voorbeeld 12 (vervolg). Grondig onderzoek naar de individualisme items heeft aangetoond dat de

schaal ambigu is. Ze meet in de eerste plaats de aanvaardbaarheid van collectieve voorstellingen over

eigenbelang die in de samenleving aanwezig zijn. Ze meet niet noodzakelijk de eigen leefwijze van

de respondent. De items worden bovendien verschillend geïnterpreteerd door hoger en door lager

geschoolden (Waege, 1997: 339). Globaal kan men aannemen dat ze meet in hoever de

ondervraagden de samenleving en ‘anderen’ zien als een verzameling van mensen die allemaal op de

eerste plaats hun eigen belang nastreven (Waege, 1997). Volgens ons onderzoek is de

individualismeschaal een indicator voor maatschappelijke desintegratie. Dit blijkt uit de samenhang

met andere variabelen die dicht bij het anomieconcept van Srole (1956) aansluiten (wantrouwen in de

toekomst, wantrouwen in de politici, wantrouwen in anderen).

Dit kan er op wijzen dat een zeker wantrouwen tegenover anderen tot een hogere kans op

nonrespons leidt. Er zijn nog andere subjectieve kenmerken van respondenten van belang voor de

verklaring van de nonrespons.

Voorbeeld 13. In het panelonderzoek naar de politieke kennis van de Vlamingen stelde men vast dat

het percentage weigeringen in de tweede golf (1996) amper 7,6% bedroeg bij de respondenten die in

de eerste golf (1995) gekenmerkt waren door een hoge politieke kennis. Dit percentage steeg tot

12,8% bij respondenten met een matige kennis en het bedroeg 21,1% bij hen die een heel gebrekkige

politieke kennis bezaten (Cambré, Billiet en Swyngedouw, 1996: 15).

Naast de kennis omtrent het onderwerp speelt ook de interesse een rol bij de nonrespons. Dit blijkt

duidelijk uit de panelgegevens bij politieke peilingen.

Voorbeeld 14. In de tweede golf van het verkiezingsonderzoek werd vastgesteld dat het percentage

weigeringen steeg van 18,7% bij degenen met veel politieke interesse naar 28,7% bij de respondenten

met weinig politieke interesse. In dit onderzoek werd echter ook de “bekwaamheid” van de

ondervraagden gemeten aan de hand van het aantal “gebrekkige” antwoorden (geen antwoord, geen

mening, steeds de middencategorie kiezen, enz…). Belangstelling voor het onderwerp en de zgn.

bekwaamheid tot participatie aan survey onderzoek hangen sterk samen. Om die reden heeft de

belangstelling geen significant netto effect op de kansverhouding nonrespons/respons eens

gecontroleerd werd voor opleiding, sekse en bekwaamheid (Loosveldt, Carton & Pickery, 1998: 255-

257).

Een gevolg van de samenhang tussen politieke kennis, en belangstelling en vertrouwen in de

politiek heeft voor gevolg dat politieke panelsurveys doorheen de tijd al maar ‘beter’ worden. Op

de duur blijven alleen belangstellenden en positief ingestelde respondenten over. Indien de

conclusies uit panelonderzoeken geen rekening houden met dit verschijnsel dan worden de

30

gebruikers natuurlijk op een verkeerd been gezet. Voor een zittende regering kan het wel gunstig

zijn als peilingen aangeven dat het vertrouwen almaar toeneemt, degene die ernstig in

maatschappelijke trends geïnteresseerd is, komt daarentegen bedrogen uit.

Voorbeeld 15. In Nederland kregen twee grootschalige onderzoeken juist omwille van het negeren van

de impact van de nonrespons op de kwaliteit van de gegevens heel wat kritiek te verduren. De door

het Nationaal Kiezersonderzoek vastgestelde toename in politieke belangstelling bleek zeer sterk

samen te hangen met de toename in percentage weigeraars (van Goor, 1996: 166-170).

Dit alles houdt in dat men ook bijzonder omzichtig moet omgaan met resultaten van enquêtes die

worden georganiseerd door magazines en organisaties. Vaak blijkt de respons bij zulke

schriftelijke enquêtes 20% of minder te bedragen. Zelfs indien dit in absolute cijfers om veel

grotere aantallen gaat dan bij toevalssteekproeven zijn de resultaten meestal compleet

onbetrouwbaar omwille van de zelfselectie door belangstellende respondenten die er een

welbepaalde opinie op nahouden. Vaak is het zo dat naarmate de vertekening door nonrespons

groter is, de opdrachtgever ook meer tevreden zijn met de uitkomsten. Dat komt natuurlijk goed uit

voor de organisatoren van peilingen. Het is voor hen gunstiger om de vertekening te verzwijgen.

Dat is één van de grote verschillen met wetenschappelijke peilingen.

Hoe omgaan met de nonrespons?

Indien de uitval volledig toevallig zou zijn dan is er weinig aan de hand omdat de schattingen niet

vertekend zijn. Volledig toevallige uitval komt zelden voor. Indien de uitval systematisch zou zijn

met betrekking tot bekende kenmerken (bijvoorbeeld sekse, leeftijd, genoten opleiding en

woonomgeving) maar toevalling binnen de categorieën van die variabelen, dan kan men in principe

tot niet-vertekende schattingen komen via poststratificatie (Kalton & Kasprzyk, 1986). Maar we

hebben gezien dat ook deze hypothese niet steeds opgaat omdat er binnen de combinaties van

bekende kenmerken nog een systematische vertekening plaats heeft naargelang van subjectieve

kenmerken van respondenten, kenmerken die vaak verband houden met het onderwerp

(belangstelling, betrokkenheid). Vandaar de noodzaak om op een andere wijze met de nonrespons

om te gaan. Naast investeringen om de weigeringen zoveel mogelijk te beperken11 zou men

evenveel aandacht moeten besteden aan het verwerven van informatie over de weigeraars en aan de

analyse daarvan als men besteedt aan de verzameling en analyse van de substantiële gegevens. Er

is geen enkele zinvolle interpretatie van opiniepeilingen mogelijk tenzij er een interpretatie is op

basis van informatie over de nonrespons. Dit sluit terug aan bij de basisfilosofie van onze

benadering: fouten (in dit geval ontbrekende data) zijn gegevens die bij de inhoudelijke analyse of

bij de interpretatie van de resultaten moeten gebruikt worden.

Hier rijst natuurlijk een probleem. Hoe kan men iets leren uit iets waarover men geen

informatie heeft? Mits enige inventiviteit is het wel degelijk mogelijk om te leren uit de

31

nonrespons. Vooreerst kan gepoogd worden om bij het opstellen van het steekproefplan reeds

gebruik te maken van bekende gegevens. Dit kan bij steekproeven uit het bevolkingsregister

(sekse, leeftijd, woonomgeving) en zeker bij steekproeven in opdracht van organisaties of

tijdschriften (lezersprofielen, kenmerken van leden). Verder kan men aan de interviewsters vragen

om voor elk contact (weigering of medewerking) een zgn. contactblad in te vullen. Dit bevat dan

bijkomende informatie via een toegelaten vraag (“waarom wilt U niet meewerken?”), of een meting

via observeren (“Welk type van woning?”, “welk type van buurt?”…). Tenslotte kan men

onrechtstreeks via panelonderzoek een zicht krijgen op factoren die vermoedelijk ook bij nieuwe

steekproeven de nonrespons beïnvloeden. Vanaf de tweede golf heeft men bij panels immers een

pak inhoudelijke informatie over de respondenten die afhaken (zie hiervoor: Carton, 1999;

Loosveldt, Carton & Pickery, 1998). Deze informatie schept een context waarbinnen de

verzamelde gegevens kunnen geïnterpreteerd, en soms gecorrigeerd worden.

BESLUIT: "CIJFERS SPREKEN NIET VOOR ZICHZELF" De uitdrukking "cijfers spreken voor zichzelf" berust blijkbaar op een grof misverstand. De idee

dat survey-onderzoekers goedgelovigen zijn die de antwoorden op hun vragen zomaar voor 'waar'

aannemen, behoort nu hopelijk tot het verleden. Het naïef en onkritisch voorschotelen van cijfers

zonder enige controle of zonder enige informatie over vraagverwoording en respons is veeleer een

kenmerk van de mediaberichtgeving over opiniepeilingen.

Cijfers behoeven een zorgvuldige interpretatie en daarvoor is inzicht nodig in de sociologische

en psychologische aspecten van het onderzoeksproces dat de geregistreerde antwoorden doet

ontstaan. Reactiviteit, d.i. de omstandigheid dat de gebruikte methodes effect hebben op de

'metingen', is inherent aan onderzoek naar menselijke gedragingen en houdingen. Men kan in

principe elk individueel antwoord beschouwen als het resultaat van een kans op het 'ware'

antwoord, een kans op een systematische fout die hardnekkig in een of andere richting gaat, en een

kans op toevallige fouten die nu eens optreden in deze of gene richting, dan weer niet. Als onder-

zoekers zijn we natuurlijk niet geïnteresseerd in elk individueel antwoord maar in

frequentieverdelingen en samenhangen op niveau van de totale populatie of van deelgroepen in de

bevolking. Ook op dat niveau moet elke geobserveerde waarde (statistiek) beschouwd worden als

een combinatie van de drie vermelde effecten: (a) de onbekende werkelijke waarde die ons

uiteindelijk interesseert en die moet geschat worden; (b) systematisch effecten die doorgaans als

ongeldigheid worden aangeduid omdat ze meten wat de onderzoeker niet bedoelde te meten; (c)

toevallige fouten die de scherpte van de metingen vertroebelen, d.i. de onbetrouwbaarheid. Het zal

nu wel duidelijk zijn dat het realiseren van de perfecte geldigheid waarbij de onderzoeker de

32

eigenschappen observeert die hij wil waarnemen, en geen andere, een nobel en verwijderd

streefdoel is.

Toevallige fouten (onbetrouwbaarheid) stellen weinig problemen indien men beseft dat ze er

zijn want men kan hun omvang berekenen en correcties aanbrengen. Indien men echter geen

rekening houdt met toevalsfouten dan kunnen vergelijkingen over de tijd wel degelijk tot zeer

verstoorde conclusies over verandering leiden (zie: Billiet, 1995: 101-102).

We hebben het hier voornamelijk gehad over systematische fouten (of effecten). Die zijn

hoofdzakelijk afkomstig van factoren tijdens de dataverzameling. Sommige daarvan zijn te

boeiend en te rijk aan informatie om ze nog langer 'fouten' te noemen. Aangezien er een structuur

schuilt in die ‘fouten’, kan men ze leren kennen, ze vermijden of er rekening mee houden bij de

interpretatie van de gegevens. Vaak leren response effecten ons iets over gedragingen en

houdingen van mensen in sociale interacties, en daar gaat het toch om.

Voor de opiniepeilers mag dit verhaal eindigen. Voor wetenschappelijke onderzoekers in de

gedragswetenschappen begint het pas. De 'werkelijke' waarden of de 'ware' antwoorden zijn

immers geen objectieve en externe feiten buiten de geest van de onderzoeker. Het zijn

verwijzingen, tekens of indicatoren die de theoretisch verantwoorde concepten en theorieën in zijn

hoofd moeten verbinden met de objectieve werkelijkheid buiten hem. Daarom is geldigheid

aantonen niet alleen een kwestie van technische operaties en procedures maar evenzeer van de

creatieve en systematische ‘geest’. Sommigen kunnen dit een reden vinden om

gedragswetenschappen te wantrouwen, voor ons is dit haar grootste troef. Dit betekent dan wel dat

cijfers tekens zijn die moeten geïnterpreteerd worden binnen een door de onderzoeker

geconstrueerde ‘context van de data’ waarin zowel informatie uit andere bronnen

(maatschappelijke feiten, historische kennis), als substantiële theorieën en theorieën over het

onderzoeksproces (in het bijzonder het vraag- en antwoordproces) deel van uitmaken (zie hiervoor:

Billiet 1993a).

33

LITERATUUR Alwin, Duane, F. (1992), “Information transmission in the survey interview: number of response categories

and the reliability of attitude measurement”, Pp. 82-118 in: Marsden, Peter, V. (Ed.), Sociological Methodology 1992. Vol. 22. San Francisco: Jossey Bass.

Alwin, D. F. & Scott, J. (1996), “Attitude change: its measurement and interpretation using longitudinal surveys”. Pp. 75-106 in: Bridget Taylor & Katarina Thomson (Eds.), Understanding Change in Social Attitudes. Aldershot: Dartmouth Pub. Co.

Anderson, J. R. & Bower, G.H. (1973), Human associative memory. Washington, DC: Winston & Sons.

Billiet, J. (1993a), Ondanks beperkt zicht. Studies over waarden, ontzuiling en politieke veranderingen in Vlaanderen. Brussel/Leuven: VUB Press/SOI.

Billiet, J. (1993b), “Stabiliteit en verandering in de attitude tegenover vreemdelingen”. Pp 147-162 in: M. Swyngedouw, J. Billiet, A. Carton & R. Beerten (red.), Kiezen is verliezen. Onderzoek naar de politieke opvattingen van de Vlamingen. Leuven: Acco.

Billiet, J. (1995), Methoden van sociaal-wetenschappelijk onderzoek: ontwerp en dataverzameling. Leuven: Acco (zesde druk).

Billiet, J., Loosveldt, G. & Waterplas L. (1984), Het survey-interview onderzocht. Effecten van het ontwerp en gebruik van vragenlijsten op de kwaliteit van de antwoorden. Leuven: SOI.

Billiet, J., Loosveldt, G. & Waterplas, L. (1988), Response-effecten bij survey-vragen in het Nederlands taalgebied. Leuven: SOI (rapport 1988/6).

Billiet, J., Waterplas, L. &. Loosveldt, G. (1992), “Context Effects as Substantive Data in Social Surveys”. Pp. 131-147 in: Schwarz, N. & Sudman, S. (Eds.), Context Effects in Social and Psychological Research. New York: Springer.

Billiet, J. & McClendon, J. McKee (1998), “On the identification of acquiescence in balanced sets of items using a structural equation approach”. Pp. 129-150 in: Ferligoj, A. (Ed.), Advances in Methodology, Data Analysis, and Statistics. Ljubljana: FDV.

Billiet, J. Cambré, B. & Welkenhuysen-Gijbels, J. (1999), Equivalence of measurement instruments for attitude variables in comparative surveys, taking method effects into account: the case of ethnocentrism. Paper presented at the International Conference on Large Scale Data Analysis, Cologne, 26-29 May 1999, 20 pp.

Cambré, B., Billiet, J. & Swyngdouw, M. (1996), De kennis van de Vlaminen en hun houding tegenover de Vlaamse Overheid. Resultaten van de effectpeiling. Onderzoeksrapport, Leuven/ISPO.

Campbell, D.T. & Fiske, D.W. (1959), Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56: 81-105

Carton, A. (1999), Selectie, training en evaluatie van interviewers binnen een interviewernetwerk. Leuven: Garant.

Champagne, P. (1990), Faire l’opinion. Le nouveau jeu politique. Paris: Les Éditions de minuit.

Converse, Ph. (1964), “The nature of belief systems in mass publics”. Pp. 206-261 in: Apter, D. (ed.), Ideology and Discontent. New York: The Free Press.

Couper, M. & Groves, R. (1996), “Social environmental impacts on survey co-operation”, Quality & Quantity, 30: 173-188.

Curtise, John (1996), “Why methodology matters”. Pp. 131-149 in: Bridget Taylor & Katarina Thomson (Eds.), Understanding Change in Social Attitudes. Aldershot: Dartmouth Pub. Co.

De Poot, C.J. (1996), De sturende werking van het werkwoord in de vraag. Academisch proefschrift. VU Amsterdam.

34

De Wit, H. & Billiet, J. (1995) The MTMM design: back to the Founding Fathers. Pp. 39-59 in: Saris, W. & Akos, M. (Eds.) The Multitrait-Multimethod Approach to Evaluate Measurement Instruments. Budapest: Eötvös University Press.

Dillman, D. (1978), Mail and Telephone Surveys. The Total Design Method. New York: Wiley.

Evans, G. & A. Heath (1995), “The measurement of left-right and libertarian-authoritarian values: a comparison of balanced and unbalanced scales”. Quality and Quantity, 29, pp. 191-206.

Graesser, J.M. & Murachver, T. (1985) Symbolic Procedures of Question Answering, in: Graesser, A.C. & Black, J.B. (eds.) (1985) The Psychology of Questions. Hillsdale: Erlbaum, 15-87.

Grewendorf, G. (1983) What Answers can be given?, in Kiefer, F. (ed.) Questions and Answers. Dordrecht, Reidel, 45-84.

Grice, H.P. (1975) Logic of conversation. Pp. 41-58 in: Cole, P. & Morgan, J.L. (eds.) Syntax and Semantics 3/Speech Acts. New York: Academic Press.

Groves, R. M. (1989) Survey Errors and Survey Costs. New York: John Wiley & Sons.

Groves, R. & Couper, M. (1998), Nonresponse in Household Surveys. New York: John Wiley & Sons.

Huckfeldt, R. & Sprague, J. (1995), Citizens, Politics, and Social Communication. Information and Influence in an Election Campaign. New York: Cambridge University Press.

Kalton, G. & Kasprzyk, D. (1986), “The Treatment of Missing Survey Data”, Survey Methodology, 12: 1 -16.

Jöreskog, K. G. (1990), “New developments in LISREL Analysis of ordinal variables using polychoric correlations and weighted least squares”. Quality and Quality, 24: 387-404..

Krosnick, J.A. (1988), “Attitude importance and attitude change”. Journal of Experimental Social Psychology, 24: 205-255.

Krosnick, J.A. & Robert P. Abelson (1992), “ The Case for Measuring Attitude Strength in Surveys”, Pp. 177-203 in: Judith, M. Tanur (ed.), Questions about Questions. Inquiries into the Cognitive Bases of Surveys. New York: Russell Sage Foundation.

Lazarsfeld, P. F., Berelson, B. & Gaudet, H. (1944), The people’s choice. How the Voter Makes Up His Mind in a Presidential Campaign. New York: Duell.

Loosveldt, G. (1999), Utilitarian individualism and panel non-response. Onderzoeksnota. Centrum voor Dataverzameling en Analyse. Departement Sociologie, K.U Leuven.

Loosveldt, G., Carton, A. & Pickery, J. (1998), “The Effect of Interviewer and Respondent Characteristics on Refusals in a Panel Survey”. Pp. 249-261 in: Koch, A. & Porst, R. (Eds.), Nonresponse in Survey Research. ZUMA Nachrichten Spezial, August 1998.

Molenaar, N. (1986), Formuleringseffecten in survey-interviews. Amsterdam, VU uitgeverij.

Moser, C.A. (1958), Survey Methods in Social Investigation. Melbourne: William Heinemann LTD.

Prislin, R. (1996), “Attitude stability and attitude strength: one is enough to make it stable”, European Journal of Social Psychology, 26: 447-477.

Saris, W.E. (1995) “Designs and models for quality assessment of survey measures”. Pp. 9 -37 in: W.E. Saris & A. Munnich (eds.), The Multitrait-Multimethod Approach to evaluate Measurement Instruments. Budapest: Eötvös University Press.

Scherpenzeel, A. & W. Saris (1997), “The Validity and Reliability of Survey Questions”. Sociological Methods and Research, 25 (3): 341-383.

Schuman, H. & Presser, S. (1981), Questions and Answers in Attitude Surveys: Experiments on Question From, Wording and Context. New York: Academic Press.

Schwarz, N., Strack, F., Müller, G. & Chassein, B. (1988), “The range of response alternatives may determine the meaning of the questions. Further evidence on informative functions of response alternatives”. Social Cognition, 6 (2): 107-117.

35

Schwarz, N. & Sudman, S. (1992) (Eds.), Context Effects in Social and Psychological Research. New York: Springer.

Schwarz, N. & Sudman, S. (1996) (Eds.), Answering Questions. Methodology for Determining Cognitive and Communicative Processes in Survey Research. San Francisco: Jossey-Bass Publishers.

Srole, L. (1956), “Social integration and certain corollaries: An exploratory study”. American Sociological Review, 21: 709-716.

Strack, F. & Martin, L. (1987) Thinking, Judging and Communicating: A Process Account of Context Effects in Attitude Surveys, in: Hippler, J.J., Schwarz, N. & Sudman, S; (eds.) Social Information Processing and Survey Methodology. New York: Springer Verlag, 123-148.

Strack, F., Martin, L; & N. Schwarz (1987), “The context paradox in attitude surveys: assimilation or contrast?”, ZUMA-Arbeitsbericht, nr. 87/07.

Sudman, S., Bradburn, N.M. & Schwarz, N. (1996), Thinking about Answers. The Application of Cognitive Processes to Survey Methodology. San Francisco: Jossey-Bass Publishers.

Tourangeau, R. & Rasinski, K.A. (1988), “Cognitive processes underlying context effects in attitude measurement”, Psychological Bulletin, 103: 299-314.

Tourangeau, R., Rasinski, K.A., Bradburn, N. & D’Andrade, R. (1989), “Carryover effects in attitude surveys”, Public Opinion Quarterly, 27: 48-75.

Tourangeau, R. (1992), “Context Effects on Responses to Attitude Questions: Attitudes as Memory Structures”. Pp. 35-48 in: Schwarz, N. & Sudman, S. (Eds.), Context Effects in Social and Psychological Research. New York: Springer.

Smith, Tom, W. (1988), “Nonattitudes: A Review and Evaluation. Pp. 215-255 in: Charles, F. Turner & Elizabeth Martin (Eds.), Surveying Subjective Phenomena. Vol. 2. New York: Russell Sage Foundation.

Swyngedouw, M. (1989), De keuze van de kiezer. Naar een verbetering van schattingen van verschuivingen en partijvoorkeur bij opeenvolgende verkiezingen en peilingen. Leuven/Rotterdam: SOI/BMG.

Swyngedouw, M., Beerten, R. & Billiet, J. (1997), Les motivations électorales en Flandre 21 mai 1995. Courrier Hebdomadaire, nr. 1557. CRISP.

Van Goor, H. (1996), “Het lijk uit de kast. Nonrespons in het Nationaal Kiezersonderzoek”, Sociologische Gids, 43: 166-170.

VRIND (1998). Vlaamse regionale indicatoren. Ministerie van de Vlaamse Gemeenschap. Administratie Planning en Statistiek.

Visscher, G. (1997), “De blinde vlek van het CBS: systematische vertekening in het opleidingsniveau. De nonrespons in de Enquête Beroepsbevolking”, Sociologische Gids, 44: 155-179.

Zaller, J. R. (1992), The nature and origins of mass opinion. Cambridge: Cambridge University Press.

Waege, H. (1997), Vertogen over de relatie tussen individu en gemeenschap. Ontwikkeling en validering van meetinstrumenten in het kader van survey-onderzoek. Leuven: Acco.

36

1 Het is hier niet de plaats om uitvoerig de regels voor het gebruik van de “geen mening” filter te

behandelen. De regels houden verband met wat men wil meten met de vragen in het kader van een onderzoek en dit kan niet binnen het bestek van deze les kan behandeld worden (zie o.m. J. Billiet e.a. 1988: 104-105).

2 Een ‘drop off’ vragenlijst is een schriftelijke vragenlijst die tijdens het mondelinge interview wordt achtergelaten met de vraag om deze na een week en binnen de veertien dagen in te vullen en op te sturen. Door het toepassen van de ‘Total Design Methode’ (Dillman, 1978) bedraagt de response rond 85%. De TDM-methode is kort beschreven in Billiet (1995: 227-230).

3 Dit is ook het geval voor de test-retest correlatie tussen de latente variabele ‘politieke aliënatie’ bij de hoger geschoolden. Deze correlatie bedraagt 0,76 daar waar de gemiddelde test-retest correlatie tussen de (geobserveerde) scores op de acht particuliere items bij de hoger geschoolden slechts 0,42 bedraagt. In dit voorbeeld waren er ongeveer 12 maanden tussen de eerste en de tweede meting.

4 Ook bij de andere uitspraken die twee keer werden voorgelegd, is er een tendens dat in de schriftelijke vragenlijst wat vaker het neutrale midden wordt gekozen, en dat dit dan vooral ten koste is van de helemaal oneens en oneens categorieën, maar dit is niet systematisch over de hele lijn het geval. Het is bijgevolg niet helemaal duidelijk wat hier gaande is.

5 Binnenkort verschijnt hierover een excellent werk van H. Kriesi met als titel “Opinion formation and change” (Cambridge University Press).

6 Recent wordt ook in experimenten aandacht besteed aan linguistieke kenmerken van vragen (De Poot, 1996).

7 16,5% van de ondervraagden beweert dat ze vóór de crisis voor de SP zouden gestemd hebben, tegenover 12,9% er na.

8 We zullen daar een beter zicht op hebben na de analyse van de 7.000 antwoorden op de vraag van de exit poll: “waarom hebt U voor die partij gestemd”?

9 Het model werd getest met behulp van LISREL_8® met een methode die geschikt is voor ordinale data (Jöreskog, 1990). De passingsmaten van het model zijn de volgende: Chi-square = 55,07; df = 32; p = 0,007; RMSEA = 0,027; p-value for test of close fit = 1.0.

10 Poststratificatie is het via weegfactoren aanpassen van de geobserveerde gezamenlijke verdeling over enkele kenmerken in de steekproef aanpassen aan de bekende gezamenlijke verdeling van deze kenmerken in de populatie. Er bestaat in de populatie een bekende gezamenlijke verdeling van sekse naar leeftijd. Via iteratief proportioneel fitten en gebruik makend van informatie in de steekproef is het soms mogelijk om daar zelfs nog een derde variabele bij te betrekken waarvan men in de populatie alleen de marginale verdeling kent, bijvoorbeeld het stemgedrag (zie: Billiet, 1993: 98-104; Swyngedouw, 1989: 131-133) of het genoten onderwijs. Dat laatste is echter bijzonder onbetrouwbaar in de bevolkingsstatistieken.

11 Voor schriftelijke enquêtes verwijzen we naar de ‘Total Design Method’ van Dillman (zie: Billiet, 1995: 227-230).