over het tentamen:

Over het tentamen:

• Voor 3 ects: – slides (ook wat is overgeslagen)– reader m.u.v. Axelrod “Dissemination of culture”

• Voor 2 ects:– Als 3 ects, maar zonder Axelrod’s “Setting standards” en

zonder Lave & March’s “Leermodellen” (en dus ook niet de slides die hierover gaan)

STI-2

LEERDOELEN

• Kennismaking met model- en theorievorming in de sociologie (of eigenlijk de sociale wetenschappen in het algemeen)

• Toepassen van model- en theorievorming op onderwerpen van eigen wetenschappelijke of maatschappelijke interesse

• Specifiek: inleiding in en kennismaking met– Speltheorie– Simulaties als methode van theorievorming– Leertheorie

Leermodellen

Leermodellen als één optie voor de modellering van het gedrag van mensen (of i.h.a.: actoren)

“a set of relatively permanent changes in behavior that result from prior experience”

Speltheorie: ‘forward looking’ models

Simulatie (op een schaakbord): ‘sideways looking’ models

Leertheorie: ‘backward looking’ models

Reader: Lave & March, hoofdstuk 6

Leermodellen: psychologie vs sociologie

Psychologie: verschillende soorten van leren, hoe gaat dat leren precies in zijn werk, etc

Pavlov (1849-1936), classical conditioning, timing van de stimulus, stimulusresponse vs stimulusstimulus, rol van genetica in stimulus-respons learning, niet alle stimuli werken bij alle responsies, etc

Thorndike (1874-1949), instrumental conditioning: - “the law of effect” (tevredenheid met de uitkomst verhoogt de kans op herhaling van het hiervoor verantwoordelijk geachte gedrag)

Skinner (1904-1990)- operante conditionering (Skinner-box)- “behaviorism”- vraag: wat zijn goede “reinforcement schemes”

Sociologie neemt minder ingewikkelde modellen over leergedrag aan: We nemen een relatief eenvoudig leermodel aan (van de Thorndike en Skinner soort), en proberen met een dergelijk model op micro-niveau, op het macro-niveau de sociale verschijnselen met behulp van sociale condities te verklaren

Close up ...

Lave & March, hoofdstuk 6: de T-doolhof

LINKS RECHTS

Geen beloningBeloning

We kijken nu wat er gebeurt bij herhaalde keuze.

“Reinforcement learning” in een T-doolhof

1. Er is een zekere beginkans dat de rat naar LINKS of RECHTS gaat

2. Rat kiest LINKS of RECHTS3. Als de rat bij aankomst een beloning vindt, dan wordt de

kans op de betreffende keuze (LINKS of RECHTS) groter.

In het boek van Lave & March:

1. PL(0) en PR(0)

2. Rat kiest LINKS of RECHTS, stel LINKS3. Stel een beloning wordt gevonden:

PL(t+1) = PL(t) + ‘increment’


LINKS gegaan, beloning gevonden:

PL(t+1) = PL(t) + increment

Vaste increment is een slechte keuze: de P is een kans en mag niet boven de 1 uitkomen.

Daarom anders:

PL(t+1) = PL(t) + a * (1 - PL(t)) met 0<a<1

de aantrekkingskracht van een optie is steeds een vast percentage (namelijk a) van de afstand van PL tot 1.

a is de leersnelheid in het geval van beloningen (learning rate)


LINKS gegaan, geen beloning gevonden (=mislukking):

PL(t+1) = PL(t) – b PL(t) met 0<b<1

de extra aantrekkingskracht van een optie is steeds een vast percentage (namelijk b) van de afstand tot 0.

b is de leersnelheid in het geval van mislukkingen (learning rate)

T-doolhof: voorbeeld

Kans op LINKS = 0,5Kans op RECHTS = 0,5

a (leersnelheid bij beloning) = 0,3b (leersnelheid bij geen beloning) = 0,2

LINKS beloning, RECHTS geen beloning

Trial Gaat naar PL(t) PR(t)

1 LINKS 0,50 + 0,30*(1-0,50)=0,650 0,3502 LINKS 0,65 + 0,30*(1-0,65)=0,755 0,2453 LINKS 0,755+0,30*(1-0,755)=0,829 0,1724 LINKS 0,880 0,1205 LINKS 0,916 0,0846 LINKS 0,941 0,0597 … … …

T-doolhof: algemeen

• Twee gedragsalternatieven• Twee mogelijke uitkomsten• Gedragskeuze op basis van geneigdheid tot de

verschillende alternatieven (zgn “propensities”)• Er is een beginvoorkeur (P(0) voor beide alternatieven)

BELONING GEEN BELONING

LINKS PL(t+1) = PL(t) + a * (1 - PL(t)) PL(t+1) = PL(t) – b PL(t)

RECHTS Idem, maar dan met PR Idem, maar dan met PR

T-doolhof

< zie “learning.xls”>

Resultaten T-doolhof

• Eén kant met beloning, andere niet gedrag convergeert naar “altijd de goeie kant”

• NB: je kunt dit natuurlijk probabilistisch maken

Als a=b enKans op beloning LINKS = LKans op beloning RECHTS = R

Limiet t PL(t)= (1-R)/(2-R-L)

Toepassing: innovativiteit (1)

• Lave & March, p. 287 (“The extinction of subjective creativity”)

• Hoe komt het dat innovativiteit relatief zeldzaam is?

• Twee alternatieven:– [1] ik doe (subjectief gezien) innovatief– [2] ik doe (subjectief gezien) conservatief

• Omgeving geeft beloningen• Vraag: in welke omgevingen ontstaat relatief veel

innovatief gedrag?

• Flauw antwoord: daar waar beloningen worden gegeven aan innovatief gedrag (of andersom: juist niet daar waar beloningen staan op conservatief gedrag)


• We voegen nu beloningen toe, die afhankelijk zijn van of een idee goed is, niet of een idee innovatief is.

• Aanname: de kans dat een subjectief gezien innovatief idee goed is, is 20%.

• Aanname: over het algemeen zijn conservatieve ideeën met grotere kans goed (in de loop van de tijd zijn de goede ideeën overgebleven), zeg 85%.

• Extra aanname: a=b, dwz de leersnelheden zijn gelijk

Dan convergeert de proportie innovatieve ideeën naar(1-R)/(2-R-L) = (1-0,85)/(2-0,85-0,2) = 21%


• Die 21% is laag, maar er worden dus nog wel innovatieve ideeën verzonnen. De vraag is: WAAR DAN?

1. Per toeval zijn er “innovatieven” met steeds goede ideeën2. De langzame leerders; zij zijn er nog niet achter dat

innovatief gedrag niet loont3. I.h.a. in omgevingen waar het verschil tussen goede en

slechte ideeën onduidelijk is

Implicaties:– Innovativiteit stimuleren is riskant, je krijgt er meer

missers door– Echte innovativiteit kan vaak pas na een leerperiode

voorkomen (voor grote innovaties heb je nu eenmaal basiskennis nodig) meer innovativiteit in beroepen waarbij de leerperiode korter is, en jongeren zijn innovatiever

In goede en slechte omstandigheden …

Vergelijk nu een BENIGN WORLD (altijd een beloning, of je nu links of rechts gaat) met een MALEVOLENT WORLD (nooit een beloning)

< zie learning.xls>

In goede en slechte omstandigheden: resultaten

• “MALEVOLENT WORLD” (geen beloningen)

geen convergentie, zowel niet op individueel niveau als op collectief niveau

• “BENIGN WORLD” (altijd beloningen)

op individueel niveau: convergentie naar LINKS én RECHTS

op collectief niveau: proportie LINKS wordt gelijk aan proportie mensen dat LINKS koos in trial 1

Toepassing: Haarkleur (1)

• Vraag: hoeveel mensen kiezen voor welke haarkleur? Achtergrond: wie loopt met de mode mee?

• 2 Gedragsalternatieven: blond en bruin• Aanname: ‘s ochtends de keus tussen die twee, dan de

hele dag zelfde kleur• Beloning: social approval (of juist niet)

( 2 x 2 = 4 gevallen)

• Geval 1: blond haar dan social approval, bruin dan niet Geleidelijk aan kiest iedereen blond

• Geval 2: mooie mensen krijgen social approval, lelijke niet

voor mooie mensen is dit een geval van BENEVOLENT WORLD je krijgt blond en bruin haar door elkaar, met een vaste haarkleur over de tijd

voor lelijke mensen is dit een geval van MALEVOLENT WORLD je krijgt sterk wisselende haarkleuren

Toepassing: Haarkleur (2)

• Gevolg:

Degenen die minder social approval krijgen, zijn degenen die meer van haarkleur wisselen

• In het algemeen:

Degenen die minder of geen ‘beloning’ krijgen, zijn degenen die meer van gedrag wisselen

VoorbeeldenBeloning Gedrag

Marktleiders vs volgers Winst ProductstrategieBouwondernemingen Gunning Wijze van bieden

Hieraan gerelateerde implicatie: als de omstandighedenverslechteren (van BENIGN naar MALEVOLENT), zullenbedrijven meer van strategie wisselen.

[cf. ‘successful executives’ / ‘personality development’ in een constante omgeving die de beloningen volledig bepaalt, toch heel verschillend gedrag]

Het Coleman schema in deze toepassingSociale condities:

Soort wereld (BENIGN of MALEVOLENT)

Wie/wat zijn de actoren? Wat zijn hun doelen en voorkeuren?

Homogene populatie individuen, ieder twee keuzes. Beloningen volgens BENIGN of MALEVOLENT.

Tot welk individueel gedrag leidt dit?

BENIGN extreme voorkeuren

MALEVOLENT juist geen extreme voorkeuren

Welke aannames zijn nodig voor je op het micro-niveau begint?

Hoe transformeren de individuele uitkomsten tot collectief gedrag?

Som van individuen

Het Coleman-bootje

Handelingstheorie: leertheorie, mensen hebben neigingen tot gedrag en passen deze neigingen aan volgens de matrix van een paar slides terug

Sociaal verschijnsel:

Neiging tot bepaald gedrag

Mogelijke uitbreidingen

• Meer alternatieven (LINKS, RECHTS, … MIDDEN?)• Leersnelheden die veranderen over de tijd• Grootte van de beloning variabel + leersnelheid

afhankelijk van grootte van beloning• Twee actoren• …

• NB Ook hier weer: een goede modeluitbreiding– Maakt het model realistischer EN …– … er is ten minste een redelijke verwachting dat de

conclusies van het model substantieel zullen veranderen na toepassing van deze uitbreiding

Over STI-2 als geheel (1)

• Onderzoeksvragen als ketens van Probleem1-Theorie-Onderzoek-Probleem2-…

• Ook bij sociale wetenschappen: maak gebruik van modellen om voorspellingen af te leidenEn dus niet: – beta-probleem rekenen– gamma-probleem wauwelen

• Die gamma-problemen zijn extra lastig:– iedereen heeft er een mening over– “wetten” zijn er veel minder– minder aanknopingspunten waar je met theorievorming

moet beginnen

• Hulpmiddel: modelmatige analyses

Over STI-2 als geheel (2)

Verschillende soorten modellen

1. [Semantische: begin met specifieke waarnemingen, en maak deze algemener]

2. Speltheoretische• Interdependent gedrag• Vooruitkijkend, sterk op rationeel gedrag gebaseerd

3. Simulatiemodellen• Vaak van nut indien wiskunde te lastig (bijvoorbeeld te veel

actoren, te veel alternatieven, te veel verschillende conflicterende doelen)

4. Van nut als actoren hun gedrag mede af laten hangen van anderen, maar op iets minder strikt rationele wijze• Leermodellen• Achteruitkijkend, sterk op ervaring van actoren gebaseerd

5. [combinaties van de voorafgaande]

Eventueel extra materiaal na deze slide

Interdependentie in leermodellen: MATING en HUNTING

• Lave and March, p. 305• Twee actoren, ieder dezelfde twee alternatieven

(“Henry and Mildred”)• Verder identiek: ze hebben allebei een bepaalde voorkeur voor

één van beide alternatieven aan het begin, en leren allebei aan de hand van het al dan niet krijgen van beloningen (eventueel met verschillende leersnelheden)

• Geval 1 “MATING”: de actoren worden beloond indien ze dezelfde keuzes maken

• Geval 2 “HUNTING”: de actoren worden beloond indien ze tegengestelde keuzes maken

• ResultatenMATING: relatief snel wordt geconvergeerd naar een gemeenschappelijke keuze (interessante implicaties zitten in de verschillen in leersnelheden: degene met de grootste leersnelheid wisselt meer van alternatief)

HUNTING: geen convergentie (oscillerend)

Interdependentie en leermodellen gemengd: “belief learning”

• Twee actoren, ieder twee alternatieven• Herhaalde keuze over de tijd• Iedere actor heeft inschattingen over de geneigdheid

van de ander om het één of het ander te doen• Actor kiest uit alternatieven op basis van verwachte

opbrengst, gegeven de inschattingen• Actor past zijn inschattingen over de ander aan, aan de

hand van vergelijkingen zoals in leermodel• Voorbeeld: herhaald Assurance Game

• [nb extra complicatie: nu weet je ook wat je gehad zou hebben als je de andere keuze had gemaakt]

Assurance G. coöperatie defectie

coöperatie 60 , 60 10 , 50

defectie 50 , 10 20 , 20

over het tentamen:

Documents