metrologia delle prove esame di stato parte 2
DESCRIPTION
Rapporto parte due sul monitoraggio esami di statoTRANSCRIPT
della terza prova potrebbe consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune spaccature in sede di votazioni sulle singole prove.
L'avere menzionato qui gli errori di misura e la soggettività dei giudizi dovrebbe ridurre il rischio di un approccio meccanicistico che affidi alla chiarezza cartesiana del numero una equità di giudizio che rimane invece responsabilità personale di ciascun commissario. E senza cadere
nei dubbi amletici dell'incertezza e della non decisione, occorre ricordare che l'esame somma tanti momenti distinti che riducono l'entità dell'errore complessivo. In particolare, il nuovo esame assume formalmente l'informazione che proviene dagli accertamenti compiuti dalla scuola durante gli ultimi anni mediante il credito scolastico e quegli accertamenti possono costituire una filigrana di sfondo per orientare i criteri di giudizio in tutte le prove.
AAll lleeggaattoo 22
I molti aspetti del Monitoraggio
di Raimondo Bolletta
I compiti assegnati dal decreto istitutivo all'Osservatorio sugli Esami di Stato (Ones) si possono riassumere in due funzioni principali
o assistere le scuole e le commissioni nella fase
di costruzione delle terze prove e
o realizzare un monitoraggio sistematico dei
risultati della riforma degli Esami di Stato.
L'Osservatorio ha inizialmente dedicato la sua attenzione alla questione della terza prova per la quale sin dall'inizio dell'anno scolastico 1998-99, si erano manifestate preoccupazioni diffuse trai docenti e idirigenti scolastici. In seguito però sono emersi altri punti nodali sui quali si è
concentrato il dibattito degli operatori della scuola. Nell’indagine fatta nel 1999 mediante un questionario postale, effettuata per conoscere le opinioni dei docenti e dei presidi, la seconda fonte di preoccupazione riguardava la conduzione del colloquio pluridisciplinare, preoccupazione più avvertita dai i presidi, probabili futuri presidenti di commissione, che dai docenti, per il loro ruolo di commissari. Nella fig.1 sono riportate le frequenze delle risposte multiple calcolate sul totale dei rispondenti; si tenga conto che ogni rispondente poteva segnalare fino a tre aspetti 'preoccupanti' all'interno della lista proposta.
Difficoltà di gestione dell'esame
0 10 20 30 40 50 60 70 80
La valutazione della seconda prova
La valutazione della prima prova
La suddivisione per aree disciplinari
La valutazione della terza prova
ll rapporto tra interni ed esterni
L'assegnazione dei punteggi
La conduzione del colloquio pluridiscip
La costruzione della terza prova
% dei rispondenti
per il presidente secondo i presidi per i commissari secondo i docenti
Anche in base a questo risultato e ai numerosissimi quesiti e messaggi elettronici pervenuti al forum dell'Osservatorio è stato deciso di sottoporre a monitoraggio anche il colloquio in considerazione della sua funzione fondamentale nell’ambito della riforma
Aspetti metodologici dell'indagine nell'ambito del monitoraggio Il piano di monitoraggio ha richiesto una lunga ed approfondita discussione sulle modalità più opportune d’ intervento; si trattava infatti di osservare, documentare e studiare un fenomeno di vastissime proporzioni e di enorme importanza culturale e sociale e quindi anche 'politica' che si
sarebbe realizzato in tempi molto rapidi, meno di un mese su tutto il territorio nazionale.
Le due esigenze 'contrastanti' da tener presente riguardavano la tempestività della restituzione dei dati ai responsabili e ai protagonisti del processo e il rigore metodologico e la profondità delle analisi condotte. i
Si è scelto di affrontare il problema operando su due fronti, quello campionario e quello censimentario, utilizzando strumenti e metodi per la raccolta dei dati sia di tipo quantitativo sia qualitativo.
Il criterio generale cui ci si è attenuti è stato quello di non creare, attraverso le azioni di monitoraggio, delle significative perturbazione al regolare svolgimento degli esami, o almeno di far in modo che le inevitabili perturbazioni indotte da una attività osservativa fossero uniformemente distribuite su tutta la popolazione non soltanto su alcune commissioni. E' evidente, ad esempio, che se solo alcune commissioni avessero dovuto comunicare all'Osservatorio gli esiti del proprio lavoro avremmo potuto avere delle distorsioni negli stessi criteri di valutazione. Per questo la raccolta degli esiti analitici ha interessato allo stesso modo tutte le commissioni e, ove si è dovuto ricorrere alla costituzione di campioni, le richieste di informazioni hanno rispettato assolutamente l'anonimato e sono state formulate dopo che le commissioni avevano deciso le valutazioni (è il caso ad esempio della raccolta del campione delle prime prove che è stata comunicata direttamente ai presidenti di commissione estratti solo dopo la pubblicazione degli esiti degli scritti e che consentiva di mascherare nelle fotocopie sia i dati nominativi sia le correzioni o e le valutazione espresse dai commissari).
Il monitoraggio del colloquio si configurava quindi come particolarmente delicato poiché la presenza di un osservatore poteva turbare sia la prestazione del candidato sia l'atteggiamento dei commissari, falsando sia la relazione comunicativa che si voleva studiare sia la stessa validità della prova. Da qui nasce la decisione di ricorrere a una metodologia che potremmo definire da 'candid camera' con lo scopo evidente di mascherare il più possibile la presenza di una osservatore estraneo alla commissione e alla classe, ricorrendo a personale specializzato nelle osservazioni di comportamenti sociali spontanei. Non si tratta di una procedura inquisitoria, come qualche organo i stampa ha recentemente qualificato l'iniziativa, di tipo ispettivo o sanzionatorio ma di una metodologia che ha cercato di essere massimamente rispettosa della delicatezza del momento che doveva essere osservato.
La procedura realizzata combina l'approccio quantitativo con quello qualitativo: l'istituto demoscopico incaricato di effettuare le rilevazioni ha restituito una serie di osservazioni fattuali condotte sulla base di una griglia concordata con il CEDE, una serie di osservazioni libere riferite
alle circostanze in essa non riconducibili e, ove è stato tecnicamente possibile, le bobine delle registrazioni dei colloqui.
La fase di rilevazione è stata realizzata dalla Doxa che ha operato in stretta sinergia con l'Osservatorio convenendo sia le procedure di campionamento sia le griglie di osservazione sia i criteri di formazione dei rilevatori-osservatori.
Al momento attuale (Febbraio 2000) sono disponibili solo i risultati di questi primi due aspetti mentre le registrazioni vocali sono in fase di trascrizione e di analisi per una lettura più approfondita dei colloqui realizzati.
Struttura della ricerca Pur consapevoli che i costi di una simile procedura non potevano consentire numerosità campionarie significative per un processo altamente variabile e poco studiato, si è comunque ritenuto opportuno procedere alla identificazione dei colloqui da osservare con un campionamento rigorosamente casuale.
Anche per ridurre le spese di viaggio dei rilevatori, sono state selezionate nel campione 15 tipologie di scuole in 101 punti di campionamento (comuni) distribuiti sul territorio proporzio-nalmente alla presenza delle scuole.
Nel dettaglio, sono state osservate prove orali dell’esame di stato nelle seguenti tipologie di scuole:
1. Liceo Scientifico
2. Liceo Classico
3. Liceo Artistico
4. Istituto d’Arte
5. Istituto Magistrale
6. Istituto Agrario
7. Istituto Tecnico Industriale
8. Istituto Tecnico per Geometri
9. Istituto Tecnico Commerciale
10. Istituto Tecnico Commerciale per Geometri
11. Istituto Professionale per i Servizi Sociali
12. Istituto Professionale per l’Artigianato
13. Istituto Professionale Commercio e Turismo
14. Istituto Professionale Servizi Alberghieri e della Ristorazione
15. Istituto Professionale Agrario e Ambientale
La ripartizione geografica delle scuole è risultata la seguente:
Nord Ovest 19,7%
Nord Est 17,8%
Centro 20,0%
Sud 28,9%
Isole 13,6%
Sono state estratte 400 scuole di cui 391 sono state effettivamente raggiunte per un totale di 799 colloqui osservati. Si noti che l'osservatore doveva assistere a soltanto due colloqui consecutivi per la stessa commissione per non insospettire eccessivamente i commissari ed evitare una eccessiva concentrazione dell'inda-gine su poche commissioni.
La griglia di osservazione è stata discussa approfonditamente e se ne è convenuta una versione che potesse essere agevolmente utilizzata da personale non necessariamente esperto dello specifico scolastico. Si è evitato quindi di pretendere dall'osservatore una valutazione della difficoltà della prova ma si è chiesto di rilevare solo gli aspetti strutturali ed esteriori che potevano essere spia di specifiche impostazioni più o meno coerenti con quanto la nuova normativa cercava di introdurre nelle prassi delle commissioni.
I punti su cui era focalizzata l'attenzione dell'Osservatorio erano centrati sullo spazio che avrebbe avuto la discussione del lavoro presentato dal candidato, l'ampiezza degli accertamento ulteriori più o meno centrati su singole discipline o su un approccio coerente-mente integrato.
La variabili direttamente rilevate possono essere così raggruppate:
o tempi del colloquio
o l’ambientazione (numero dei commissari
presenti, pubblico, tipo di aula e strumenti
presenti, ecc.)
o il comportamento dei commissari
o il comportamento degli studenti.
Le osservazioni sono state condotte da 81 osservatori opportunamente formati direttamente dall'istituto incaricato dell'indagine e si sono protratte dal primo al 16 luglio 1999. Tale intervallo temporale deriva dalla preoccupazione di ricoprire tutto il periodo in cui si sono svolte le prove orali.
Come abbiamo detto, le procedure di rilevazione hanno variamente intrecciato osservazioni 'oggettive' con giudizi che potremmo ascrivere alla soggettività dell'osservatore. Dire ad esempio che un candidato ha brillantemente
esposto la sua tesina ha una connotazione meno 'oggettiva' del notare che c'è a disposizione una lavagna luminosa o un calcolatore elettronico. D'altra parte l'essersi affidati a giudizi o impressioni di rilevatori non professionisti della scuola, se può presentare qualche rischio di pertinenza e validità sulla valutazione degli apprendimenti, risponde alla consapevolezza che l'esame di Stato è un atto pubblico in cui la Scuola si espone e si rende visibile all'esterno a un pubblico di 'incompetenti' che però hanno titolo per giudicare o criticare la validità specifica della prova e il valore delle prestazioni dei candidati.
E' proprio dalle osservazioni 'soggettive' dei rilevatori che nasce l'idea dell'approfondimento proposto da questo volume che non si concentra sugli aspetti tecnici e specifici della prova valutativa in sé ma che esplora il ricchissimo mondo delle implicazioni legate alla conduzione di una prova pubblica sulle competenze di giovani che escono da un lungo periodo di studio e di preparazione per entrare nel modo del lavoro o dello studio avanzato per la professione futura.
Una sintesi delle osservazioni La griglia predisposta per la raccolta delle osservazioni prevedeva due sezioni: la prima, dedicata alla descrizione dell’ambiente (caratteristiche dell’aula) in cui si svolge il colloquio ed una seconda di approfondimento, sull’andamento del colloquio.
Il contesto La maggior parte delle aule in cui si sono svolti i colloqui di esame sono state classificate dai rilevatori come grandi e spaziose (81,7%), prevalentemente accoglienti (66,5%) e anche silenziose (72,0%) e luminose (88,2%). Le osservazioni riguardanti la sensazione di freddezza e di non accoglienza provata entrando nelle aule di alcune scuole ( fino al 33,5%) solleva però un problema non trascurabile di qualità dell'ambiente in cui si svolge un momento formale e certamente importante per la vita dei candidati e delle stesse scuole.
Ambiente in cui si svolge il colloquio
0
100
200
300
400
500
600
700
800
ACCOGLIENTE(CALDA, FASENTIRE A
PROPRIO AGIO)
NONACCOGLIENTE
(FREDDA,METTE ADISAGIO)
RUMOROSA SILENZIOSA LUMINOSA NON LUMINOSA
Il pubblico è risultato in genere poco numeroso (non più di 10 persone) e formato prevalentemente dagli stessi studenti della classe desiderosi di studiare gli stili di approccio dei commissari esterni e acquisire esperienze e
informazioni sugli stili di conduzione dei commissari e sull’andamento dei colloqui degli amici. Nei licei scientifici e classici è stata rilevata la presenza di un pubblico più numeroso (25,5% e 26,5% rispettivamente).
Pubblico presente
FORMATO PREVALENTEMENTE DA STUDENTI (PIU' DI 50%)
82%
FORMATO PREVALENTEMENTE DA PARENTI CONOSCENTI
CURIOSI6%
FORMATO DA STUDENTI E PARENTI CONOSCENTI IN
MISURA SIMILE5%
NON INDICATO7%
Lo strumento didattico maggiormente presente all’interno delle aule è risultata la lavagna per gesso tradizionale (72,0%). Poco diffusi sono risultati strumenti come la lavagna luminosa (4,3%), il computer da tavolo (20,9%), il proiettore (6,8%) e il cavalletto con fogli di carta (2,3%).
La presenza del computer da tavolo è stata rilevata prevalentemente presso gli istituti tecnici industriali (50,0%), gli istituti tecnici per geometri (24,8%) e gli istituti professionali per il commercio e turismo (39,1%).
Strumenti per esporre
LAVAGNA (PER GESSO)63%
PROIETTORE6%
COMPUTER DA TAVOLO19%
CAVALLETTO CON FOGLI DI CARTA
2%
LAVAGNA LUMINOSA4%
LAVAGNA (PER PENNARELLI)
6%
Gli strumenti presenti in aula, e a disposizione degli studenti, sono stati utilizzati in modo piuttosto contenuto: si va da un 19,8% di studenti che hanno utilizzato il computer da tavolo (sul totale di quelli che lo avevano a disposizione) ad uno 1,9% di studenti che, avendola a disposizione, hanno utilizzato una lavagna per pennarelli. 4,7% sono risultati gli studenti che hanno utilizzato la lavagna per gesso. Insieme alla scarsa diffusione di strumenti didattici moderni si rileva dunque anche una non abitudine al loro uso nella prova di esame orale.
Il colloquio
I Commissari Una domanda, che spesso era circolata nei dibattiti che hanno preceduto gli esami, riguardava il modo in cui era possibile impostare un colloquio pluridisciplinare in un tempo necessariamente limitato che non fosse la giustapposizione di domande slegate e nozionistiche di ciascun commissario per la sua materia.
Dai dati della griglia di osservazione non è possibile rilevare la congruità dei nessi tra le varie domande e il modo in cui si evolveva nel merito il discorso dei candidati ma alcune aspetti formali possono essere assunti come indicatori della qualità dell'impostazione della prova.
Innanzitutto è stato rilevato il numero dei commissari presenti. La collegialità del colloquio era stata oggetto di dibattito per qualche mese, poiché prima della pubblicazione dell'ordinanza sugli esami, erano circolate ipotesi di conduzione per aree disciplinari proprio per permettere un più esteso ed analitico controllo su tutte le discipline. L’ordinanza ha confermato invece una conduzione completamente collegiale.
Dal campione esaminato risulta che le commissioni hanno operato al completo e che quasi tutti i commissari hanno partecipato attivamente al colloquio (6,4 commissari in media) e in 6 colloqui su 10 (60,7%) anche il presidente è intervenuto attivamente ponendo domande al candidato.
Ciascun colloquio ha avuto una durata di circa un’ora: nel 16,5% dei casi i colloqui si sono però esauriti in 40 minuti e nel 23,8% si sono invece protratti oltre i 60 minuti. Dal grafico emerge anche che nei licei la durata è stata maggiore
Durata del colloquio
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
totale licei tecnici professionali
FINO A 40 MINUTI 41-50 MINUTI 51-60 MINUTI OLTRE 60 MINUTI
DURATA MEDIA DEL COLLOQUIO
46
48
50
52
54
56
58
60
62
Totale scientifico classico istituto arte magistrale industriale commerciale professionale
DURATA MEDIA
Di questi 60 minuti, in media, circa un terzo (21 minuti) è stato dedicato alla discussione della tesina. In 6 casi su 10 (59,8%) gli osservatori hanno giudicato brillante l’esposizione dell’argomento portato dal candidato, mentre in 2 casi su 10 (20,7%) i candidati non lo avevano
preparato con cura e l’impressione è stata negativa (impressione di un “monologo impacciato”).
Alcuni candidati (5,6%) non hanno presentato alcuna tesina e in 13,9% dei casi l’osservatore Doxa non ha rilevato il dato.
Tempo dedicato all'argomento scelto dal candidato
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
totale licei tecnici professionaliFINO A 10 MINUTI 11-15 16-20 21-30 OLTRE 30 MINUTI
Il maggior numero di esposizioni brillanti, a giudizio della Doxa, è stato rilevato presso i licei: 70,8% al liceo scientifico, 67,3% al liceo classico.
In 6 colloqui su 10 (58,7%) la presentazione della tesina è stata un dialogo con più docenti mentre in 3 casi su 10 (27,7%) lo studente ha dialogato con un solo docente. In 1 caso su 10 questa informazione non è stata rilevata.
totale licei tecnici professionali
% % % %
UN MONOLOGO IMPACCIATO
165 21% 64 19% 69 22% 32 22%
UNA ESPOSIZIONE BRILLANTE
478 60% 216 63% 181 57% 81 57%
NON PRESENTATA LA TESINA
45 6% 14 4% 25 8% 6 4%
OMESSO 111 14% 47 14% 40 13% 24 17%
TOTALE 799 100% 341 100% 315 100% 143 100%
Fatto 100 il numero delle tesine presentate, 32,7 hanno riscosso, fra i commissari, un interesse elevato, mentre 58,1 un interesse medio e le restanti 9,2 un interesse scarso. Successivamente all’esposizione della tesina, al candidato sono state rivolte, in media, 15 domande: 41,9% degli studenti hanno dovuto rispondere a non più di 10 domande mentre 18.6% a più di 20 domande.
La percezione dei rilevatori è stata principalmente quella di colloqui condotti dalle commissioni in modo coerente e coordinato (73,1%): non mancano però le impressioni di colloqui condotti dalle commissioni “giustapponendo domande slegate” (21,2%)
oppure in modo distratto e poco convinto (5,7%). La lettura dei commenti liberi degli osservatori riportati sui questionari e presentati nel contributo successivo aiuta ad interpretare questi dati e ad entrare nell’atmosfera creata dai commissari all’interno dell’aula durante la conduzione delle prove.
In 4 colloqui su 10 (39,3%) le domande rivolte dai commissari ai candidati riguardano prevalentemente argomenti diversi da quello della tesina, in altrettanti (37,9%) le domande si ripartiscono equamente fra l’argomento della tesina e altri argomenti e in 2 casi su 10 (22,8%) il colloquio è stato improntato prevalentemente sull’argomento della tesina.
Interesse mostrato dalla commissione per la tesina
totale licei tecnici professionali
ALTO 243 30% 99 32% 88 28% 56 32%
MEDIO 431 54% 172 56% 167 53% 92 52%
SCARSO 68 9% 19 6% 32 10% 17 10%
NON PRESENTATA LA TESINA 45 6% 14 5% 25 8% 6 3%
NON INDICA 12 2% 3 1% 3 1% 6 3%
TOTALE 799 100% 307 100% 315 100% 177 100%
Come la commissione ha condotto il colloquio
totale licei tecnici professionali
COORDINATO E COERENTE 584 73% 229 75% 221 70% 134 76%
GIUSTAPPONENDO DOMANDE SLEGATE
169 21% 63 21% 71 23% 35 20%
IN MODO DISTRATTO E POCO CONVINTO
46 6% 15 5% 23 7% 8 5%
TOTALE 799 100% 307 100% 315 100% 177 100%
Considerando tutte le domande rivolte dai commissari al candidato in media sono state toccate 6 materie: 19,9% degli studenti hanno
risposto a domande su un massimo di 5 materie, 41,8% hanno risposto a domande su 6 materie e 38,3% a domande su più di 6 materie.
Materie coinvolte nel colloquio
totale licei tecnici professionali
3 MATERIE 10 1% 4 1% 5 2% 1 1%
4 MATERIE 46 6% 17 6% 18 6% 11 6%
5 MATERIE 103 13% 31 10% 42 13% 30 17%
6 MATERIE 334 42% 125 41% 134 43% 75 42%
PIU' DI 6 MATERIE 306 38% 130 42% 116 37% 60 34%
TOTALE 799 100% 307 100% 315 100% 177 100%
La maggior parte degli osservatori Doxa ha contato le materie coinvolte nel colloquio avendo come riferimento i diversi commissari che le ponevano (94,6%). In altre parole, ogni commissario veniva individuato come titolare di una materia. In alcuni casi il cambio della materia era annunciato dagli stessi commissari (8,3%) o dallo stesso studente (0,5%).
L'impressione che si può trarre da questi dati è che ci sia stata da parte delle commissioni un chiaro tentativo di accertare in modo diffuso la preparazione del candidato, mobilitando tutti i commissari nella conduzione del colloquio con il candidato. Poco possiamo al momento dire,
prima dell'analisi dei protocolli registrati delle conversazioni, circa il livello di integrazione tra le domande poste dai commissari e il tipo di competenze richieste ai candidati.
Le impressioni dei rilevatori sul clima instaurato durante i colloqui tra gli studenti e i commissari sono comunque piuttosto positive: 94,4% riferiscono di commissari calmi e tranquilli, 87,4% anche di commissari ben disposti nei confronti dei candidati, 70,5% di commissari attenti alle risposte e 65,5% di commissari che si sono fatti parte attiva durante i colloqui rispondendo all’esigenza di condividere prove orali basate sulla pluridisciplinarità.
La commissione era ben disposta nei confronti dei candidati
totale licei tecnici professionali
CALMI, TRANQUILLI 754 94% 288 94% 297 94% 169 95%
BEN DISPOSTI 698 87% 264 86% 273 87% 161 91%
ATTENTI ALLE RISPOSTE 563 70% 224 73% 207 66% 132 75%
PARTE ATTIVA NEL COLLOQUIO 523 65% 221 72% 185 59% 117 66%
Totale 799 100% 307 100% 315 100% 177 100%
Nel complesso, l’impressione è stata di commissari che hanno messo a proprio agio i candidati comprendendone le difficoltà emotive spesso legate a preparazioni carenti (91,9%).
Nella conduzione dei colloqui la maggior parte dei commissari (96,4%) ha fatto riferimento a testi o documenti da commentare (55,4%). L’utilizzo di testi e documenti da commentare suggerito anche dall’ordinanza è risultato particolarmente diffuso presso i licei e gli istituti d’arte.
La maggior parte dei commissari non ha fatto apprezzamenti sulle opinioni espresse dai candidati nel corso dei colloqui (73,7%), anche se in 4 casi su 10 (39,8%) vi sono stati scambi di opinioni fra candidati e commissari.
Valori leggermente più elevati si sono rilevati per gli esaminati dei licei e degli istituti d’arte.
I candidati L’immagine degli studenti fornita dai rilevatori è fortemente segnata dal problema della sicurezza con cui affrontavano la prova: 5 studenti su 10 (53,5%) si sono presentati all’esame sereni e tranquilli ma i restanti o non lo erano affatto (13,1%) o avevano un atteggiamento incerto (33,4%); ancora 5 studenti su 10 (49,8%) si sono dimostrati disinvolti e sicuri (hanno parlato con sicurezza) mentre gli altri hanno mostrato momenti di incertezza; 4 studenti su 10 sono stati giudicati molto preparati (hanno cioè risposto a tutte le domande loro rivolte con sicurezza) (39,3%) mentre, viceversa, 6 su 10 hanno incontrato difficoltà.
Sicurezza del candidato
totale licei tecnici professionali
SERENO, TRANQUILLO 427 53% 176 57% 161 51% 90 51%
DISINVOLTO, SICURO DI SE' 398 50% 172 56% 146 46% 80 45%
MOLTO PREPARATO 314 39% 148 48% 107 34% 59 33%
TOTALE 799 100% 307 100% 315 100% 177 100%
Le incertezze dei candidati sono emerse secondo le modalità riportate nella seguente tabella.
Gli studenti dei licei classici e scientifici si sono rilevati i più sicuri e preparati mentre quelli degli istituti tecnici commerciali e degli istituti professionali sono stati più incerti
arrossire 12,8%
sudare in modo vistoso, eccessivo 5,3%
fare lunghe pause prima di rispondere
14,8%
fare molte pause durante le risposte 13,6%
parlare in modo poco fluente 16,1%
.
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
totale licei tecnici professionali totale licei tecnici professionali
SI' NO
il candidato si sentiva a proprio agio? il candidato appariva preparato?
L’impressione di essere preparati su tutte le materie sono riusciti a darla 4 studenti su 10 (37,4%), mentre per i restanti 6 (62,6%) sono risultate evidenti alcune incertezze su alcune materie.
Considerando il campione complessivo degli studenti osservati, le incertezze maggiori si sono rilevate per le seguenti materie:
materie in cui emergono maggiormente le incertezze
matematica / geometria 18,9%
italiano 18,4%
storia 12,0%
inglese 6,1%
fisica 6,0%
diritto 6,0%
filosofia 5,6%
letteratura italiana 4,3%
In quasi 3 casi su 10 (27,5%) al termine del colloquio i commissari hanno affrontato con gli esaminandi anche il tema della scelta universitaria. Con i candidati dei licei, questa percentuale è risultata leggermente superiore: 34,3% con gli esaminandi del liceo scientifico e 43,9% con gli esaminandi del liceo classico. (Dom. 27)
In un caso su 2 (59,5%), gli studenti hanno anche dichiarato di aver già deciso la facoltà a cui iscriversi. Fra queste le facoltà preferite sono risultate:
corsi universitari previsti
giurisprudenza 13,7%
economia e commercio 11,4%
psicologia 7,6%
informatica 5,3%
lettere moderne 4,6%
medicina 4,6%
Il campione osservato Gli studenti osservati durante il colloquio sono
risultati metà maschi e metà femmine (48,8% e
51,2%). Mediamente le classi degli esaminandi
erano formate da 20 studenti: nel 13% dei casi le
classi erano composte da non più di 15 studenti, nel
31% le classi avevano fra 16 e 20 studenti, nel 29%
avevano fra 21 e 25 studenti e 15% avevano oltre
25 studenti. In 12% la numerosità non è stata
indicata.
Il voto medio di ammissione alla prova orale è
risultato 38. A questo proposito ricordiamo che
18% non aveva superato il punteggio di 30 e 13%
aveva invece ottenuto più di 50.
Conclusioni della DOXA Citiamo il testo delle conclusioni del rapporto Doxa
assunto qui come un punto di vista indipendente,
esterno alla scuola e alle sue problematiche
specifiche.
Innanzitutto l’ambiente: gli esami si sono svolti in
aule poco affollate, prevalentemente grandi e
relativamente accoglienti ma con pochi strumenti
didattici a disposizione degli studenti. Insegnanti e
allievi non sono risultati avvezzi al loro uso non
avendoli a disposizione nel quotidiano.
Fa specie la bassissima presenza di computer nelle
scuole, quando altre indagini mostrano la crescita
continua della presenza di computer nelle
abitazioni delle famiglie italiane.
I commissari: si tratta di insegnanti che hanno
prevalentemente cercato di mettere a loro agio i
candidati, consci della difficoltà emotiva che essi
stavano affrontando. Poche sono risultate le
citazioni riguardanti commissari incuranti dello
stato emotivo degli esaminandi. Sostegni ed
incoraggiamenti sono stati anche rilevati durante le
prove orali per quanto riguardava la preparazione
vera e propria. La tendenza dei commissari è
stata quella di presenziare e partecipare
attivamente ai colloqui con gli studenti anche se si
sono rilevati casi di distrazione o di
parcellizzazione della prova orale.
Gli studenti: come sempre i più preparati
emergono e i non preparati soccombono alla loro
mancanza di studio o alla loro fragilità emotiva.
Dalle osservazioni rilevate nel corso della ricerca
gli studenti hanno qualche pecca in più rispetto ai
commissari.
Solo il confronto del numero dei promossi e delle
votazioni, per quanto possibile, con quelle degli
anni precedenti potrà dire se gli studenti di
quest’anno erano più o meno preparati.
Certo è che i voti di accesso alle prove orali non
erano molto elevati e difficilmente risulterà alto il
numero di coloro i quali hanno ottenuto il
massimo dei voti.
Non affrontiamo in questo ambito la questione
posta in chiusura dal commento della Doxa. Altri
rapporti e risultanze diffuse dell'Osservatorio
affrontano la questione degli esiti ed in particolare il
ruolo giocato dalla prova orale rispetto alle altre
prove di esame.
Ci preme sottolineare qui che l'immagine che si
ricava da questi dati è sicuramente migliore di alcuni
pregiudizi e di alcuni luoghi comuni diffusi prima e
dopo gli esami proprio sul colloquio ma
sottolineano la presenza di un significativo numero
di casi in cui permangono problemi di qualità
complessiva dell'ambiente fisico, del clima dei
rapporti, dell'atteggiamento dei commissari e dei
candidati ed infine della preparazione così
evidentemente lacunosa di alcuni candidati.
Si tratta di un complesso di evidenze contrastanti
che al di la delle percentuali un po' fredde delle
tabelle di questo contributo prendono corpo, colore
e vivezza nelle osservazioni libere raccolte dagli
osservatori. Da questo spaccato vivo e
contraddittorio, ricco di potenzialità ma anche di
problemi e di manchevolezze nasce l'idea di una
riflessione sullo stile degli esami e della scuola come
un prodotto di un monitoraggio che restituisce al
sistema non solo le informazioni che ha raccolto
ma anche strumenti interpretativi dei risultati e
strumenti di intervento per il miglioramento.
AAll lleeggaattoo 33
L'assegnazione dei punteggi. Una riflessione che pr osegue
Raimondo Bolletta
Premessa Nel progettare il PTP2000 abbiamo, tra le altre cose, messo in conto l’esigenza di dare continuità alle
riflessioni che introducevano il PTP1999, anche per rispondere alle …questioni emerse in relazione agli
aspetti sui quali ci eravamo soffermati presentando il volume. Sull’assegnazione dei punteggi abbiamo
raccolto molti interventi, a volte critici, a volte positivamente schierati su una posizione che molti ci
chiedono di diffondere. Ma quando si finisce un lavoro impegnativo ci assale un senso di stanchezza, per
cui anche un piccolo passo aggiuntivo ci sembra impossibile, unito all'entusiasmo per aver conquistato un
traguardo difficile. La stanchezza ci porterebbe a far generico riferimento a quanto già pubblicato,
l’entusiasmo ci porta a lavorarci ancora per chiarire meglio, per arricchire e completare l’intervento dello
scorso anno anche sulla base dei risultati del monitoraggio. Ne è nata una riscrittura parziale del contributo
dello scorso anno che si spera possa essere una ‘riflessione che prosegue’ e che in parte si allarga dalla terza
prova ad altri aspetti degli esami.
L’accertamento, sommare i punteggi Il nuovo esame di stato si caratterizza, tra l’altro, per l'uso diffuso e sistematico nelle varie prove scritte e
orali di scale numeriche la cui somma si traduce automaticamente in esito finale.
Il legislatore ha introdotto una nuova gamma per il punteggio finale stabilendo la sufficienza in 60 punti e il
massimo in 100 e l'ha ripartita in quote diverse sulle varie prove.
Le tabelle seguenti mettono in evidenza in quale misura la nuova normativa stimoli i commissari ad una
forte revisione delle modalità di assegnazione dei punteggi costringendoli ad operare su scale che hanno
una gamma diversa e una soglia di sufficienza che non corrisponde al tradizionale 6. I voti scolastici, che i
docenti sono abituati ad assegnare, sono messi in discussione anche dal punteggio del credito scolastico,
che consentirebbe di attribuire il massimo solo ai rarissimi casi di studenti che hanno ottenuto una media
dei voti compresa tra 8 e 10.
Credito scolastico
Media voti a.s. 1998-1999 a.s. 1999-2000
minimo massimo minimo massimo
M=6 4 6 4 5
6<M<=7 6 8 5 6
7<M<=8 8 10 6 7
8<M<=10 10 12 7 8
Sufficienza Massimo
Credito scolastico 8 20
Prima prova scritta 10 15
Seconda prova scritta 10 15
Terza prova scritta 10 15
Orale 22 35
Bonus 5*
Punteggio finale 60 100
* la concessione del bonus non può far superare 100
La terza prova scritta, proprio per il suo carattere più strutturato, si presta in misura maggiore delle altre ad
attivare procedure di valutazione 'oggettive'; su tali procedure i membri della commissione possono
convergere più facilmente e trovare un accordo più forte che sulle procedure di valutazione delle altre
prove.
Anche nel PTP2000 si conferma la scelta di non fissare criteri vincolanti di valutazione delle prove, ma di
fornire solo elementi informativi utili alle commissioni, che saranno libere di modificare, adattare e
integrare il materiale offerto e di dare degli elaborati degli studenti le letture e le valutazioni che più
riterranno opportune. Ciò anche in ossequio allo spirito del nuovo esame, che intende tenere in debito
conto il curricolo effettivamente svolto nelle singole classi e conseguentemente i livelli effettivamente
raggiunti in rapporto a quelli fissati dal consiglio di classe.
Le chiavi di correzione e i criteri di adeguatezza sono stati predisposti con modalità più omogenee rispetto
al primo volume e crediamo di aver fornito un corredo informativo sufficiente per operare in modo
affidabile, rispettoso dell’autonomia valutativa della commissione.
La questione delle soglie di sufficienza, che nei punteggi dell’esame non corrispondono al 6, (6 sta a 10
come 9 sta a 15 ma 9 non è la sufficienza!), ha costretto, già lo scorso anno, ad adottare varie procedura per
far condividere ai membri della commissione una comune modalità di assegnazione dei punteggi grezzi. La
questione non ha riguardato solamente la terza prova, che anzi si prestava più delle altre ad essere trattata
con punteggi sommabili, ma soprattutto la prima prova scritta e la prova orale, nelle quali tradizionalmente
si procede con un approccio globale, difficilmente descrivibile con una procedura standard che non
dipenda dall’intuizione e dal giudizio del correttore.
Molte commissioni hanno affrontato questa difficoltà mediante l’adozione di griglie di valutazione
convenute a priori che consentivano di apprezzare la prova, scritta o orale, del candidato, attraverso una
pluralità di aspetti analitici. Per ciascuno di tali aspetti venivano quindi formulati dei descrittori, che ne
rendevano operativa l'identificazione, e dei livelli soglia dei punteggi analitici, degli indicatori della
prestazione, che consentivano un'assegnazione del punteggio pressoché automatica da parte della
commissione. Una ricca casistica di tali griglie di valutazione per la terza prova è presente nell’Archivio delle
Terze Prove, ATP2000, già distribuito su CD-rom alle scuole secondarie superiori.
L’uso delle griglie costituisce certamente un valido approccio al problema dell’assegnazione dei punteggi,
ma non è immune da rischi evidenti:
i descrittori potrebbero non essere sufficientemente chiari ed operativi, per cui potrebbe esserci anche una
forte divergenza di opinioni tra commissari diversi che valutano la stessa prestazione;
se i descrittori sono troppo generici e globali potrebbero in realtà correlare troppo con il medesimo aspetto
della prestazione del candidato, per cui si assegnano ripetutamente punteggi parziali allo stesso aspetto,
i pesi assegnati, sotto forma di punteggi parziali con gamme diverse a seconda dell’importanza dell’aspetto
valutato costituiscono già un forte presupposto per orientare l’esito finale in relazione a un criterio a priori
dei commissari.
In sostanza anche le griglie potrebbero prestarsi a una certa confusione tra il momento dell’accertamento, o
della misura, e quello della valutazione e dell’applicazione di un criterio, che costituisce uno dei rischi di una
procedura d’esame che vorrebbe essere, nelle intenzioni del legislatore, più oggettiva e più giusta.
Questo problema è apparso più evidente in una strategia, suggerita come una scorciatoia per semplificare la
questione dell’assegnazione dei punteggi: valutare la singola prova con un livello qualitativo già utilizzato
nei giudizi dei vecchi esami di maturità, livelli sui quali i commissari avevano maggiore dimestichezza, e
convenire nella commissione una corrispondenza tra tali livelli e bande di punteggi. In questo modo un
aggettivo come buono o discreto , che non fa parte del lessico formale del nuovo esame, si trasformava in un
punteggio numerico. Questa procedura, anche se facilmente attuabile, stravolge e ribalta il senso dell’uso
dei punteggi come momento di accertamento ‘oggettivo’ rispetto a quello eminentemente valutativo.
Le difficoltà sin qui segnalate emergono chiaramente in alcuni risultati del monitoraggio degli esiti.
L’adozione di bande di oscillazione rigide, per discretizzare su pochi livelli una scala che può assumere una
estesa gamma di valori, può determinare degli ‘aggiustamenti’ che nelle fase di accertamento non sono
opportuni.
Ad esempio la distribuzione del grafico n.1 mostra come l’esistenza delle bande di oscillazione rigida, entro
cui i consigli di classe possono assegnare eventualmente qualche punto aggiuntivo, ha indotto nel primo
anno di attuazione degli esami degli aggiustamenti nei voti del secondo quadrimestre. E’ evidente dalla
figura che le medie vicine al valore soglia per accedere alla banda successiva sono meno frequenti e ciò
determina un profilo della distribuzione a denti di sega. Arrotondamenti di pochi decimi per raggiungere la
banda successiva nei casi meritevoli non sono un grave problema, ma possono indurre la sensazione che si
abbia a che fare con dati inaffidabili, modificabili a piacimento, in relazione alle varie convenienze.
Distribuzione delle medie dei voti. Campione nazion ale di 7563 casi
0
50
100
150
200
250
300
350
400
<4 4,1
4,3
4,5
4,7
4,9
5,1
5,3
5,5
5,7
5,9
6,1
6,3
6,5
6,7
6,9
7,1
7,3
7,5
7,7
7,9
8,1
8,3
8,5
8,7
8,9
9,1
9,3
9,5
9,7
9,9
Grafico1 Distribuzione della media dei voti scolastici assegnati
Forse uno stesso meccanismo di aggiustamento verso la sufficienza è intervenuto nella valutazione della
prima prova scritta, in cui il valore modale in 10 fa pensare che l’indisponibilità di griglie affidabili e di
procedure di assegnazione del punteggio di tipo ‘globale’ abbiano consentito di dichiarare accettabili degli
esiti probabilmente non tali per gli esaminatori.
Andamenti delle tre prove scritte
0
10000
20000
30000
40000
50000
60000
70000
80000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
prima prova seconda prova terza prova
Grafico 2 i tre grafici delle tre prove
Nonostante ciò la distribuzione della somma dei punteggi delle prove scritte e del credito scolastico ha un
andamento ‘regolare’ più simile a quello vero, a quello che necessariamente dovrebbe essere, data la
numerosità della popolazione esaminata e la complessità delle competenze accertate, e cioè una classica
distribuzione normale. Non sorprende affatto che sommando quattro misure, seppure affette singolarmente
di errori ed aggiustamenti, si ottenga una nuova misura che complessivamente appare più affidabile e
regolare; ciò corrisponde a quanto si fa nelle scienze sperimentali, in cui per ridurre gli errori di misura si
ripetono le misure. Una condizione perché ciò avvenga è però che le misure siano tra loro indipendenti, che
cioè gli errori in una misura non influenzino quelli delle altre; in altri termini se in una prova un candidato è
stato casualmente (o intenzionalmente) favorito o sfavorito ciò non deve ripetersi nello stesso senso nelle
altre prove, in cui invece gli errori di misura dovranno continuare ad essere casuali.
Distribuzione dei punteggi alla fine delle prove sc ritte
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64
Fig.3 Distribuzione del punteggio alla fine delle prove scritte
La distribuzione del punteggio finale denota viceversa un cambiamento radicale introdotto evidentemente
dal punteggio assegnato nella prova orale. Ritorna il picco in corrispondenza al sessanta, cioè alla soglia
minima per poter passare l'esame e sul punteggio massimo. Non possiamo qui affrontare nel merito la
questione spinosa di un così alto addensamento di casi sulla soglia di accettabilità ma ci limitiamo a
segnalare una questione puramente tecnica: la non indipendenza dell'ultima 'misura' rispetto alle precedenti.
L'esito dell'orale è condizionato dagli esiti degli scritti e la ricca gamma di punti disponibili per tale prova
serve a compensare o a integrare il resto delle prove per ottenere un punteggio finale che sostanzialmente è
il risultato di un giudizio globale e non la somma di misure indipendenti.
Distribuzione del voto finale11 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 91 94 97 10
Assegnazione dei punteggi-voto In realtà, ciò che con una voluta ambiguità abbiamo genericamente sinora chiamato punteggi, punteggi
grezzi, voti, sono delle scale che dovrebbero scaturire da una misura, ma che devono essere ‘votate’ dalla
commissione, sono punteggi votati, punteggi-voto. Il nostro tentativo qui è di enfatizzare ulteriormente la
distinzione dei queste due fasi (l’accertamento e la valutazione) e riflettere sulla gestione del passaggio dalla
prima alla seconda fase, dal punteggio grezzo al punteggio voto.
Come è noto, quest’anno la norma consente di costruire terze prove con non più di 30 quesiti. Ciò
consente, anzi ciò induce, l’uso di punteggi grezzi, cioè di punteggi non ancora votati e pubblicati come
esiti, con una gamma più estesa dei 15 punti assegnabili. La commissione può così tenere più chiara la
distinzione tra il momento della raccolta dei dati (ovvero della 'misura' dei livelli di conoscenza o di
competenza dei candidati) da quello della formulazione del giudizio cioè dell'interpretazione del significato
del dato raccolto rispetto ad un criterio di valore, a priori o a posteriori.
La stessa questione si pone, forse in termini più complicati e difficili, anche per le altre prove scritte, in cui
nella fase di correzione della prova, se non si dispone di griglie di correzione condivise dalla commissione,
si potrebbe comunque prescindere dall'uso della scala in quindicesimi per costruire piuttosto un
ordinamento delle prove per livelli di qualità, identificando degli insiemi di prove più o meno equivalenti cui
assegnare a posteriori i punteggi in quindicesimi. Se si dispone invece di griglie di correzione è consigliabile
costruire una scala disancorata dai quindicesimi. Abbiamo potuto constatare che molte commissioni hanno
penato molto a distribuire frazioni di punto alle molteplici dimensioni individuate: non solo è più semplice
e pratico ragionare con punteggi complessivi con dinamiche più ampie ma è anche più corretto. Siamo certi
a priori che sommando le varie sufficienze individuate in ciascun aspetto rilevato si ottenga il fatidico 10 da
assegnare alla sufficienza complessiva? Chi ha provato a far ciò, ad esempio con una griglia di valutazione
di una prova di italiano si sarà trovato in qualche imbarazzo a giustificare le sue scelte e a gestire a posteriori i
risultati, a meno che non abbia preventivamente validato lo strumento sul campo.
Ma torniamo a ragionare sulla terza prova, usandola però come una metafora delle altre nella misura in cui
si sia riusciti a valutarli in modo analitico.
Criteri di valutazione a priori
Se abbiamo deciso di lavorare con un punteggio grezzo diverso dalla scala in quindicesimi nella fase di
assegnazione del punteggio votato dovremo operare una traduzione. Quale punteggio grezzo corrisponde al
punteggio soglia della sufficienza?
E' evidente che tale valore soglia dipende della difficoltà dei quesiti posti: se questi fossero molto difficili,
anche i candidati più bravi otterrebbero un punteggio basso, così come sarebbe possibile assegnare
punteggi alti se le domande poste fossero molto facili. La commissione, nella misura in cui riassume una
consolidata esperienza didattica, potrebbe essere in grado di apprezzare preventivamente la difficoltà dei
quesiti e, quindi, potrebbe prevedere quale soglia dei punteggi dovrebbe essere raggiunta da coloro che
hanno una preparazione sufficiente. La commissione potrebbe cioè stabilire a priori il livello di punteggio-
grezzo atteso che corrisponda alla sufficienza e stabilire quindi a priori le fasce di punteggi-grezzi comprese
nei punteggi-voto assegnati nella prova. Per le prove ministeriali l’identificazione di tali livelli soglia
sarebbero auspicabili ma, onestamente, occorre ammettere che per prove complesse la cosa non è affatto
facile e rischia anche di essere poco affidabile.
Questa procedura, che fissa il criterio a priori, suppone una forte omogeneità tra i membri della
commissione sia nelle esperienze didattiche effettuate, sia nei criteri di valore cui ciascuno fa implicitamente
riferimento. E' un assunto forte se si considera che la commissione proviene da istituti scolastici diversi, che
la parte esterna non conosce già la classe e che ogni commissario rappresenta una disciplina diversa. Un
aiuto forte potrebbe venire dal documento del consiglio di classe che dovrebbe fornire elementi operativi
per individuare i livelli di sufficienza perseguiti dalla classe.
Criteri a posteriori
Un'altra modalità di trasformazione da punteggi-grezzi a punteggi-voto si basa sui risultati accertati e
possiamo definirla a posteriori. Se non vi è un affidabile accordo sulla distribuzione dei punteggi-grezzi attesi,
si può attendere di conoscere la distribuzione effettivamente ottenuta dalla classe esaminata e ricavarne
empiricamente i valori soglia per stabilire le corrispondenze tra le due scale, quella dei punteggi grezzi e
quella dei punteggi-voto. La commissione potrà decidere il punteggio grezzo che corrisponde alla
sufficienza (10) e stabilire, sempre che sia stato effettivamente riscontrato, quale punteggio-grezzo
corrisponde al massimo (15) assegnando in conseguenza i voti intermedi. Nel programma elettronico
denominato Conchiglia 2000, distribuito dall'Osservatorio ad uso delle commissioni, è disponibile anche
quest’anno una funzione che permette di eseguire rapidamente proprio questo tipo di conversioni. Non si
tratta dell’unica procedura automatica utilizzabile per questa conversione dei dati. Molte altre sono possibili
e sono state variamente suggerite nelle reti dell'aggiornamento. Le possiamo classificare però in due
famiglie:
le procedure che determinano automaticamente i livelli soglia in base alle caratteristiche della distribuzione,
le procedure che consentono la conversione tra le due scale utilizzando i livelli soglia come valori in
ingresso, decisi dalla commissione.
La procedura di Conchiglia è del secondo tipo poiché parte da una decisione (a priori o a posteriori, è
indifferente) adottata dalla commissione ed effettua solamente dei calcoli in modo strumentale.
Le procedure previste per l'assegnazione dei punteggi-voto, cioè le 'votazioni' che coinvolgono tutta la
commissione, sono perfettamente compatibili con questi ragionamenti che, se ben gestiti, potrebbero
condurre la commissione a formulare proposte di punteggio-voto uniche e pervenire quindi a
determinazioni all'unanimità, almeno sulla terza prova scritta. Non solo Conchiglia ma anche un comune
foglio elettronico consente di effettuare semplici, o più complesse, elaborazioni dei dati grezzi ad uso di una
votazione più consapevole e documentata.
Assegnazione dei punteggi-grezzi Torniamo ora al problema fondamentale, alla fase della costruzione della terza prova, ed esaminiamo il caso
di prove costruite secondo il modello proposto dal Cede con uno o più testi di riferimento o quelle
cosiddette miste. In questo caso tutte le forme previste dalla legge per i quesiti sono consentite e occorre
decidere una opportuna distribuzione di punteggi da assegnare alle diverse domande che potranno essere di
vario tipo per formato, complessità e difficoltà.
Con quali criteri possiamo decidere di assegnare pesi diversi alle varie domande? Possiamo procedere in
diversi modi:
spesso si fa riferimento al livello di difficoltà. Si pensa che sia giusto riconoscere più punti alle domande che
ci sembrano più difficili rispetto alle altre. In effetti questo criterio potrebbe non essere opportuno o
necessario poiché quei pochi candidati che sanno rispondere a domande molto più difficili delle altre sanno
rispondere anche alle domande più facili e quindi si troveranno comunque positivamente discriminati dalla
prova complessiva;
possiamo differenziare i punteggi in base al tempo richiesto per rispondere ovvero alla complessità della
prestazione implicata dalla domanda. Sembra ovvio che una domanda aperta, che chiede la redazione di
cinque o dieci righe di testo, debba avere un punteggio maggiore di quello di una domanda chiusa in cui si
tratta di scegliere una risposta già formulata. Questo criterio può non concordare con il precedente poiché
un quesito chiuso può essere molto più difficile di una domanda aperta, ma il tempo richiesto al candidato
da un quesito chiuso è certamente minore di quello richiesto da una domanda aperta;
altri esaminatori potrebbero invece tener conto della complessità delle prestazioni accertate rispetto ad una
qualche tassonomia di riferimento. Si dà peso alla gerarchia che pone più in basso il semplice ricordo di fatti
singoli e di conoscenze slegate e più in alto l'applicazione alla soluzione di problemi o la formulazione di
giudizi, ciò anche in considerazione del fatto che i livelli più alti e complessi implicano il possesso dei livelli
più bassi. Anche questo criterio può essere meno ovvio di come appare, poiché i processi utilizzati per
rispondere al nostro quesito possono essere di natura diversa a seconda della preparazione del candidato,
per alcuni solo una risposta mnemonica e per altri un complesso ragionamento che tiene conto di tanti fatti
diversi;
un altro criterio può riferirsi invece alla gerarchia degli obiettivi fissati dal curricolo svolto. Dalla
documentazione del consiglio di classe dovrebbe apparire il diverso grado di importanza delle varie
conoscenze e competenze perseguite durante il corso. Se nel formulare i quesiti della terza prova saremo in
grado di dire quali aspetti di tale profilo sono saggiati, potremo anche premiare con pesi diversi le
prestazioni che hanno più importanza nel progetto educativo di quel consiglio di classe; la stessa domanda
potrebbe avere quindi pesi diversi se proposta a indirizzi di studio diversi;
si può ragionare come nel punto 4, ma facendo riferimento al curricolo formale e al profilo del candidato
teoricamente atteso dalla commissione.
Questa elencazione di possibilità, probabilmente non esaustiva, sottolinea la difficoltà del compito della
commissione: in pratica il criterio effettivo sarà un miscuglio dei cinque illustrati con una chiara
accentuazione dell'importanza del quarto criterio che centra l'attenzione sul progetto educativo realizzato
nella classe esaminata. In particolare il bilanciamento tra il quarto e il quinto potrebbero impegnare molto la
commissione, che deve conciliare due esigenze apparentemente opposte: tener conto del curricolo effettivo
della classe riferendo le valutazioni agli obiettivi fissati nell'istituto, e contemporaneamente assegnare un
punteggio finale spendibile in un vasto mercato del lavoro, in cui sarebbe giusta una certa confrontabilità
degli esiti.
Elementi di adeguatezza
Se il punteggio assegnato ad un singolo quesito ha una gamma sufficientemente vasta, ad esempio cinque
punti, sarà possibile attribuire tutti i valori della scala, e non solo lo 0 o il 5, per cui sarà opportuno
concordare preventivamente la modalità di attribuzione dei singoli punteggi. In questo volume si fa spesso
riferimento agli elementi di adeguatezza: con il termine adeguatezza si è evitato di evocare il termine sufficienza,
che si riteneva non dovesse essere veicolato dal volume, e che assumerebbe un valore puntuale di soglia
rigida traducibile in un valore dicotomico 0/1. Il termine suggerisce piuttosto una graduazione, determinata
proprio dalla presenza di un insieme di elementi che si possono contare. Se ad esempio nella formulazione di
una domanda aperta si chiedono le ragioni dell'entrata in guerra della nazione x nell'anno y e la storiografia
corrente ne elenca 5, potremo giudicare il grado di adeguatezza attraverso il numero delle ragioni corrette
addotte dal candidato e assegnare così l'intera gamma dei punteggi previsti. La questione è molto meno
banale di quanto possa sembrare da questo esempio ed implica la capacità di prevedere le varie tipologie di
risposta alla domanda: l'ideale sarebbe riuscire ad identificare in modo chiaro tutti gli elementi che
concorrono all'adeguatezza della risposta e per ciascuno di essi la qualità attesa. Qualsiasi membro della
commissione o qualsiasi altro docente della stessa materia dovrebbe poter procedere all'assegnazione dei
punteggi-grezzi in modo affidabile; cioè in modo tale che due correttori indipendenti diano allo stesso
elaborato lo stesso punteggio. Tale identificazione potrebbe essere realizzata elencando gli elementi
informativi attesi, come nell'esempio precedente, o descrivendo operativamente gli aspetti che concorrono
a definire la qualità della risposta (ad esempio in una risposta resa in lingua 2, il candidato potrebbe dare
una risposta errata nel merito ma impeccabile dal punto di vista linguistico, per cui sarà bene distinguere
questi due aspetti) o infine redigendo preventivamente delle tipologie di risposta che potranno essere usate
nella correzione come criterio ovvero come esempi di riferimento per identificare i livelli di adeguatezza
della risposta.
Oggettività e soggettività
Le considerazioni sin qui sviluppate ripropongono più in generale la difficile questione del rapporto tra
accertamento e valutazione. Riproponiamo alcune riflessioni generali di metodo già illustrate nel primo
volume, ma la cui importanza è per noi centrale. La terza prova è nata, nelle prime proposte di molti anni
fa, come una prova oggettiva che doveva essere diffusa dal Ministero per rendere confrontabili gli esiti della
vecchia maturità. La proposta nasceva alla fine degli anni '80 da evidenze sperimentali che mostravano una
bassissima correlazione tra i voti della vecchia maturità e gli esiti di prove oggettive di profitto
somministrate su campioni rappresentativi a livello nazionale. Pur essendo diventata una prova del tutto
'locale', la terza prova mantiene caratteristiche tali da prestarsi meglio delle altre ad una lettura 'oggettiva' dei
risultati. Per come è concepita, la terza prova promette di essere più valida delle prime due, in quanto la
commissione può e deve adattarla al curricolo effettivo della classe e quindi può scegliere quesiti più validi
cioè più capaci di misurare quello che gli esaminatori vorrebbero misurare.
Questa caratteristica della terza prova è già emersa nel primo anno di attuazione dei nuovi esami, come
emerge dal grafico seguente, in cui come è stato osservato nel volume STP2000, ‘se compariamo i punteggi
standardizzati attribuiti in tutte le prove e nel credito scolastico rispetto ai vari ordine di studio, notiamo
che le due prove scritte, la seconda e la terza hanno un andamento sostanzialmente indipendente dal tipo di
scuola. Queste prove infatti misurano la competenza rispetto alle finalità proprie dell’indirizzo e sono
capaci di far emergere prestazioni specifiche anche eccellenti in tutti gli indirizzi'.
Medie punteggi standardizzati rispetto ai tipi di s cuole
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
Sperimentale Licei Professionali Tecnici
credito scolastico prima prova seconda prova terza prova colloquio votofinale
Figura 5 Medie punteggi standardizzati rispetto ai tipi di scuole
A regime, la terza prova promette anche di essere più attendibile: infatti, con un adeguato numero di quesiti,
è possibile costruire scale abbastanza estese, in grado di effettuare una buona discriminazione tra i
candidati. Come è noto, l'attendibilità o affidabilità di una prova consiste nella sua capacità di misurare una
certa prestazione con adeguata precisione, cioè con un errore di misura non troppo grande. Come
esaminatori dobbiamo sempre ricordare che in qualsiasi misura il valore trovato è la somma del valore vero
e di un errore, cioè di un valore di disturbo casuale e quindi ineliminabile. Ciò anche in fisica! Nell'ambito
degli apprendimenti non potremmo parlare in senso stretto di misura in quanto non disponiamo di unità
campione e di uno zero: le misure che otteniamo sono solo scale numeriche che al più consentono di
stabilire graduatorie, ordinamenti tanto più attendibili quanto meno affetti da errori di misura. L'attendibilità
di una prova dipende dal numero dei quesiti (aumenta con l'aumentare dei quesiti come se ripetessimo le
misure) e dalla sua omogeneità (se il punteggio complessivo somma le misure di aspetti troppo eterogenei e
incoerenti, l'errore di misura rimane alto). L'omogeneità interna della prova è una caratteristica che dipende
direttamente dal lavoro preparatorio del consiglio di classe e dalla qualità della documentazione fornita alla
commissione e infine dal lavoro della commissione. Nonostante sia necessario saggiare competenze
afferenti a più discipline, occorrerebbe scegliere quesiti che si riferiscano a competenze trasversali,
sufficientemente integrate tra loro nella preparazione dei candidati. In questo caso l'integrazione tra le
discipline non va tanto ricercata a livello epistemologico tra le discipline quanto all'interno del lavoro
didattico realmente sviluppato nelle classi per vedere se e in che misura tale lavoro ha prodotto prestazioni
coerentemente integrate. La facile soluzione di assegnare solo delle domande aperte lasciate alla scelta
indipendente di quattro commissari si può rivelare debole anche dal punto di vista metrologico, in quanto
tale formato fornisce misure scarsamente attendibili se non si dispone di griglie realmente affidabili mentre
il formato misto o quello proposto in questo volume consentono, se realmente coerenti con l'attività svolta
nella classe esaminata, di migliorare l'attendibilità stessa della prova. Inoltre, potendo inserire domande di
diverso formato, è possibile, come abbiamo suggerito nelle riflessioni iniziali, utilizzare delle scale con una
gamma di valori abbastanza estesa e selettiva.
E' infine utile ricordare che l'oggettività cui si fa qui riferimento non equivale all'esattezza delle misure, ma
all'indipendenza del valore del punteggio-grezzo dal correttore della prova. Il punteggio-grezzo dovrebbe
dipendere solo dal livello di preparazione del candidato e dovrebbe essere inteso come una stima, la più
precisa possibile, del livello di competenza vero. Effettuata la misura, l'accertamento oggettivo, il punteggio
grezzo va interpretato e valutato e, in questa fase, le norme prevedono che la responsabilità sia collegiale e
che si esprima mediante una votazione. Questa è la fase soggettiva, in cui però la soggettività non equivale ad
arbitrarietà o incoerenza, ma piuttosto a responsabilità dei soggetti che giudicano in base a criteri,
eventualmente diversi. Le norme prevedono che possano esistere divergenze di valutazione da parte dei
commissari, per cui la stessa prestazione accertata e quantificata dal punteggio-grezzo potrebbe essere
tradotta in punteggi-voto diversi. Ma proprio il lavoro sulla costruzione della terza prova potrebbe
consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune
spaccature in sede di votazioni sulle singole prove.
AAll lleeggaattoo 44
Nota sulla conversione dei punteggi in Conchiglia
Raimondo Bolletta
Il programma Conchiglia prevede una funzionalità che consente di convertire qualsiasi scala numerica nella
scala in quindicesimi utilizzata per valutare le prove scritte dell'esame di stato.
Sulla opportunità di distinguere la fase dell'accertamento o della misurazione da quello della valutazione,
sulla distinzione tra punteggi grezzi e punteggi-voto, o votati, sui problemi dell'oggettività o soggettività
nella valutazione si è riflettuto nei contributi presenti nella parte introduttiva dei volumi PTP1999,
PTP2000 e PTP20013 a cui queste considerazioni fanno riferimento.
Riprendiamo qui i termini della questione. La normativa prevede che i punteggi assegnati ai candidati siano
votati da tutta la commissione. Le votazioni collegiali non sono, diversamente dal vecchio esame,
concentrate nella fase finale dell'esame ma si ripetono per ognuna delle prove. Ciò ha sollevato, da parte di
alcuni, problemi di competenza: il commissario di matematica può giudicare il tema e viceversa? Un'altra
sfida del nuovo esame: criteri e metodi devono essere trasparenti e condivisibili collegialmente dalla
commissione senza alcuna pretesa di esclusività o di specialismo. A ben vedere le norme finalizzano
l'accertamento su obiettivi, su competenze che attraversano le discipline e per le quali un terreno comune di
intesa tra i commissari è assolutamente necessario. Sappiamo però che queste cose sono meno semplici di
quanto si possa dire in un articolo o prevedere in una norma. Esiste una dinamica a volte lacerante tra la
fase della 'correzione del compito' e quella della valutazione della prestazione. La difficoltà sta nella
condivisione del livello soglia per la sufficienza, livello delicato e rischioso perché può decidere delle sorti
delle persone che giudichiamo, ma spesso la stessa difficoltà può emergere nello stabilire il livello di
eccellenza.
Insistiamo nella distinzione tra queste due fasi, accertamento e valutazione prevedendo l'uso di punteggi
grezzi da un lato e di punteggi voto o punteggi votati dall'altro. Conchiglia consente di usare entrambi i
punteggi e facilita il passaggio dalla prima scala alla seconda.
La proposta è di usare per i punteggi grezzi delle scale con una gamma di valori abbastanza vasta, ad
esempio non in quindicesimi se stiamo valutando le prove scritte. Ciò per varie ragioni:
• non confondere il punteggio grezzo con il punteggio votato
• discriminare maggiormente le varie situazioni osservabili
• usare più facilmente griglie di correzione che considerino molteplici e vari aspetti della prova prodotta dal candidato.
Sia nei quesiti a risposta chiusa con 30 o 40 quesiti sia nei saggi complessi, come il tema o qualche tipo di
seconda prova, si potranno sommare punti senza preoccuparsi che il totale massimo teorico sia 100 o 10 o
15, cioè scale che siamo implicitamente abituati ad interpretare con dei livelli soglia di sufficienza. Ogni
dimensione rilevata nella prova avrà un suo punteggio, possibilmente semplice da assegnare. La somma di
3 R. Bolletta, Riflessioni sull'assegnazione dei punteggi. In Osservatorio Nazionale per gli Esami di Stato,
Proposte per le terze prove. Modelli e materiali per la definizione di prove pluridisciplinari. FrancoAngeli, 1999.
tutti i massimi teorici in ogni dimensione sarà il punteggio massimo teorico ottenibile nella prova. Qual è il
valore soglia per la sufficienza? Se si dispone di una griglia di valutazione già validata in precedenza, tale
valore soglia potrebbe essere già stato fissato; se si dispone di una prova classica, sulla cui correzione la
commissione vanta una vasta esperienza, è possibile convenire una prestazione soglia a priori, ma, come
spesso accade, se tutto ciò non è vero occorre procedere con un approccio a posteriori, cioè attendere di
conoscere la distribuzione dei punteggi effettivamente osservati per poter decidere quali siano i punteggi di
riferimento.
In entrambi i casi, sia nell'approccio a priori sia in quello a posteriori la procedura informatica presente in
Conchiglia consente di effettuare i calcoli. Attenzione! la procedura esegue solo i calcoli e non si può
sostituire, né tenta di farlo, alla responsabilità della commissione che deve decidere i livelli soglia. Effettuate
le conversioni, il programma fornisce delle proposte da votare e sta alla commissione assegnare il
punteggio voto ai singoli candidati.
Abbiamo ricevuto molti messaggi da parte di colleghi che, riflettendo sulla formula della conversione da
punteggio grezzo a punteggio-voto, usata da Conchiglia, hanno chiesto chiarimenti e obiettato alcune
apparenti incongruenze dell'algoritmo.
La procedura consente di avere un ambiente di lavoro, usabile solo per una prova scritta alla volta, in cui
vengono registrati i punteggi grezzi assegnati, e il punteggio massimo conseguibile.
Man a mano che vengono assegnati i punteggi grezzi, nella schermata appaiono il punteggio minimo e il
punteggio massimo effettivamente conseguiti.
Assegnati tutti i punteggi grezzi sarà possibile inserire i valori soglia che corrispondono alla sufficienza e al
massimo. Tale operazione sarà fatta sulla base di una decisione presa prima della correzione delle prove, e
siamo nel caso dell'uso di criteri a priori, oppure sulla base di un esame dei punteggi grezzi effettivamente
assegnati, criteri a posteriori. Cliccando sul pulsante calcola il programma completa la colonna Proposta di voto che contiene punteggi in quindicesimi, ovviamente espressi come valori decimali. E' possibile
esaminare rapidamente la situazione verificando quanti rientrano nella fascia dei voti sufficienti e quanti
invece rimangono al di sotto. Nelle analisi dei dati, se si procede con un criterio a posteriori, la possibilità di
modificare i valori soglia ed ottenere rapidamente le conversioni consente di ragionare sui casi concreti
riesaminando direttamente le prove di coloro che si trovano al rischioso confine della sufficienza. Ma se si
decide di abbassare la soglia della sufficienza automaticamente tutti i punteggi vengono ricalcolati: non solo
quei pochi che, sulla soglia della sufficienza hanno un 'aiuto', ma anche tutti gli altri per i quali vengono
rispettate le distanze reciproche. Stesso discorso vale nel caso in cui la soglia viene innalzata, in cui tutti i
singoli voti vengono nuovamente 'aggiustati'.
La funzione che lega il punteggio grezzo ai voti in quindicesimi nel programma Conchiglia si basa sulla
formula:
((a – b) / (c – b) / 5) + 10
in cui
a è il punteggio grezzo assegnato al candidato,
b è il punteggio grezzo a cui si assegna il valore di sufficienza, soglia della sufficienza
c è il punteggio grezzo a cui si assegna il valore di massimo.
La formula ipotizza l'esistenza di una proporzionalità tra le due distribuzioni all'interno dell'intervallo che
comprende i voti che superano la sufficienza
La relazione si può rappresentare geometricamente come appare nella figura 1.
In questo caso il punteggio grezzo è rappresentato sull'asse delle y mentre il punteggio in quindicesimi è
rappresentato sull'asse delle ascisse. Il punteggio massimo conseguibile nel nostro esempio è 80 ma, forse,
tale punteggio non è stato conseguito da nessuno e la commissione ha deciso di assegnare a posteriori il voto
massimo 15 al punteggio grezzo 75 mentre la soglia della sufficienza è stata stabilita a 35 punti. La retta che
unisce i punti di coordinate (10, 35) e (15, 75) stabilisce la corrispondenza tra le due scale nel modo indicato
dalla freccia tratteggiata che mostra la corrispondenza tra due punteggi.
La relazione non funziona più per valori molto piccoli: in quanto, ad esempio, 0 ottantesimi
corrisponderebbe a 5,6 quindicesimi, ma occorre dire che se il gruppo è sufficientemente omogeneo e la
prova è ben calibrata, la maggior parte dei punteggi risulta concentrata in un intervallo non troppo esteso e
per quell'intervallo l'assunzione di una relazione lineare può essere una buona approssimazione che ha il
vantaggio di essere facilmente calcolabile.
Ricordiamo che questo non è il solo modo di effettuare la conversione dei punteggi e ha quei difetti
matematici evidenziati nei casi troppo distanti del grosso della distribuzione. Ma la procedura ha il
vantaggio di lasciare totalmente in mano alla commissione la responsabilità dell'uso dei criteri: solo dopo
aver deciso i livelli soglia la procedura propone dei valori in quindicesimi che la commissione dovrà
tradurre in valori interi votando.
Citiamo per completezza altre tre procedure possibili, realizzabili facilmente con dei fogli elettronici:
1. l'uso di una spezzata che prevede due formule leggermente diverse a seconda che si sia sopra o sotto la sufficienza 10 (v.fig. 2),
2. usare una relazione non lineare come ad esempio una parabola o un'altra funzione che passi per (0, 0) (10, 35) e (15, 75) (v. fig.3)
3. e infine sfruttare la forma della distribuzione dei punteggi grezzi facendo riferimento ai valori medi e agli scarti tra i punteggi (v. fig. 4).
Figura1
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Figura 2
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Si noti che nella soluzione 2, l'uso della relazione non lineare può favorire il candidato fermi restando i due
livelli soglia di riferimento, 35 e 75. La corrispondenza evidenziata dalla freccia bianca è la stessa della figura
1 determinata dalla relazione lineare: lo stesso punteggio grezzo viene nella figura 1 associato ad un valore
inferiore a 13 mentre nella figura 3 si associa ad un valore seppur di poco superiore a 13.
Figura 3
0
5
10
15
20
25
30
35
40
45
50
55
60
65
70
75
80
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Concludiamo questa nota illustrando brevemente la soluzione 3, ovvero la conversione che si basa sulla
forma della distribuzione dei punteggi. Ciò ci consente di chiarire meglio il senso degli 'aggiustamenti' dei
valori di soglia che abbiamo evocato sopra
La figura 4 riporta la distribuzione di frequenza di punteggi assegnati in una prova a cui sono stati
sottoposti 45 candidati. Supponiamo che la commissione avesse deciso a priori che il livello soglia era 35.
Osservando il grafico, notiamo che due prove verranno classificate insufficienti ma qualcuno potrebbe
obiettare che la differenza tra 34 e 35 è poco significativa e che solo il 32 si deve classificare come
insufficiente assegnandogli un punteggio-voto di 8 o 9. Ma qualcun altro al contrario potrebbe osservare
che in realtà tutto il gruppo che si trova tra 32 e 38 si distanzia dal resto della distribuzione per cui varrebbe
la pena di porre il livello limite della sufficienza su 40 piuttosto che su 35.
Come sciogliere la questione? La procedura più sensata è quella di tornare a rivedere le prove e verificarne il
livello sia globalmente sia analiticamente per arrivare a convenire operativamente quale prestazione può
essere considerata sufficiente. La forma della distribuzione, il modo in cui i vari punteggi grezzi si
raggruppano possono suggerire delle correzioni dei livelli soglia e delle modalità empiriche per raggruppare
i punteggi nei pochi punteggi voti da assegnare. Nel nostro caso i voti al di sotto della sufficienza sono solo
6 e le conversioni tra punteggi potrebbero essere effettuate direttamente operando sul grafico.
In questa nota di approfondimento abbiamo cercato di mostrare come qualsiasi procedura, più o meno
automatizzata, presuppone una forte consapevolezza del significato delle operazioni valutative e non può
ridurre la responsabilità di chi giudica i fatti in base a criteri più meno condivisi, più o meno esplicitati.
Figura 4
0
1
2
3
4
5
6
32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76
AAll lleeggaattoo 44
Nuovi elementi del Monitoraggio 2000
di Raimondo Bolletta
Premessa Obiettivo del contributo è di presentare le modalità di lavoro seguite nella selezione delle terze prove
contenuta nel volume e di fornire primi dati quantitativi concernenti le modalità di attuazione e gestione
della terza prova. Documenti e dati si riferiscono alla sessione 2000 degli esami finali della scuola
secondaria superiore. Per facilitare l'approccio a questo volume anche a coloro che non hanno già
utilizzato l'analogo volume relativo alla sessione 1999 e per non appesantire la lettura di chi su quel volume
ha già lavorato, riteniamo utile riprendere quello stesso testo introduttivo facendolo evolvere con
integrazioni e aggiornamenti emersi nel lavoro che abbiamo condotto sulla sessione 2000.
Il monitoraggio Come è noto il regolamento sugli esami di Stato prevede che nel plico contenente le schede dei presidenti,
sia allegata anche una copia delle terze prove effettivamente assegnate. Le terze prove sono così diventate
un oggetto del monitoraggio e per certi versi un indicatore molto importante dell'andamento dell'attuazione
dei nuovi esami. Questa selezione a partire dallo scorso anno ha assunto per l'Osservatorio il valore di un
ponte tra la funzione di assistenza sulle terze prove e il compito di monitoraggio della qualità dell'attuazione
dalla legge.
La raccolta delle terze prove è stata realizzata con la collaborazione dei provveditorati, i quali sono stati i
primi destinatari dei plichi spediti dai presidenti delle commissioni esaminatrici. In molti casi i
provveditorati hanno controllato sistematicamente il materiale pervenuto ed hanno assicurato la
completezza della documentazione con solleciti e ricerche presso le commissioni ed i singoli istituti
scolastici. Nel secondo anno di attuazione, alla ditta incaricata dal CEDE di effettuare le registrazioni dati
della scheda dei presidenti, le spedizioni sono state fatte più celermente, ma comunque si sono protratte sin
dopo l'estate 2000 e, in relazione alle dimensioni dei provveditorati e al numero delle schede da controllare,
per circa tre mesi fino a tutto novembre. Per facilitare il lavoro di acquisizione per la costruzione
dell'archivio elettronico e rendere più veloce la selezione delle prove da pubblicare quest'anno, sono state
introdotte due innovazioni: la compilazione da parte delle stesse commissioni di una scheda di rilevazione
descrittiva delle caratteristiche formali della terza prova e l'uso di etichette adesive a lettura ottica
identificative delle prove e delle schede. Non tutto è andato come sperato poiché per molte commissione la
modalità d'uso delle etichette a lettura ottica non è risultata sufficientemente chiara e ciò ha determinato
errori o omissioni. Quasi nessuno, inoltre, si è preoccupato, come era richiesto dalle istruzioni, di
mascherare i dati identificativi delle singole scuole riportati nel testo delle terze prove. Ciò ha richiesto un
accurato lavoro di controllo e, in molti casi, un intervento per ricostruire le corrispondenze tra schede
descrittive e prove e per mascherare le prove cancellando i riferimenti alle scuole o alle commissioni. Tale
lavoro che ha richiesto molte giornate di impegno per l'enorme quantità di materiali raccolti.
Coerentemente con una concezione del monitoraggio che intende soprattutto dare visibilità e diffondere
elementi fattuali ad uso di tutti i responsabili della qualità del processo, abbiamo comunque ritenuto
prioritario lavorare sulla restituzione alle scuole delle terze prove sia mediante la costruzione del secondo
archivio, in cui tutte le terze prove riproducibili fotograficamente sono state registrate ed indicizzate, sia
attraverso la selezione da editare in questo secondo volume.
Tutto il materiale raccolto è stato visionato, come già lo scorso anno, in due fasi: la prima, finalizzata al
riordino delle schede e al controllo della presenza e congruità dei codici a barre e al mascheramento del
nome delle scuole, ha isolato le terze prove centrate sulla comprensione di uno o più testi e quelle che si
presentavano comunque con un titolo o che erano classificate dalla commissione come un progetto o un
caso professionale.
Solo questo sottoinsieme di prove, circa un migliaio, sono state oggetto di una seconda fase di analisi ad
opera del gruppo dei docenti che operano all'interno dell'Osservatorio. Questa seconda selezione intendeva
verificare se e in che misura la commissione avesse prodotto una prova con un apprezzabile livello di
integrazione tra le competenze sviluppate nelle diverse discipline.
In realtà quest'anno lo stesso gruppo di docenti per poter meglio convergere su criteri di valutazione
omogenei ed affidabili ha visionato a tappeto tutte le prove provenienti da alcune città per avere un quadro
più completo circa le tendenze emergenti.
Le prove sono state composte tipograficamente e rieditate integralmente, con la sola eliminazione delle
informazioni relative alla commissione o alla scuola per rispettare l'anonimato. In qualche raro caso vi è
stata qualche semplificazione degli apparati valutativi, ad esempio quando erano riportate la griglia
valutativa e la scheda, perfettamente identica alla griglia, usata per la registrazione degli esiti.
Questa selezione, per come è stata realizzata, non pretende quindi di rappresentare le prove migliori (non è
un’antologia) per due motivi:
1. molte altre prove potrebbero aver caratteristiche migliori ma sono sfuggite alla nostra attenzione solo perché non avevano ben evidente un titolo,
2. le prove selezionate potrebbero essere state poco adatte all’effettivo percorso didattico seguito dalla classe e quindi essere state, o potranno essere, considerate ‘non buone’ da altri.
Sono però certamente tali da meritare l’attenzione dei docenti e degli studenti poiché sollecitano un
approccio integrato all’accertamento delle competenze, che costituisce la vera sfida innovativa della terza
prova. Individuano uno standard effettivo, raggiungibile forse da un numero più vasto di commissioni, uno
stimolo e uno strumento per diffondere idee su cui lavorare.
Questo volume rinvia ad una lettura parallela del materiale presente nel CD rom, che le scuole hanno
ricevuto nel gennaio 2000, dal titolo Archivio delle terze prove sessione 2000, ATP2001. Il doppio canale, il
dispositivo elettronico e quello cartaceo, tiene conto dei vincoli oggettivi in cui si lavora nella scuola che
non sempre consentono a tutti di avere a disposizione apparati tecnologici sofisticati.
Abbiamo deciso anche di conservare tutto il materiale in un unico volume senza separarlo per ordini di
studio. Confermiamo così l’intenzione dell’Osservatorio di dare visibilità reciproca a curricoli spesso molto
diversi che dovrebbero vicendevolmente conoscersi meglio, almeno nella rappresentazione degli esiti finali.
Per completare il quadro della problematica affrontata in generale dal monitoraggio e in particolare da
questa selezione riportiamo alcuni dati a titolo di esempio, rimandando per ulteriori approfondimenti al sito
Internet già citato o al repertorio statistico Gli esami in numeri sessione 2000 che sarà pubblicato fra qualche
mese.
Le statistiche qui riportate si riferiscono solo alle prove che sono state registrate nell'archivio elettronico
ATP2001. Va sottolineato che in tale archivio sono state acquisite le prove in buono stato, cioè ben
fotocopiate, riproducibili fotograficamente, corredate della scheda descrittiva e contenibili in due CD rom.
Alla data attuale (primi giorni del gennaio ’01) ci sono ancora circa 5000 terze prove che, pur non potendo
rientrare nell'archivio elettronico, saranno classificate e contribuiranno a popolare le statistiche definitive.
Le statistiche che sono presentate in questo volume pur non riguardando la totalità dei materiali raccolti
sono comunque da considerare come delle stime molto attendibili degli andamenti effettivi.
La tabella seguente mostra la distribuzione delle scelte delle commissioni rispetto al formato delle terze
prove.
Distribuzione dei formati delle terze prove rispetto agli ordini scolastici
Licei Professionali Tecnici Italia
N % colonna N % colonna N % colonna N % colonna
Omesso 137 2,6% 84 3,0% 168 3,0% 389 2,9%
Trattazione sintetica 1.530 29,5% 221 7,9% 752 13,5% 2.503 18,5%
Quesiti a risposta multipla 2.344 45,3% 819 29,3% 2.428 43,6% 5.591 41,3%
Casi pratici e professionali 29 ,6% 41 1,5% 59 1,1% 129 1,0%
Quesiti a risposta singola 730 14,1% 722 25,8% 1.356 24,3% 2.808 20,7%
Problemi a soluzione rapida 10 ,4% 49 ,9% 59 ,4%
Sviluppo di progetti 6 ,1% 135 4,8% 62 1,1% 203 1,5%
Con testo di riferimento 22 ,4% 261 9,3% 45 ,8% 328 2,4%
Formato misto 381 7,4% 501 18,0% 651 11,7% 1.533 11,3%
Italia 5.179 100,0% 2.794 100,0% 5.570 100,0% 13.543 100,0%
0
5
10
15
20
25
30
35
40
45
50
Tra
ttazi
one
sint
etic
a
Que
siti
aris
post
a m
ultip
la
Cas
i pra
tici e
prof
essi
onal
i
Que
siti
aris
post
a si
ngol
a
Pro
blem
i aso
luzi
one
rapi
da
Svi
lupp
o di
prog
etti
Con
test
o di
rifer
imen
to
For
mat
o m
isto
Licei
Professionali
Tecnici
Italia
Grafico 1 Distribuzione percentuale dei formati ris petto agli ordini scolastici
Come si può notare anche dal grafico 1, che raffronta le distribuzioni percentuali, le commissioni hanno
usato prevalentemente quesiti a scelta multipla, forma che nel secondo anno di attuazione ha accresciuto
la propria consistenza anche per il maggior numero di quesiti consentito dalla norma. Gli istituti
professionali hanno distribuito meglio le proprie scelte sulle varie forme limitando fortemente la prima,
quella della trattazione sintetica, maggiormente scelta dai licei.
Alcune forme hanno avuto una frequenza più ridotta sia per la maggiore difficoltà di preparazione della
prova in tempi ridotti, come nel caso della prova integrata con testo di riferimento, sia per qualche
diffidenza delle commissioni rispetto alla possibilità di richiedere lo sviluppo di un progetto su cui la classe
aveva già effettivamente lavorato durante l'anno. In realtà, le prove, che i nostri classificatori hanno isolato
come prove con testo di riferimento, sono state classificate dalle commissioni a volte sotto altre voci, come
casi professionali o come trattazione sintetica. Come si può notare negli esempi selezionati, spesso il 'testo'
consiste in un'immagine, uno schema, una consegna complessa.
Certamente le disposizioni per il secondo anno di attuazione del nuovo esame, consentendo un uso più
flessibile delle varie forme, hanno permesso alle commissioni una scelta più vasta e la produzione di prove
più attendibili (aumento dei quesiti) e probabilmente più capaci di rilevare competenze complesse (formato
misto).
Sulla attendibilità di tali prove, sulla loro facilità e coerenza rispetto alle altre prove scritte, vi è stato già una
diffuso dibattito, che intendiamo riprendere con la presentazione di nuovi dati, seppur provvisori.
La fase di acquisizione dei dati della sessione 2000 non è ancora conclusa ed i grafici si riferiscono solo a un
campione di circa 10.000 casi tratti da quelli acquisiti mediante il programma Conchiglia.
Grafico 2 Andamenti nelle tre prove scritte
0
200
400
600
800
1000
1200
1400
1600
1800
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
prima prova seconda prova terza prova
La distribuzione dei punteggi presente nella figura 2 mostra, meglio dello scorso anno, che la terza prova
non è stata una generale panacea in quanto ha assegnato punteggi su tutta la gamma, anche su valori
inferiori alla sufficienza. Rispetto alle altre due prove scritte vanno notate due particolarità. Non presenta in
10, che è il valore di soglia per raggiungere la sufficienza, un picco, come accade invece alla prima prova e
alla seconda prova, ma ha un andamento regolare. Essendo la terza una prova strutturata per la correzione
della quale la commissione spesso ha convenuto a priori i criteri di assegnazione di punteggi, non si sono
verificati quegli aggiustamenti intorno alla soglia di sufficienza che sono invece evidenti nel caso della prima
e della seconda prova. Questo è certamente un elemento positivo che depone a favore dell'attendibilità della
prova che funzionerebbe in modo più 'oggettivo' delle altre.
Nella prima sessione si era notato che la frequenza del voto massimo era più alta delle altre due prove e tale
fatto veniva segnalato come un indizio di una scelta operata da parte di alcune commissioni di rendere la
terza prova più facile delle altre, al punto di saturare maggiormente il punteggio massimo. Questo
fenomeno sembra essere sparito nella seconda sessione, anzi, sul campione esaminato, sembra che la
frequenza del voto massimo sia ancora più esigua delle altre due prove. Se ciò verrà confermato sul resto
dei dati, questo farebbe considerare la terza prova ancora più attendibile rispetto a quanto successo nella
prima sessione in cui il numero dei questi erra stato eccessivamente limitato.
La costruzione delle terze prove Nella sessione 2000, su un campione casuale rappresentativo a livello nazionale di 400 commissioni, è stata
effettuata una raccolta delle prove scritte di tre studenti anch'essi scelti casualmente dall'Osservatorio. La
raccolta degli elaborati, comunicata alle commissioni subito dopo la pubblicazione degli esiti delle prove
scritte, è stata anche l'occasione per rilevare alcune informazioni aggiuntive sulla questione abbastanza
dibattuta delle modalità di costruzione della terza prova da parte delle commissioni. Si tratta di un
brevissimo questionario costituito da tre domande aperte sui punti di forza e di debolezza della terza prova
e sui problemi connessi all'attuazione dell'innovazione e da altre domande concernenti le condizioni
materiali in cui è avvenuta la formulazione delle terze prove e l'uso che era stato fatto del repertorio diffuso
dall'Osservatorio.
Le domande aperte sono state integralmente codificate utilizzando un griglia abbastanza dettagliata e
consentendo di rilevare fino a tre risposte distinte per ciascuna domanda: in sostanza le tre risposte aperte
hanno generato 9 variabili elaborate come tre risposte multiple. Le tabelle seguenti riportano accanto alle
risposte rilevate, che ricordiamo erano libere, le frequenze assolute e le percentuali calcolate rispetto al
totale delle risposte e al totale dei casi. Pur nella limitatezza del campione riteniamo interessante la varietà
delle considerazioni emerse che denota una ricca consapevolezza dei problemi posti dalla gestione della
terza prova da parte delle commissioni
Rilevazione sulle prove scritte Scuola ……..
Commissione cod. …… Classe rilevata ……
Questionario sulla preparazione della terza prova
Il presidente è pregato di rispondere in modo sintetico alle seguenti domande sulla preparazione della terza prova. Il
questionario non è sostitutivo della relazione finale che i presidenti sono tenuti ad inoltrare all'Osservatorio nazionale sugli
esami di stato in formato cartaceo o elettronico.
In generale.
Punti di forza della terza prova
Punti di forza
N % su risposte % su casi
calibrata su programma svolto/documento consiglio di classe 71 14,8 23,6
verifica competenze trasversali o pluridisciplinari 58 12,1 19,3
accertamento capacità conoscenze e competenze 43 8,9 14,3
verifica capacità analisi e sintesi 39 8,1 13
compresenza di 4 discipline 38 7,9 12,6
oggettività della valutazione 26 5,4 8,6
introduzione della interdisciplinarità nella didattica 21 4,4 7
verifica conosc.e comp.specifiche 20 4,2 6,6
omesso 17 3,5 5,6
esame nelle discipline non oggetto altre prove scritte 17 3,5 5,6
riguarda un nucleo pluridisciplinare 15 3,1 5
entra nei particolari del caso specifico 14 2,9 4,7
riflette esigenze corso di studi 13 2,7 4,3
libertà di scelta della tipologia 13 2,7 4,3
rapidità della correzione 13 2,7 4,3
oggettività della valutazione 13 2,7 4,3
sviluppo di capacità relativamente alle tipologie 11 2,3 3,7
presenza lingua straniera 8 1,7 2,7
obbliga docenti a lavorare insieme durante l'anno 7 1,5 2,3
formulazione da parte dei commissari 6 1,2 2
chiarezza nella formulazione delle domande 6 1,2 2
collegamento con il colloquio 4 0,8 1,3
collegialità della scelta 3 0,6 1
graduazione della difficoltà 3 0,6 1
tempo max affidato alla commissione 2 0,4 0,7
Totale 481 100,0 159,8
Punti di debolezza della terza prova
Punti di debolezza
N % su risposte % su casi
alcune tipologie sono riduttive e nozionistiche 42 10,3 13,9
omesso 30 7,4 9,9
tipologia C poco significativa 28 6,9 9,3
frammentarietà discipline 28 6,9 9,3
difficile verifica reale livello conoscenze 25 6,2 8,3
lamentele generiche 18 4,4 5,9
documento 15 maggio inadeguato alla formulazione della 3° prova 18 4,5 6
difficoltà di costruzione di una griglia di valutazione 17 4,2 5,6
scarsa attitudine degli studenti ad affrontare tipologie e materie diverse in poco
tempo
15 3,7 5
entra nei particolari del caso specifico 15 3,7 5
diversità di comportamento tra commissioni diverse 14 3,5 4,6
difficoltà nel realizzare pluridisciplinarietà durante l'anno 13 3,2 4,3
risultati poco attendibili perché i ragazzi copiano 12 3 4
inadeguatezza tipologie per alcuni indirizzi 12 2,9 3,9
i membri interni sono inaffidabili 12 3 4
pochi quesiti per prova oggettiva affidabile 11 2,7 3,6
manca progettazione integrata tra docenti nell'anno 11 2,7 3,6
scarsa preparazione degli studenti 10 2,5 3,3
poco tempo per la preparazione 10 2,5 3,3
difficoltà dei docenti ad accordarsi 9 2,2 3
presenza di sole 4 discipline 8 2 2,6
necessità di fissare il rapporto tra tipologie e tempi 7 1,7 2,3
difficoltà a costruire prova oggettiva 7 1,7 2,3
proposte varie 5 1,1 1,7
difficoltà nelle prove strutturate rispetto alle prove articolate 5 1,2 1,7
sarebbe meglio che la prova fosse formulata dal Ministero 4 1 1,3
poca informazione degli studenti su obiettivi e criteri di valutazione 3 0,7 1
commissari non aggiornati, docenti non aperti all'innovazione 3 0,7 1
utilizzo mezzi informatici per la formulazione la correzione 2 0,5 0,7
necessità standard livelli difficoltà 2 0,5 0,7
docenti impreparati alla formulazione dei test a risposta multipla 2 0,5 0,7
diverse tipologie determinano prove non equivalenti 2 0,5 0,7
difficoltà ad usare tipologie diverse da A e B per i limiti di tempo 2 0,5 0,7
chiarezza nella formulazione delle domande 2 0,5 0,7
normativa poco chiara 1 0,2 0,3
introduzione della interdisciplinarità nella didattica 1 0,2 0,3
difficoltà per commissari su più commissioni 1 0,2 0,3
difficoltà con classi distribuite su sedi diverse 1 0,2 0,3
aumentare i quesiti 1 0,2 0,3
assenza dei commissari durante la formulazione 1 0,2 0,3
Totale 404 100 133,8
Problemi di attuazione dell'innovazione relativa alla terza prova.
Problemi di attuazione
N % su risposte % su casi
omesso 123 34,5 40,9
poco tempo per la preparazione 23 6,4 7,6
documento 15 maggio inadeguato alla formulazione della 3° prova 22 6,2 7,3
manca progettazione integrata tra docenti nell'anno 18 5 6
frammentarietà discipline 17 4,8 5,6
difficoltà dei docenti ad accordarsi 17 4,8 5,6
difficoltà nel realizzare pluridisciplinarietà durante l'anno 12 3,4 4
commissari non aggiornati, docenti non aperti all'innovazione 10 2,8 3,3
difficoltà di costruzione di una griglia di valutazione 9 2,5 3
lamentele generiche 8 2,2 2,7
proposte varie 7 2 2,3
difficoltà con classi distribuite su sedi diverse 6 1,7 2
alcune tipologie sono riduttive e nozionistiche 6 1,7 2
entra nei particolari del caso specifico 5 1,4 1,7
scarsa preparazione degli studenti 5 1,4 1,7
difficile verifica reale livello conoscenze 5 1,4 1,7
aumentare i quesiti 4 1,1 1,3
scarsa attitudine degli studenti ad affrontare tipologie e materie diverse in poco
tempo
4 1,1 1,3
difficoltà a costruire prova oggettiva 4 1,1 1,3
i membri interni sono inaffidabili 4 1,1 1,3
docenti impreparati alla formulazione dei test a risposta multipla 4 1,1 1,3
difficoltà nelle prove strutturate rispetto alle prove articolate 3 0,8 1
poca informazione degli studenti su obiettivi e criteri di valutazione 3 0,8 1
necessità di fissare il rapporto tra tipologie e tempi 3 0,8 1
diverse tipologie determinano prove non equivalenti 3 0,8 1
inadeguatezza tipologie per alcuni indirizzi 3 0,8 1
assenza dei commissari durante la formulazione 3 0,8 1
prova in giorni diversi per classi diverse 3 0,8 1
difficoltà per commissari su più commissioni 3 0,8 1
utilizzo mezzi informatici per la formulazione e la correzione 2 0,6 0,7
sarebbe meglio che la prova fosse formulata dal Ministero 2 0,6 0,7
risultati poco attendibili perché i ragazzi copiano 2 0,6 0,7
normativa poco chiara 2 0,6 0,7
tipologia C poco significativa 2 0,6 0,7
diversità di comportamento tra commissioni diverse 2 0,6 0,7
calibrata su programma svolto/documento consiglio di classe 1 0,3 0,3
tempo max affidato alla commissione 1 0,3 0,3
sostituire prove orali con prove scritte 1 0,3 0,3
documento 15 maggio inadeguato alla formulazione della 3° prova 1 0,3 0,3
sinteticità 1 0,3 0,3
difficoltà con classi aventi indirizzi di studio diversi 1 0,3 0,3
difficoltà ad usare tipologie diverse da A e B per i limiti di tempo 1 0,3 0,3
non solo materie dell'ultimo anno 1 0,3 0,3
Totale 357 100 118,6
In particolare nella sua commissione:
Utilità del Documento del Consiglio di Classe per la stesura della terza prova
Nessuna Bassa Media Alta Non saprei dire
2,0 7,3 41,4 47,4 0,7
Nel Documento del Consiglio di Classe erano disponibili esempi di terze prove utilizzati nelle simulazioni?
Sì No Mancante
83,1 14,9 2,0
Si è tenuto conto di tali esempi nella preparazione della terza prova?
Non c'erano esempi No Solo in parte Sì Sì molto Mancante
9,9 5,3 59,3 10,6 11,6 3,3
Chi ha formulato i singoli quesiti?
Prevalentemente i membri
esterni
Non ci sono state distinzioni Esterni ed interni in
parti uguali
Prevalentemente
gli interni.
Mancante
4,6 26,8 62,6 5,3 0,7
La commissione era a conoscenza dei repertori prodotti dell'Osservatorio sulla terza prova?
No nessuno era informato Solo alcuni membri lo erano Sì tutti erano informati Mancante
2,0 43,7 52,6 1,7
I repertori sono stati messi a disposizione della commissione
Sì No Mancante
51,7 46,7 1,7
I repertori dell'Osservatorio sono stati utilizzati per la costruzione della terza prova?
Sì No Mancante di sistema
12,6 85,8 1,7
Giudizio complessivo sui repertori
Non sono conosciuti
a sufficienza
Negativo Positivo con
perplessità
Positivo Molto positivo Mancante di sistema
37,7 3,0 34,8 19,5 2,0 3,0
Le statistiche precedenti sono di per sé abbastanza eloquenti, seppur riferite ad un campione piuttosto
modesto: appare una ricca e variegata rassegna di problemi legati alla introduzione generalizzata di una
prova strutturata di tipo pluridisciplinare, le commissioni incontrano difficoltà nella preparazione della
prova ma stentano a riferirsi a quanto i documenti dei consigli di classe o l'editoria o lo stesso Osservatorio
mettono a disposizione. Il rischio evidente, che sembra emergere sia dai dati sia dall'analisi delle prove
effettuata per la selezione, è la rinuncia a perseguire un livello più alto di integrazione tra le discipline e il
consolidamento di formati facilmente assemblabili su competenze disciplinari che si sommano soltanto.
AAll lleeggaattoo 55
L'assegnazione dei punteggi. Atto terzo
Raimondo Bolletta
Premessa Riproponiamo una riflessione che andiamo conducendo già dal primo volume aggiornata con qualche
riflessione ulteriore che nasce dalle analisi dei risultati delle prime due sessioni. Il contatto diretto con molti
colleghi che ci interpellano o che collaborano con l'Osservatorio ci ha convinto dell'opportunità di riinserire
questo tema nel terzo volume perché le questioni legate alle modalità di valutazione delle terze prove e delle
prove d'esame in generale sono tutte aperte e necessitano probabilmente di un lungo processo di crescita
della consapevolezza dei probelmi e della padronanza delle procedure che porti a una qualità migliore della
valutazione finale della scuola secondaria. L'Osservatorio è anche impegnato in uno studio sperimentale
sulla questione della valutazioen delle prove scritte che si ispira proprio alle problematiche suscitate dai dati
qui presnetati e che fornirà ulteriori elementi di riflessione a tutti coloro che a vario titolo sono impegnati
nella gestione degli esami di stato.
L’accertamento, sommare punteggi Il nuovo esame di stato si caratterizza per l'uso nelle prove scritte e orali di scale numeriche la cui somma si
traduce automaticamente in esito finale. Questo fatto ha posto numerosi problemi di attuazione legati
soprattutto all'abitudine a codici linguistici e numerici diversi e al timore di esiti inattesi e incontrollabili
ottenuti sommando singole misure del profitto. La stessa necessità di pubblicare tempestivamente gli esiti
degli scritti e di verbalizzare giornalmente gli esiti dei colloqui sembra contraddire la necessità di effettuare
comparazioni tra tutti i colloqui per poter giudicare con un metro unico. Rimane ancora abbastanza diffusa
la protesta tra i docenti per l'uso di scale diverse all'interno dello stesso esame.
Il legislatore ha introdotto infatti una nuova gamma per il punteggio finale stabilendo la sufficienza in 60
punti e il massimo in 100 e l'ha ripartita in quote diverse nelle varie prove.
Sufficienza Massimo
Credito scolastico 8 20
Prima prova scritta 10 15
Seconda prova scritta 10 15
Terza prova scritta 10 15
Orale 22 35
Bonus 5*
Punteggio finale 60 100
* la concessione del bonus non può far superare 100
La terza prova scritta, proprio per il suo carattere più strutturato, si presta meglio delle altre ad attivare
attendibili procedure di accertamento; sulle quali i membri della commissione possono convergere e trovare
un accordo più forte rispetto alle prove complesse.
Anche nel PTP2001 non abbiamo fissato criteri di valutazione delle prove, ma solo fornito elementi
informativi utili alle commissioni, che saranno libere di dare degli elaborati degli studenti le letture e le
valutazioni che più riterranno opportune in relazione al curricolo svolto nella classe esaminata. Le chiavi di
correzione e i criteri di adeguatezza costituiscono un corredo informativo sufficiente per operare in modo
affidabile, rispettoso dell’autonomia valutativa della commissione ed utile per tutti coloro che vorranno
utilizzare il materiale a livello didattico.
Le soglie di sufficienza, che nei punteggi dell’esame non corrispondono al 6, (6 sta a 10 come 9 sta a 15 ma
9 non è la sufficienza!), hanno costretto le commissioni ad adottare apposite procedura per far condividere
al suo interno una comune modalità di assegnazione dei punteggi grezzi. La questione non ha riguardato
solamente la terza provama soprattutto la prima prova scritta e la prova orale, nelle quali tradizionalmente
si procede con un valutazione globale, difficilmente descrivibile con una procedura standard che non
dipenda dall’intuizione e dal giudizio personale del singolo correttore.
Molte commissioni anche nella seconda sessione del 2000 hanno affrontato questa difficoltà mediante
l’adozione di griglie di correzione e di valutazione convenute a priori che consentivano di assegnare il
punteggio alla prova, scritta o orale, del candidato, attraverso l'osservazione di una pluralità di aspetti
analitici. Per ciascuno di tali aspetti sono stati formulati dei descrittorie dei livelli soglia dei punteggi
analiticiche consentivano un'assegnazione del punteggio pressoché automatica da parte della commissione.
Una ricca casistica di tali griglie di valutazione per la terza prova è presente negli Archivi delle Terze Prove,
ATP2000 e ATP2001, distribuiti nel 2000 e nel 2001 su CD-rom alle scuole secondarie superiori. Proprio la
casistica riccamente documentata nei due archivi elettronici dimostra però che l’uso delle griglie non è
immune da rischi:
i descrittori possono non essere sufficientemente chiari ed operativi, per cui può emergere anche forti
divergenze di opinioni tra commissari diversi che valutano la stessa prestazione del candidato;
se i descrittori sono troppo generici e globali possono in realtà correlare troppo con un medesimo aspetto
dell'elaborato , per cui si assegnano ripetutamente punteggi parziali alla stessa cosa,
i pesi assegnati, sotto forma di punteggi parziali con gamme diverse a seconda dell’importanza dell’aspetto
valutato, costituiscono già un modo per predeterminare l’esito finale in relazione a un criterio a priori dei
commissari che però a volte non è stato chiaramente esplicitato,
le griglie potrebbero essere improvvisate e non essere state validate con un uso sufficientemente esteso nel
tempo e ripetuto su prove e classi diverse da almeno qualche membro della commissione,
la griglia può essere assunta acriticamente con una declinazione di obiettivi, forse coerenti con il documento
del consiglio di classe, ma con una inconsistente relazione con i quesiti specifici che sono formulati nella
prova o con la traccia del tema.
Quindi anche le griglie possono generare una certa confusione tra il momento dell’accertamento, o della
misura, quello cioè della assegnazione di un punteggio che dovrebbe corrispondere solo alle caratteristiche
oggettiva dell'elaborato o della prestazione e quello della valutazione e dell’applicazione di un criterio di
valore che si realizza con la votazione del punteggio da assegnare al candidato. L'assimilazione tra le due
fasi costituisce uno dei rischi di una procedura d’esame che dovrebbe essere, nelle intenzioni del legislatore,
più oggettiva e più giusta.
Questo problema è apparso più evidente in una strategia, suggerita come scorciatoia per semplificare la
questione dell’assegnazione dei punteggi e che anche nel secondo anno di attuazione è stata attuata da
alcune commissioni: valutare la singola prova con un livello qualitativo già utilizzato nei giudizi dei vecchi
esami di maturità, livelli sui quali i commissari hanno maggiore dimestichezza, e convenire nella
commissione una corrispondenza tra tali livelli e bande di punteggi. In questo modo un aggettivo come
buono o discreto , che non fa parte del lessico formale del nuovo esame, si trasforma in un punteggio
numerico. Questa procedura, apparentemente affidabile, stravolge e ribalta però il senso dell’uso dei
punteggi anteponendo la fase della valutazione a quella dell'accertamento 'oggettivo'.
Le difficoltà sin qui segnalate emergono chiaramente in alcuni risultati del monitoraggio degli esiti.
L’adozione di bande di oscillazione rigide, per discretizzare su pochi livelli una scala che può assumere una
estesa gamma di valori, può determinare degli ‘aggiustamenti’ dei voti non sempre opportuni.
Ad esempio le distribuzioni dei grafici 1 e 2 mostrano come l’esistenza delle bande di oscillazione rigida,
entro cui i consigli di classe possono assegnare eventualmente qualche punto aggiuntivo al credito, ha
indotto sia nel primo anno di attuazione degli esami sia nel secondo degli aggiustamenti nei voti assegnati.
E’ evidente dalla figura che le medie vicine al valore soglia per accedere alla banda successiva sono meno
frequenti e ciò determina un profilo delle distribuzioni a denti di sega. Arrotondamenti di pochi decimi per
raggiungere la banda successiva nei casi meritevoli non sono un grave problema, ma possono indurre la
sensazione che si abbia a che fare con dati inaffidabili, modificabili a piacimento, in relazione alle varie
convenienze.
Distribuzione delle medie dei voti. Campione nazion ale di 7563 casi
0
50
100
150
200
250
300
350
400
<4 4,1
4,3
4,5
4,7
4,9
5,1
5,3
5,5
5,7
5,9
6,1
6,3
6,5
6,7
6,9
7,1
7,3
7,5
7,7
7,9
8,1
8,3
8,5
8,7
8,9
9,1
9,3
9,5
9,7
9,9
Grafico1 Distribuzione della media dei voti scolastici assegnati nella sessione 1999
Distribuzione delle medie dei voti di ammissione. C ampione 2000. Casi 7.054
0
50
100
150
200
250
300
350
400
450
500
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10
Grafico2 Distribuzione della media dei voti scolastici assegnati nella sessione 2000
Uno stesso meccanismo di aggiustamento verso la sufficienza è intervenuto nella valutazione della prime
dueprove scritte, in cui il valore modale in 10 fa pensare che procedure di assegnazione del punteggio di
tipo ‘globale’ abbiano consentito di dichiarare accettabili degli esiti probabilmente non tali per gli stessi
esaminatori. Lo stesso fenomeno che si osserva nelle due sessioni non compare nell'andamento dei risultati
della terza prova che invece nella soglia della sufficienza ha un andamento gradualemtne crescente senza
addensamenti particolari della frequenza.
Andamenti delle tre prove scritte. Sessione 1999
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
prima prova seconda prova terza provaSESSIONE 1999
Grafico 3 Le distribuzioni dei punteggi delle tre prove scritte sessione 1999
Andamenti delle tre prove scritte. Sessione 2000
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
prima prova 99 seconda prova99 terza prova99SESSIONE 2000
Grafico 4 Distribuzioni dei punteggi delle tre prove scritte sessione 2000
Confrontando i grafici 3 e 4 è possibile notare anche l'effetto prodotto dallo scambio di ruoli nei correttori
della prima e seconda prova: Nel '99 la prima prova era corretta da un commissario esterno e la seconda da
un interno. Nel 2000 in moltissimi indirizzi i ruoli si sono scambiati. Anche le due distribuzioni hanno
subito nei due anni uno scambio di posizione!
Andamento della prima prova scritta. Sessione 1999
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
prima prova 99 prima prova 2000
Andamento della prima prova scritta. Sessione 1999
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
seconda prova99 seconda prova 2000
Anche nel 2000 la distribuzione della somma dei punteggi delle prove scritte e del credito scolastico ha un
andamento ‘regolare’ più simile a quello vero, a quello che necessariamente dovrebbe essere, data la
numerosità della popolazione esaminata e la complessità delle competenze accertate, e cioè una classica
distribuzione normale. Non sorprende affatto che sommando quattro misure, seppure affette singolarmente
di errori ed aggiustamenti, si ottenga una nuova misura che complessivamente appare più affidabile e
regolare; ciò corrisponde a quanto si fa nelle scienze sperimentali, in cui per ridurre gli errori di misura si
ripetono le misure. Una condizione perché ciò avvenga è però che le misure siano tra loro indipendenti, che
cioè gli errori in una misura non influenzino quelli delle altre; in altri termini se in una prova un candidato è
stato casualmente (o intenzionalmente) favorito o sfavorito ciò non deve ripetersi nello stesso senso nelle
altre prove, in cui invece gli errori di misura dovranno continuare ad essere casuali.
Distribuzione dei punteggi alla fine degli scritti
0
0,01
0,02
0,03
0,04
0,05
0,06
0 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64
1999 2000
Fig.3 Distribuzione del punteggio alla fine delle prove scritte
La distribuzione del punteggio finale denota viceversa un cambiamento radicale della distribuzione
introdotto evidentemente dal punteggio assegnato nella prova orale. Ritorna il picco in corrispondenza al
sessanta, cioè alla soglia minima per poter passare l'esame e sul punteggio massimo. Non possiamo qui
affrontare nel merito la questione spinosa di un così alto addensamento di casi sulla soglia di accettabilità
ma ci limitiamo a segnalare una questione puramente tecnica: la non indipendenza dell'ultima 'misura'
rispetto alle precedenti. L'esito dell'orale è condizionato dagli esiti degli scritti e la ricca gamma di punti
disponibili per tale prova serve a compensare o a integrare il resto delle prove per ottenere un punteggio
finale che sostanzialmente è il risultato di un giudizio globale e non la somma di misure indipendenti.
Distribuzione dei voti finali
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99
voto2000 voto1999
Assegnazione dei punteggi-voto Il nostro tentativo in questo contributo che è riporposto nei tre volumi del PTP è di enfatizzare la
distinzione tra la fase dell’accertamento e quella della valutazione e di riflettere sul passaggio dalla prima alla
seconda fase, dal punteggio grezzo al punteggio voto.
Quest’anno la norma consente di aumentare ulteriormente i quesiti nella terza prova. Ciò
consentel'assegnazione di punteggi grezzi, cioè di punteggi non ancora votati e non ancora pubblicati come
esiti, come scale numeriche aventi una gamma più estesa dei 15 punti assegnabili. La commissione può così
avere più chiara la distinzione tra il momento della raccolta dei dati (ovvero della 'misura' dei livelli di
conoscenza o di competenza dei candidati) da quello della formulazione del giudizio cioè
dell'interpretazione del significato del dato raccolto rispetto ad un criterio di valore, a priori o a posteriori.
La stessa questione si pone, forse in termini più complicati e difficili, anche per le altre due prove scritte, in
cui nella fase di correzione della prova, se non si dispone di griglie di correzione condivise dalla
commissione, si potrebbe comunque prescindere dall'uso immediato della scala in quindicesimi per
costruire piuttosto un ordinamento delle prove per livelli di qualità, identificando degli insiemi di prove più
o meno equivalenti cui assegnare a posteriori i punteggi in quindicesimi. Se si dispone invece di griglie di
correzione è consigliabile costruire una scala disancorata dai quindicesimi. Abbiamo potuto constatare che
molte commissioni hanno penato molto a distribuire frazioni di punto alle molteplici dimensioni
individuate: non solo è più semplice e pratico ragionare con punteggi complessivi con gamme più ampie ma
è anche più corretto dal punto di vista concettuale. Siamo effettivamente certi a priori che sommando le
varie sufficienze individuate in ciascun aspetto rilevato si ottenga il fatidico 10 da assegnare alla sufficienza
complessiva? Chi ha provato a far ciò, ad esempio con una griglia di valutazione di una prova di italiano si
sarà trovato in qualche imbarazzo a giustificare le sue scelte e a gestire a posteriori i risultati, a meno che non
avesse preventivamente validato lo strumento sul campo, su molte prove e su molti studenti diversi.
Ma torniamo a ragionare della terza prova, usandola però come una metafora delle altre due nella misura in
cui si sia riusciti a correggerle in modo analitico usando delle griglie.
Criteri di valutazione a priori Se la commissione ha deciso di lavorare con un punteggio grezzo diverso dalla scala in quindicesimi, nella
fase di assegnazione del punteggio voto dovremo operare una traduzione. Quale punteggio grezzo
corrisponde al punteggio soglia della sufficienza? Quale punteggio grezzo corrisponde al punteggio voto
massimo?
E' evidente che il valore di tale soglia dipende della difficoltà dei quesiti posti: se questi fossero molto
difficili, anche i candidati più bravi otterrebbero un punteggio grezzo basso, così come sarebbe possibile
assegnare punteggi grezzi alti se le domande poste fossero molto facili. La commissione, nella misura in cui
può vantare complessivamente una consolidata esperienza didattica, potrebbe essere in grado di apprezzare
preventivamente la difficoltà dei quesiti posti e, quindi, potrebbe prevedere quale soglia dei punteggi
dovrebbe essere raggiunta da coloro che hanno una preparazione sufficiente. La commissione potrebbe
cioè stabilire a priori il livello di punteggio-grezzo atteso che corrisponda alla sufficienza e stabilire quindi a
priori le fasce di punteggi-grezzi comprese nei punteggi-voto assegnati nella prova. Per le due prove scritte
fissate dal ministero l’identificazione di tali livelli soglia della sufficienza sarebbero auspicabili ma occorre
ammettere che per prove complesse la cosa non è affatto facile e rischia anche di essere poco affidabile se
fatta in modo affrettato a livello centrale su una enorme quantità di tracce .
La procedura che abbiamo ora descritto, che fissa il criterio di sufficienza a priori, suppone una forte
omogeneità tra i membri della commissione sia per le esperienze didattiche effettuate, sia per i criteri di
valore cui ciascun membro fa implicitamente riferimento. E' un assunto forte se si considera che la
commissione proviene da istituti scolastici diversi, che la parte esterna non conosce già la classe e che ogni
commissario rappresenta una disciplina diversa. Un aiuto forte potrebbe venire dal documento del consiglio
di classe che dovrebbe fornire elementi operativi per individuare i livelli di sufficienza perseguiti dalla classe.
Criteri a posteriori Un'altra modalità di trasformazione da punteggi-grezzi a punteggi-voto si basa sui risultati accertati e
possiamo definirla a posteriori. Se non vi è un affidabile accordo sulla distribuzione dei punteggi grezzi attesi,
si può attendere di conoscere la distribuzione effettivamente ottenuta dalla classe esaminata e ricavarne
empiricamente i valori soglia per stabilire le corrispondenze tra le due scale, quella dei punteggi grezzi e
quella dei punteggi voto. La commissione potrà decidere il punteggio grezzo che corrisponde alla
sufficienza (10) e stabilire, sempre che sia stato effettivamente riscontrato, quale punteggio-grezzo
corrisponde al massimo (15) assegnando in conseguenza i voti intermedi. Nel programma elettronico
denominato Conchiglia 2001, distribuito dall'Osservatorio ad uso delle commissioni, è disponibile anche
quest’anno una funzione che permette di eseguire rapidamente proprio questo tipo di conversione. Non si
tratta dell’unica procedura automatica utilizzabile per questa conversione dei dati. Molte altre sono possibili
e sono state variamente suggerite nelle reti dell'aggiornamento. Le possiamo classificare però in due
famiglie:
procedure che determinano automaticamente i livelli soglia in base alle caratteristiche della distribuzione dei
punteggi effettivamente assegnati,
procedure che consentono la conversione tra le due scale utilizzando i livelli soglia come valori in input,
fissati dalla commissione.
La procedura di Conchiglia è del secondo tipo poiché parte da una decisione (a priori o a posteriori, è
indifferente) adottata dalla commissione ed effettua solamente dei calcoli in modo del tutto strumentale.
Le procedure previste per l'assegnazione dei punteggi-voto, cioè le 'votazioni' che coinvolgono tutta la
commissione, sono perfettamente compatibili con questi ragionamenti che, se ben gestiti, potrebbero
condurre la commissione a formulare proposte di punteggio voto uniche e pervenire quindi a
determinazioni all'unanimità, almeno sulla terza prova scritta. Non solo Conchiglia ma anche un comune
foglio elettronico consente di effettuare semplici, o più complesse, elaborazioni dei dati grezzi ad uso di una
votazione più consapevole e documentata.
Assegnazione dei punteggi-grezzi Torniamo ora al problema fondamentale, alla fase della costruzione della terza prova, ed esaminiamo il caso
di prove costruite secondo il modello proposto dal Cede con uno o più testi di riferimento o quelle
cosiddette miste. In questo caso tutte le forme previste dalla legge per i quesiti sono consentite e occorre
decidere una opportuna distribuzione di punteggi da assegnare alle diverse domande che potranno essere di
vario tipo per formato, complessità e difficoltà.
Con quali criteri possiamo decidere di assegnare pesi diversi alle varie domande? Possiamo procedere in
diversi modi:
spesso si fa riferimento al livello di difficoltà. Si pensa che sia giusto riconoscere più punti alle domande che
ci sembrano più difficili rispetto alle altre. In effetti questo criterio potrebbe non essere opportuno o
necessario poiché quei pochi candidati che sanno rispondere a domande molto più difficili delle altre sanno
rispondere anche alle domande più facili e quindi si troveranno comunque positivamente discriminati dalla
prova complessiva;
possiamo differenziare i punteggi in base al tempo richiesto per rispondere ovvero alla complessità della
prestazione implicata dalla domanda. Sembra ovvio che una domanda aperta, che chiede la redazione di
cinque o dieci righe di testo, debba avere un punteggio maggiore di quello di una domanda chiusa in cui si
tratta di scegliere una risposta già formulata. Questo criterio può non concordare con il precedente poiché
un quesito chiuso può essere molto più difficile di una domanda aperta, ma il tempo richiesto al candidato
da un quesito chiuso è certamente minore di quello richiesto da una domanda aperta;
altri esaminatori potrebbero invece tener conto della complessità delle prestazioni accertate rispetto ad una
qualche tassonomia di riferimento. Si dà peso alla gerarchia che pone più in basso il semplice ricordo di fatti
singoli e di conoscenze slegate e più in alto l'applicazione alla soluzione di problemi o la formulazione di
giudizi, ciò anche in considerazione del fatto che i livelli più alti e complessi implicano il possesso dei livelli
più bassi. Anche questo criterio può essere meno ovvio di come appare, poiché i processi utilizzati per
rispondere al nostro quesito possono essere di natura diversa a seconda della preparazione del candidato,
per alcuni solo una risposta mnemonica e per altri un complesso ragionamento che tiene conto di tanti fatti
diversi;
un altro criterio può riferirsi invece alla gerarchia degli obiettivi fissati dal curricolo svolto. Dalla
documentazione del consiglio di classe dovrebbe apparire il diverso grado di importanza delle varie
conoscenze e competenze perseguite durante il corso. Se nel formulare i quesiti della terza prova saremo in
grado di dire quali aspetti di tale profilo sono saggiati, potremo anche premiare con pesi diversi le
prestazioni che hanno più importanza nel progetto educativo di quel consiglio di classe; la stessa domanda
potrebbe avere quindi pesi diversi se proposta a indirizzi di studio diversi;
si può ragionare come nel punto 4, ma facendo riferimento al curricolo formale e al profilo del candidato
teoricamente atteso dalla commissione.
Questa elencazione di possibilità, probabilmente non esaustiva, sottolinea la difficoltà del compito della
commissione: in pratica il criterio effettivo sarà un miscuglio dei cinque illustrati con una chiara
accentuazione dell'importanza del quarto criterio che centra l'attenzione sul progetto educativo realizzato
nella classe esaminata. In particolare il bilanciamento tra il quarto e il quinto potrebbero impegnare molto la
commissione, che deve conciliare due esigenze apparentemente opposte: tener conto del curricolo effettivo
della classe riferendo le valutazioni agli obiettivi fissati nell'istituto, e contemporaneamente assegnare un
punteggio finale spendibile in un vasto mercato del lavoro, in cui sarebbe giusta una certa confrontabilità
degli esiti.
Elementi di adeguatezza Se il punteggio assegnato ad un singolo quesito della terza prova ha una gamma sufficientemente vasta, ad
esempio cinque punti, sarà possibile attribuire tutti i valori della scala, e non solo lo 0 o il 5, per cui sarà
opportuno concordare preventivamente la modalità di attribuzione dei singoli punteggi. In questo volume
si fa spesso riferimento agli elementi di adeguatezza: con il termine adeguatezza si è evitato di evocare il termine
sufficienza, che si riteneva non dovesse essere veicolato dal volume, e che assumerebbe un valore puntuale di
soglia rigida traducibile in un valore dicotomico 0/1. Il termine suggerisce piuttosto una graduazione,
determinata proprio dalla presenza di un insieme di elementi che si possono contare. Se ad esempio nella
formulazione di una domanda aperta si chiedono le ragioni dell'entrata in guerra della nazione x nell'anno y
e la storiografia corrente ne elenca 5, potremo giudicare il grado di adeguatezza attraverso il numero delle
ragioni corrette addotte dal candidato e assegnare così l'intera gamma dei punteggi previsti. La questione è
molto meno banale di quanto possa sembrare da questo esempio ed implica la capacità di prevedere le varie
tipologie di risposta alla domanda: l'ideale sarebbe riuscire ad identificare in modo chiaro tutti gli elementi
che concorrono all'adeguatezza della risposta e per ciascuno di essi la qualità attesa. Qualsiasi membro della
commissione o qualsiasi altro docente della stessa materia dovrebbe poter procedere all'assegnazione dei
punteggi-grezzi in modo affidabile; cioè in modo tale che due correttori indipendenti diano allo stesso
elaborato lo stesso punteggio. Tale identificazione potrebbe essere realizzata elencando gli elementi
informativi attesi, come nell'esempio precedente, o descrivendo operativamente gli aspetti che concorrono
a definire la qualità della risposta (ad esempio in una risposta resa in lingua 2, il candidato potrebbe dare
una risposta errata nel merito ma impeccabile dal punto di vista linguistico, per cui sarà bene distinguere
questi due aspetti) o infine redigendo preventivamente delle tipologie di risposta che potranno essere usate
nella correzione come criterio ovvero come esempi di riferimento per identificare i livelli di adeguatezza
della risposta.
Oggettività e soggettività Le considerazioni sin qui sviluppate ripropongono più in generale la difficile questione del rapporto tra
accertamento e valutazione. Riproponiamo alcune riflessioni generali di metodo già illustrate sin dal primo
volume, ma la cui importanza è per noi centrale. La terza prova è nata, nelle prime proposte di molti anni
fa, come una prova oggettiva che doveva essere diffusa dal Ministero per rendere confrontabili gli esiti della
vecchia maturità. La proposta nasceva alla fine degli anni '80 da evidenze sperimentali che mostravano una
bassissima correlazione tra i voti della vecchia maturità e gli esiti di prove oggettive di profitto
somministrate su campioni rappresentativi a livello nazionale. Pur essendo diventata una prova del tutto
'locale', la terza prova mantiene caratteristiche tali da prestarsi meglio delle altre ad una lettura 'oggettiva' dei
risultati. Per come è concepita, la terza prova promette di essere più valida delle prime due, in quanto la
commissione può e deve adattarla al curricolo effettivo della classe e quindi può scegliere quesiti più validi
cioè più capaci di misurare quello che gli esaminatori vorrebbero misurare.
Questa caratteristica della terza prova è già emersa nel primo anno di attuazione dei nuovi esami, come
emerge dal grafico seguente, in cui come è stato osservato nel volume STP2000, ‘se compariamo i punteggi
standardizzati attribuiti in tutte le prove e nel credito scolastico rispetto ai vari ordine di studio, notiamo
che le due prove scritte, la seconda e la terza hanno un andamento sostanzialmente indipendente dal tipo di
scuola. Queste prove infatti misurano la competenza rispetto alle finalità proprie dell’indirizzo e sono
capaci di far emergere prestazioni specifiche anche eccellenti in tutti gli indirizzi'.
Medie punteggi standardizzati rispetto ai tipi di s cuole
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
Sperimentale Licei Professionali Tecnici
credito scolastico prima prova seconda prova terza prova colloquio votofinale
SESSIONE 1999
Figura 5 Medie punteggi standardizzati rispetto ai tipi di scuole 1999
Medie punteggi standardizzati rispetto ai tipi di s cuole
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
Sperimentali Licei Professionali Tecnici
credito scolastico prima prova seconda prova terza prova colloquio VOTO
SESSIONE 2000
A regime, la terza prova promette anche di essere più attendibile: infatti, con un adeguato numero di quesiti,
è possibile costruire scale abbastanza estese, in grado di effettuare una buona discriminazione tra i
candidati. Come è noto, l'attendibilità o affidabilità di una prova consiste nella sua capacità di misurare una
certa prestazione con adeguata precisione, cioè con un errore di misura non troppo grande. Come
esaminatori dobbiamo sempre ricordare che in qualsiasi misura il valore trovato è la somma del valore vero
e di un errore, cioè di un valore di disturbo casuale e quindi ineliminabile. Ciò anche in fisica! Nell'ambito
degli apprendimenti non potremmo parlare in senso stretto di misura in quanto non disponiamo di unità
campione e di uno zero: le misure che otteniamo sono solo scale numeriche che al più consentono di
stabilire graduatorie, ordinamenti tanto più attendibili quanto meno affetti da errori di misura. L'attendibilità
di una prova dipende dal numero dei quesiti (aumenta con l'aumentare dei quesiti come se ripetessimo le
misure) e dalla sua omogeneità (se il punteggio complessivo somma le misure di aspetti troppo eterogenei e
incoerenti, l'errore di misura rimane alto). L'omogeneità interna della prova è una caratteristica che dipende
direttamente dal lavoro preparatorio del consiglio di classe e dalla qualità della documentazione fornita alla
commissione e infine dal lavoro della commissione. Nonostante sia necessario saggiare competenze
afferenti a più discipline, occorrerebbe scegliere quesiti che si riferiscano a competenze trasversali,
sufficientemente integrate tra loro nella preparazione dei candidati. In questo caso l'integrazione tra le
discipline non va tanto ricercata a livello epistemologico tra le discipline quanto all'interno del lavoro
didattico realmente sviluppato nelle classi per vedere se e in che misura tale lavoro ha prodotto prestazioni
coerentemente integrate. La facile soluzione di assegnare solo poche domande aperte lasciate alla scelta
indipendente di ciascun commissari si può rivelare debole anche dal punto di vista metrologico, in quanto
tale formato fornisce misure scarsamente attendibili se non si dispone di griglie realmente affidabili mentre
il formato misto o quello proposto in questo volume consentono, se realmente coerenti con l'attività svolta
nella classe esaminata, di migliorare l'attendibilità stessa della prova. Inoltre, potendo inserire domande di
diverso formato, è possibile, come abbiamo suggerito nelle riflessioni iniziali, utilizzare delle scale con una
gamma di valori abbastanza estesa e quindi più selettiva.
E' infine utile ricordare che l'oggettività cui si fa qui riferimento non equivale all'esattezza delle misure, ma
all'indipendenza del valore del punteggio grezzo dal correttore della prova. Il punteggio-grezzo dovrebbe
dipendere solo dal livello di preparazione del candidato e dovrebbe essere inteso come una stima, la più
precisa possibile, del livello di competenza vero. Effettuata la misura, l'accertamento oggettivo, il punteggio
grezzo va interpretato e valutato e, in questa fase, le norme prevedono che la responsabilità sia collegiale e
che si esprima mediante una votazione. Questa è la fase soggettiva, in cui però la soggettività non equivale ad
arbitrarietà o incoerenza, ma piuttosto a responsabilità dei soggetti che giudicano in base a criteri,
eventualmente diversi. Le norme prevedono che possano esistere divergenze di valutazione da parte dei
commissari, per cui la stessa prestazione accertata e quantificata dal punteggio-grezzo potrebbe essere
tradotta in punteggi-voto diversi. Ma proprio il lavoro sulla costruzione della terza prova potrebbe
consentire alla commissione di convergere anche sui criteri per la valutazione ed evitare inopportune
spaccature in sede di votazioni sulle singole prove.
Chiudiamo questo intervento con la presentazione di alcuni dati del monitoraggio che evidenziano un fatto
emerso in entrambe le sessioni e che legano la questione dell'oggettività delle misurazione alla soggettività
dei criteri. Come si concilia la necessità di valutare in rapporto ai livelli effettivamente attesi dalla
programmazione della classe con l'opportunità di assegnare valutazioni comparabili sul territorio?
Confronti territoriali delle medie standardizzate d ei punteggi
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
nordovest nordest centro sud sudisole
credito scolastico prima prova seconda prova terza prova colloquio voto
SESSIONE 1999
Grafico … Confronti territoriali delle medie standardizate dei punteggi. Sessione 1999
Confronti territoriali delle medie standardizzate d ei punteggi
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
nordovest nordest centro sud sudisole
credito scolastico prima prova seconda prova terza prova colloquio voto
SESSIONE 2000
Grafico … Confronti territoriali delle medie standardizate dei punteggi. Sessione 2000
Dai due grafici emergono chiaramente due domande: quale punteggio corrisponde meglio alle differenze di
rendimento riscontrata ormai da tempi e per compentenze diverse sul territorio e che pone al primo posto
le regioni del nordest e agli ultimi le regioni del sud?
Vi è forse una sistematica differenziazione del livello di difficoltà della terza prova tra commissioni che
appartengono a regioni diverse? Mentre le prove ministeriali consentono l'uso di criteri di valutazione
diversi, a parità di traccia, la terza prova può variare in difficoltà e criterio di valutazione rendendo
l'andamento complessivo così differenziato rispetto alla variabile territoriale da porre un problema su cui
dovremo tutti ancora riflettere.
AAll lleeggaattoo 66
Un prodotto del Monitoraggio
Di Raimondo Bolletta Può essere utile, per meglio comprendere il significato, il valore ed i limiti di questo volume, dare qualche
informazione sulle modalità e sui criteri organizzativi seguiti dall'Osservatorio nella selezione delle prove
inserendo tale proposta nel quadro delle attività di monitoraggio.
Il regolamento sui nuovi esami di Stato prevedeva che nel plico contenente le schede dei presidenti, fosse
allegata anche una copia delle terze prove effettivamente assegnate nella prima sessione d'esami del 1999.
Le terze prove sono così diventate oggetto del monitoraggio e questa selezione ne costituisce un prodotto.
La raccolta è stata realizzata tramite la collaborazione dei provveditorati, i quali sono stati i primi destinatari
dei plichi preparati dai presidenti. In molti casi i provveditorati hanno controllato sistematicamente il
materiale pervenuto ed hanno assicurato la completezza della documentazione con solleciti e ricerche
presso le commissioni ed i singoli istituti scolastici.
Gran parte delle spedizioni alla ditta incaricata dal CEDE di effettuare le registrazioni dati della scheda dei
presidenti sono state fatte dopo l'estate 1999 e si sono protratte, in relazione alle dimensioni dei
provveditorati e al numero delle schede da controllare, per circa tre mesi fino a tutto novembre. La mole
imponente del materiale raccolto, circa 18.000 prove di quattro o cinque pagine l'una, ha sùbito richiesto la
definizione di una strategia operativa semplice ed efficiente che evitasse che l’impegno di tante commissioni
finisse in un archivio polveroso ed inutile.
Dai primi giorni di settembre 1999 i docenti comandanti nell'Osservatorio hanno iniziato a leggere le prove
raccolte per individuare quelle più interessanti da pubblicare nel sito in Internet del CEDE. Ma ben presto
ci si è accorti che l'impresa sarebbe stata impossibile per la quantità di tempo e di attenzione richiesti ad un
numero troppo esiguo di scrutinatori; altrettanto complesso e costoso risultava trascrivere le prove
prescelte.
Coerentemente con una concezione del monitoraggio che intende soprattutto dare visibilità ed elementi
fattuali ad uso di tutti i responsabili della qualità del processo, sentivamo l'urgenza di una restituzione del
materiale raccolto che fosse realmente utile ad uno sviluppo positivo dell'innovazione indotta dalla nuova
legge sugli esami di stato.
D’altronde, l'esame dei primi materiali ci convinceva dell'alto valore della documentazione raccolta: non era
mai accaduto che una tale varietà e quantità di materiali valutativi fosse raccolta in un unico luogo e fosse
completamente disponibile in tempi utili per migliorare il secondo ciclo di attuazione degli esami. Il valore
consiste soprattutto nel complesso delle prove che offre un quadro esauriente della molteplicità delle
opzioni possibili e della ricchezza, o della povertà, delle varie situazioni rappresentate dalle singole prove.
La soluzione del problema è stata di tipo tecnologico: la scansione di tutti i documenti per generare
immagine elettroniche e la possibilità di concentrare tutto in due CD-rom a costi particolarmente
ragionevoli e in tempi ridotti portavano alla decisione di indicizzate tutte le prove secondo semplici
descrittori e di costituire una base documentaria completa da diffondere presso le scuole mediante un CD
rom.
Tutto il materiale raccolto è stato quindi visionato in due stadi, il primo ha prodotto una classificazione di
tutte le prove secondo le seguenti variabili: il numero progressivo posto sulla prima pagina con codici a
barre, l’ordine degli studi, licei tecnici e professionali, gli indirizzi specifici, le materie coinvolte e la presenza
o meno delle griglie di valutazione e degli obiettivi.
Oltre a ciò il gruppo dei classificatori doveva mascherare con apposite etichette bianche tutti gli elementi di
identificazione della prova per renderla anonima e separare dal resto della collezione le prove centrate sulla
comprensione di uno o più testi e tutte quelle che si presentavano comunque con un titolo.
Solo questo sottoinsieme di prove, circa duemila, sono state oggetto di un secondo stadio di scelta ad opera
del gruppo dei docenti che operano all'interno dell'Osservatorio. Questa seconda selezione intendeva
verificare se e in che misura la commissione avesse inteso produrre una prova con un buon livello di
integrazione tra le competenze accertate.
Il lavoro di selezione è avvenuto basandosi sulla forte omogeneità di giudizi del gruppo di docenti, che,
ormai da più di un anno, stanno lavorando e riflettendo su queste tematiche, prima con la proposta di
modelli terze prove integrate pubblicate sul sito del cede www.cede.it e poi nel coordinamento della
produzione del repertorio di modelli di terze prove, denominato PTP1999 (Proposte di Terze Prove).
Ad una prima lettura ogni prova è stata classificata su quattro livelli
++ da pubblicare senza bisogno di un altro parere
+ forse da pubblicare ma con il parere di un altro collega
- forse da non pubblicare ma con il parere di un altro collega
-- da non pubblicare.
In pratica la maggior parte delle prove è passata al vaglio di due docenti che hanno concordato un giudizio
positivo. Una descrizione più approfondita di questa fase è contenuta nell’intervento successivo.
Le prove sono state rieditate integralmente, con la sola eliminazione delle informazioni relative alla
commissione o alla scuola per renderle anonime. In qualche raro caso vi è stata qualche semplificazione
degli apparati valutativi, ad esempio quando erano riportate le griglie valutative e la scheda usata per la
registrazione degli esiti, perfettamente identica alla griglia.
Questa selezione, per come è stata realizzata, non pretende quindi di rappresentare le prove migliori (non è
un’antologia) per due motivi:
3. molte altre prove potrebbero aver caratteristiche migliori ma sono sfuggite alla nostra attenzione solo perché non avevano ben evidente un titolo,
4. queste stesse potrebbero essere state poco adatte all’effettivo percorso didattico seguito dalla classe e quindi essere state, o potranno essere, considerate ‘non buone’ da altri.
Sono però certamente tali da meritare l’attenzione dei docenti e degli studenti poiché sollecitano un
approccio integrato all’accertamento delle competenze, che costituisce la vera sfida innovativa della terza
prova. Individuano certamente uno standard effettivo, raggiungibile forse da un numero più vasto di
commissioni, uno stimolo e uno strumento per diffondere idee su cui lavorare.
Questo volume rinvia quindi ad una lettura parallela del materiale presente nel CD rom, citato sopra, che le
scuole hanno ricevuto nel febbraio 1999, dal titolo Archivio delle terze prove sessione 1999, ATP1999. Il doppio
canale, il dispositivo elettronico e quello cartaceo tiene conto dei vincoli oggettivi in cui si lavora nella
scuola che non sempre consentono di avere a disposizione apparati tecnologici sofisticati.
Abbiamo deciso anche di conservare tutto il materiale in un unico volume senza separarlo per ordini di
studio. Confermiamo così l’intenzione dell’Osservatorio di dare visibilità reciproca a curricoli spesso molto
diversi che dovrebbero vicendevolmente conoscersi meglio, almeno nella rappresentazione degli esiti finali.
Per completare il quadro della problematica affrontata in generale dal monitoraggio e in particolare da
questa selezione riportiamo alcuni dati a titolo di esempio, rimandando per un approfondimento al sito
Internet già citato o al rapporto in via di pubblicazione per ulteriori approfondimenti.
La tabella mostra la distribuzione delle scelte delle commissioni rispetto al formato delle terze prove.
Come si può notare le commissioni hanno usato prevalentemente quesiti a scelta multipla anche se nella
prima fase di attuazione della riforma la normativa prevedeva la possibilità di limitarsi a solo 10 quesiti, il
che rendevano questa modalità poco consistente. Gli istituti professionali hanno preferito ricorrere ai casi
pratici e professionali, seguiti in ciò dagli istituti tecnici. I licei hanno optato al 42% per le scelte multiple e
al 32% per i quesiti con trattazione sintetica.
Le altre forme hanno avuto una consistenza più marginale sia per la maggiore difficoltà di preparazione
della prova in tempi ridotti come nel caso della prova integrata con testo di riferimento sia per qualche
diffidenza delle commissioni rispetto alla possibilità di richiedere lo sviluppo di un progetto su cui la classe
aveva già effettivamente lavorato durante l'anno. In realtà, le prove che i nostri classificatori hanno isolato
come prove con testo di riferimento sono state classificate dalle commissioni sotto altre voci, come casi
professionali o come trattazione sintetica. Come si può notare negli esempi selezionati spesso il 'testo'
consiste in un'immagine, uno schema, una consegna complessa.
Omesso Sperimentale Licei Professionali Tecnici
N % N % N % N % N %
1 1,9 93 4,0 183 3,2 124 3,9 236 3,1
trattazione sintetica 5 9,3 648 27,6 1843 32,3 354 11,2 1417 18,8
quesiti a risposta multipla 32 59,3 1037 44,1 2434 42,6 1026 32,6 3238 42,9
casi pratici e professionali 14 25,9 447 19,0 988 17,3 1415 44,9 2285 30,2
quesiti a risposta singola 18 0,8 5 0,1 19 0,6 127 1,7
problemi a soluzione rapida 15 0,6 7 0,1 101 3,2 121 1,6
sviluppo di progetti 54 2,3 195 3,4 37 1,2 62 0,8
con testo di riferimento 2 3,7 38 1,6 53 0,9 76 2,4 70 0,9
Totale 54 100 2350 100 5708 100 3152 100 7556 100
Certamente la nuove disposizioni per il secondo anno di attuazione, consentendo un uso più flessibile delle
varie forme, permetteranno alle commissioni una scelta più vasta e la produzione di prove più attendibili.
Sulla attendibilità di tali prove, sulla loro facilità e coerenza rispetto alle altre prove scritte vi è stato già una
diffuso dibattito, non sempre adeguatamente documentato.
Possono essere motivo di riflessione i grafici seguenti.
La distribuzione dei punteggi mostra che la terza prova non è stata una generale panacea in quanto ha
assegnato punteggi su tutta la banda anche su valori inferiori alla sufficienza. Rispetto alle altre due prove
scritte vanno notate due particolarità. Non presenta in 10, che è il valore di soglia per raggiungere la
sufficienza, un picco come accade invece alla prima prova e alla seconda ma ha un andamento regolare.
Essendo la terza prova una prova strutturata in cui in moltissimi casi la commissione ha convenuto a priori
i criteri di assegnazione di punteggi non si sono verificati quegli aggiustamenti intorno alla soglia di
sufficienza che sono invece evidenti nel caso della prima e della seconda prova. Questo è certamente un
elemento positivo che depone a favore dell'attendibilità della prova che funzionerebbe in modo più
'oggettivo' delle altre.
Il secondo aspetto da analizzare riguarda la frequenza del voto massimo che è più alta delle altre due prove.
Ciò potrebbe essere l'indizio di una scelta di alcune commissioni di rendere la terza prova più facile delle
altre al punto di saturare maggiormente il punteggio massimo.
Se si osserva però la distribuzione del punteggio complessivo assegnato nelle prove scritte emerge una
sostanziale regolarità e simmetria con il valore modale nel punto di mezzo tra la sufficienza e il massimo. La
leggera irregolarità sul 60, che ha assorbito alcuni casi che avrebbero dovuto 59, è probabilmente dovuto
alla volontà di alcune commissioni di concedere eventualmente il bonus nella fase finale.
Andamenti delle tre prove scritte
0
10000
20000
30000
40000
50000
60000
70000
80000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
prima prova seconda prova terza prova
Che ci sia stata però una variegata politica delle commissioni nel decidere il livello di difficoltà della prova
appare evidente dal grafico seguente.
Confronti territoriali medie prove scritte
9,5
10
10,5
11
11,5
12
12,5
nordovest nordest centro sud sudisole
prima prova seconda prova terza prova
Distribuzione alla fine delle prove scritte
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
0 10 20 30 40 50 60 70
Se si confrontano i valori assoluti dei punteggi medi nelle varie prove scritte distinti per strato territoriale si
nota chiaramente che il livello di difficoltà è stato diversamente pianificato e ciò è in contrasto anche con
quanto emerge nelle altre due prove. Questo volume e il CD rom ATP1999 vogliono rispondere a ai
problemi posti da questa situazione: una migliore conoscenza di ciò che effettivamente è stato proposto agli
studenti come terza prova consente di far convergere gradualmente il sistema verso una maggiore
condivisione degli standard di fatto meno circoscritti all'ambito del proprio distretto o della propria
provincia ed arrivare nel pieno rispetto della autonomia delle singole commissioni ad una cultura
maggiormente condivisa anche sulla terza prova.
Il grafico seguente sottolinea in vece un punto di forza della terza prova.
Medie punteggi standardizzati rispetto ai tipi di s cuole
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
Sperimentale Licei Professionali Tecnici
credito scolastico prima prova seconda prova terza prova colloquio votofinale
Se compariamo i punteggi standardizzati4 attribuiti in tutte le prove e nel credito scolastico rispetto ai vari
ordini di studio notiamo che le due prove scritte, la seconda e la terza, hanno un andamento
sostanzialmente indipendente dal tipo di scuola. Mentre nel credito scolastico nella prima prova e nel voto
finale si stabilisce quasi una gerarchia di valori, prima i licei poi i tecnici e quindi i professionali, la seconda e
terza prova riportano valori più vicini alla media generale, che nel grafico è rappresentata dallo zero per
tutte le scale. Ciò corrisponde ad una specifica finalità di queste prove che misurano la competenza rispetto
alle finalità proprie dell'indirizzo e che quindi consentono anche alle scuole con candidati più carenti,
soprattutto per altri aspetti linguistici, di far emergere prestazioni specifiche anche eccellenti.
Questo è un punto di difficoltà del nuovo esame di stato: come valutare la preparazione di un candidato?
facendo riferimento ad uno standard unico comune a tutti gli indirizzi di studio (è quello che in parte
accade nella prima prova e nell'ambito linguistico) o piuttosto al curricolo effettivamente seguito dai
candidati o, ancora, basandosi sugli obiettivi specifici dell'indirizzo di studio.
Questo volume è tentativo di contribuire ad una maggiore omogeneità e trasparenza di criteri e di strumenti
per gestire la valutazione finale degli studi secondari.
4 Per rendere confrontabili gli andamenti, le variabili Credito scolastico, Colloquio, Punteggi nelle prove scritte sono stati standardizzati (attraverso la riconduzione ad una scala unica) in modo che tutte abbiano stessa media 0 e stesso scarto 1.
i Azione 1. Raccolta su base campionaria dei documenti dei consigli di classe.
Obiettivo: raccogliere su un campione probabilistico nazionale, circa 200 esempi di
documentazioni e analizzarli secondo almeno due criteri di lettura: l’adeguatezza alla norma e la
ricchezza dei contenuti presentati
Azione 2. Raccolta su base campionaria di alcuni dati sensibili sullo svolgimento delle operazioni
fondamentali
Su un campione probabilistico di circa 400 scuole sono state monitorate circa 3000 commissioni
con la raccolta per via telematica di tre schede: 1. i crediti scolastici assegnati rapportati alla media aritmetica dei voti in una classe
opportunamente campionata della scuola. Le analisi complessive per tipi di scuola, per regioni geografiche e rispetto ad altre variabili esplicative sono state rese note al MPI prima della costituzioni delle commissioni.
2. la regolarità delle presenze nelle commissioni. E' stata rilevata la situazione delle presenze nel primo giorno di lavoro delle commissioni.
3. gli esiti aggregati del punteggio complessivo alla fine degli esami.
Azione 3 Studio approfondito dei colloqui
Azione 4 Raccolta ed analisi della scheda del presidente
Con tale azione si intende raccogliere sull'intero universo delle commissioni e dei candidati tutte le
principali informazioni relativi agli esiti.
Azione 5 Raccolta di tutte le terze prove assegnate
Tale azione prevista dal regolamento ha consentito la pubblicazione di un archivio elettronico
ATP2000 contenente le copie di circa 13.000 terze prove prodotte dalle commissioni e di un
volume con più di 500 terze prove denominato ST2000.
Azione 6 Raccolta di un campione di prime prove
Analisi sistematica approfondita per verificare l'impatto delle nuove tracce, i livelli di padronanza emergenti e i criteri di valutazione adottati dalle commissioni.