vqr: un metro rotto?
DESCRIPTION
Slides presentate al dibattito "Valutare la ricerca" organizzato dall'ADI (Associazione Dottorandi e Dottori di Ricerca Italiani), Pisa 29 novembre 2013. Partecipanti: A. Bonaccorsi (Univ. Pisa e ANVUR), G. De Nicolao (Univ. Pavia e Roars), A. Nuvolari (Scuola Sup. S. Anna)TRANSCRIPT
VQR: un metro ro-o?
Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione
Università di Pavia
Tesi: nelle aree bibliometriche la VQR è inaffidabile perché basata
su metriche disomogenee
1. Le aree sono scalibrate (peccato veniale) 2. Le bibliometrie degli SSD sono scalibrate
(fatal error)
3. Bibliometria e peer-‐review sono scalibrate (fatal error)
4. Classifiche credibili?
1. Le aree sono scalibrate ING-‐INF/05!
I due volB del quadrato magico del GEV09
BEST
WORST
Lo schema base ...
... ha due varianB ...
Quale bersaglio preferite?
0 punti 0 punti
ING-‐INF/05 Resto del GEV 09
JOURNAL RANKING JOURNAL RANKING
CITATIONS
BEST BEST
WORST WORST
0,5 pti
1 punto 1 punto
0,8 punti 0,8 punti
0,5 pti
and the loser is ... ING-‐INF/05!
and the loser is ... ING-‐INF/05!
Area 09: La VQR è invalidata
Per esempio, a parità di condizioni un diparJmento di Ing. Meccanica è
ingiustamente avvantaggiato rispeMo ad un diparJmento di Ing. InformaJca
Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?
Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR
Proviamo a visualizzare la Tabella A1.1 aMraverso la metafora del Jro con l’arco
Le basi di tiro
bibliometrico
E = 1 B = 0,8 A = 0,5 L = 0
20%
20%
10%
50%
Ma come sono faW i bersagli veri?
Ce lo dice l’ANVUR: infaR, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN
I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area
Ti piace vincere facile?
40%
25%
14%
21%
22%
21%
13%
44% Ingegneria Industriale e
dell’Informazione
Scienze
Mediche
Morale: Le for5 variazioni inter-‐area rendono i vo5
incomparabili tra aree diverse
L’ANVUR lo sa e scrive che i voB in aree diverse non sono comparabili ...
(peccato veniale)
... ma il problema è dentro le aree.
2. La bibliometria dei SSD è scalibrata
I bersagli dei SSD sono scalibraB? Sì, come confessa il GEV 09
I bersagli dei SSD sono scalibraB? Sì, come confessa il GEV 02
Area 02: lo schema base ....
.... e le ricalibrazioni
• Il GEV 02 ha ricalibrato
• Tutto bene, allora
• Non proprio, perché
1. Gli altri GEV non hanno ricalibrato
2. Ricalibrando, il GEV 02 ha cambiato la proporzione di peer-review (altra fonte di scalibrazione)
Tu-o è bene quel che finisce bene?
I bersagli dei SSD sono scalibraB? Altra evidenza dal GEV 09
Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science
I bersagli dei SSD sono scalibraB? Altra evidenza dal GEV 09
% ECCELLENTI VQR
% E
CC
ELLE
NTI
WoS
(Top
5%
) Area 09: confronto Web of Science vs VQR
... ma la misura esterna Top 5% non è troppo coerente con la % Eccellenti della VQR ...
VOTO MEDIO VQR
% E
CC
ELLE
NTI
WoS
(Top
5%
)
... e nemmeno con il voto medio VQR
Morale della favola
• Le bibliometrie dei SSD sono scalibrate (confessione del GEV 02)
• Area 09: SSD “eccellenY” per VQR non lo sono per Web of Science
FATAL ERROR?
3. Bibliometria e peer-‐review sono scalibrate
La versione ufficiale
“una più che adeguata concordanza tra valutazione peer e biblio”
Stesse identiche parole in tutti i rapporti di area 01-09
Visualizziamo la concordanza peer-‐review vs bibliometria
E
E
B
L
IR
IP L A B
A
Questo è il caso ideale (i giudizi concordano sempre).
Livelli di grigio proporzionali alla frequenza dei casi
VALUTAZIONE PEER
VALU
TAZIO
NE B
IBLIO
AGUZZATE LA VISTA: trovate la concordanza VQR (Area 09) in mezzo a 13 campioni casuali a concordanza nulla
CASO IDEALE
La versione ufficiale traballa ANVUR: k = 0, 1710 concordanza più che adeguata
Wikipedia: 0 ≤ k ≤ 0,4 concordanza scarsa
ANVUR: k = 0, 1710 concordanza più che adeguata
Wikipedia: 0 ≤ k ≤ 0,4 concordanza scarsa
La versione ufficiale traballa
Un errore di Wikipedia? Non sembra:
VOTO
MED
IO V
QR
% PEER REVIEW
il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer-review (!)
SSD: Voto medio VQR vs % peer review
Morale della favola • Valutazione bibliometrica e peer-‐review concordano poco
• VoY più bassi per chi ha % maggiore di prodoR valutaY in peer review
• SSD eccellenB secondo ANVUR non sono quelli eccellenB secondo Web of Science, ma quelli che hanno una bassa % di peer-‐review
FATAL ERROR?
4. Classifiche credibili?
SERGIO BENEDETTO (CONSIGLIO DIRETTIVO ANVUR)
4–02-2012!
Classifiche per chiudere
Area 9: Ingegneria Industriale e dell’informazione
Area 8b: Archite_ura
Messina meglio di Milano Politecnico?
Messina meglio di Milano Politecnico: sarà colpa di qualche errore casuale?
Ma l’ANVUR dice che ...
«Il caso non ha dunque nulla a che fare con i risultaB della Vqr»
S. Benede_o e R. Torrini h_p://www.lavoce.info/una-‐valutazione-‐molto-‐chiara/
«La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle Stru_ure, per i giovani che vogliono intraprendere gli studi universitari …»
S. Fantoni, “Una radiografia del sistema universitario”, in: I vo5 all’università, supplemento del Corriere della Sera, Luglio 2013, pag. 12
Proposta: stanziare borse di studio per gli studenY milanesi più capaci e meritevoli perché possano andare a studiare Archite_ura ed Ingegneria a Messina.
Problemi bibliometrici della VQR
• Non c’è uniformità del metro di giudizio bibliometrico tra le aree
• ForY indizi che il metro di giudizio sia disuniforme anche nelle le aree
• Il mix bibliometria/peer review introduce ulteriori disuniformità
• Conseguenza: sono credibili le pagelle VQR?
Cato mirari se aiebat, quod non rideret haruspex haruspicem cum vidisset
Cicerone, DE NATURA DEORUM, III, 26
Grazie per l’a_enzione!
AGUZZATE LA VISTA: trovate la vera VQR (Area 09) in mezzo a o-o VQR puramente casuali, simulate con il Lego