vqr: un metro rotto?

VQR: un metro ro-o?

Giuseppe De Nicolao Dip. Ingegneria Industriale e dell’Informazione

Università di Pavia

Tesi: nelle aree bibliometriche la VQR è inaffidabile perché basata

su metriche disomogenee

1.  Le aree sono scalibrate (peccato veniale) 2.  Le bibliometrie degli SSD sono scalibrate

(fatal error)

3.  Bibliometria e peer-‐review sono scalibrate (fatal error)

4.  Classifiche credibili?

1. Le aree sono scalibrate ING-‐INF/05!

I due volB del quadrato magico del GEV09

BEST

WORST

Lo schema base ...

... ha due varianB ...

Quale bersaglio preferite?

0 punti 0 punti

ING-‐INF/05 Resto del GEV 09

JOURNAL RANKING JOURNAL RANKING

CITATIONS

BEST BEST

WORST WORST

0,5 pti

1 punto 1 punto

0,8 punti 0,8 punti

0,5 pti

and the loser is ... ING-‐INF/05!

Area 09: La VQR è invalidata

Per esempio, a parità di condizioni un diparJmento di Ing. Meccanica è

ingiustamente avvantaggiato rispeMo ad un diparJmento di Ing. InformaJca

Per fortuna la scalibrazione tocca solo il GEV 09 ... o no?

Per rispondere, andiamo a leggere l’Appendice A del Rapporto Finale VQR

Proviamo a visualizzare la Tabella A1.1 aMraverso la metafora del Jro con l’arco

Le basi di tiro

bibliometrico

E = 1 B = 0,8 A = 0,5 L = 0

20%

20%

10%

50%

Ma come sono faW i bersagli veri?

Ce lo dice l’ANVUR: infaR, la Tabella A1.1 ci fornisce proprio le dimensioni degli anelli del bersaglio per ciascuna area CUN

I veri “bersagli VQR” sono diversi da quello teorico e cambiano da area ad area

Ti piace vincere facile?

40%

25%

14%

21%

22%

21%

13%

44% Ingegneria Industriale e

dell’Informazione

Scienze

Mediche

Morale: Le for5 variazioni inter-‐area rendono i vo5

incomparabili tra aree diverse

L’ANVUR lo sa e scrive che i voB in aree diverse non sono comparabili ...

(peccato veniale)

... ma il problema è dentro le aree.

2. La bibliometria dei SSD è scalibrata

I bersagli dei SSD sono scalibraB? Sì, come confessa il GEV 09

I bersagli dei SSD sono scalibraB? Sì, come confessa il GEV 02

Area 02: lo schema base ....

.... e le ricalibrazioni

•  Il GEV 02 ha ricalibrato

•  Tutto bene, allora

•  Non proprio, perché

1. Gli altri GEV non hanno ricalibrato

2.  Ricalibrando, il GEV 02 ha cambiato la proporzione di peer-review (altra fonte di scalibrazione)

Tu-o è bene quel che finisce bene?

I bersagli dei SSD sono scalibraB? Altra evidenza dal GEV 09

Nell’area 09 ci sono due misure “esterne” alla VQR: Top 1% e 5% secondo Web of Science

I bersagli dei SSD sono scalibraB? Altra evidenza dal GEV 09

% ECCELLENTI VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

) Area 09: confronto Web of Science vs VQR

... ma la misura esterna Top 5% non è troppo coerente con la % Eccellenti della VQR ...

VOTO MEDIO VQR

% E

CC

ELLE

NTI

WoS

(Top

5%

)

... e nemmeno con il voto medio VQR

Morale della favola

•  Le bibliometrie dei SSD sono scalibrate (confessione del GEV 02)

•  Area 09: SSD “eccellenY” per VQR non lo sono per Web of Science

FATAL ERROR?

3. Bibliometria e peer-‐review sono scalibrate

La versione ufficiale

“una più che adeguata concordanza tra valutazione peer e biblio”

Stesse identiche parole in tutti i rapporti di area 01-09

Visualizziamo la concordanza peer-‐review vs bibliometria

E

E

B

L

IR

IP L A B

A

Questo è il caso ideale (i giudizi concordano sempre).

Livelli di grigio proporzionali alla frequenza dei casi

VALUTAZIONE PEER

VALU

TAZIO

NE B

IBLIO

AGUZZATE LA VISTA: trovate la concordanza VQR (Area 09) in mezzo a 13 campioni casuali a concordanza nulla

CASO IDEALE

La versione ufficiale traballa ANVUR: k = 0, 1710 concordanza più che adeguata

Wikipedia: 0 ≤ k ≤ 0,4 concordanza scarsa

ANVUR: k = 0, 1710 concordanza più che adeguata

Wikipedia: 0 ≤ k ≤ 0,4 concordanza scarsa

La versione ufficiale traballa

Un errore di Wikipedia? Non sembra:

VOTO

MED

IO V

QR

% PEER REVIEW

il voto medio VQR di ogni SSD è ben predicibile dalla % di prodotti valutati mediante peer-review (!)

SSD: Voto medio VQR vs % peer review

Morale della favola •  Valutazione bibliometrica e peer-‐review concordano poco

•  VoY più bassi per chi ha % maggiore di prodoR valutaY in peer review

•  SSD eccellenB secondo ANVUR non sono quelli eccellenB secondo Web of Science, ma quelli che hanno una bassa % di peer-‐review

FATAL ERROR?

4. Classifiche credibili?

SERGIO BENEDETTO (CONSIGLIO DIRETTIVO ANVUR)

4–02-2012!

Classifiche per chiudere

Area 9: Ingegneria Industriale e dell’informazione

Area 8b: Archite_ura

Messina meglio di Milano Politecnico?

Messina meglio di Milano Politecnico: sarà colpa di qualche errore casuale?

Ma l’ANVUR dice che ...

«Il caso non ha dunque nulla a che fare con i risultaB della Vqr»

S. Benede_o e R. Torrini h_p://www.lavoce.info/una-‐valutazione-‐molto-‐chiara/

«La VQR in realtà ha come compito primario quello di creare conoscenza per il policy maker, per gli organi di governo delle Stru_ure, per i giovani che vogliono intraprendere gli studi universitari …»

S. Fantoni, “Una radiografia del sistema universitario”, in: I vo5 all’università, supplemento del Corriere della Sera, Luglio 2013, pag. 12

Proposta: stanziare borse di studio per gli studenY milanesi più capaci e meritevoli perché possano andare a studiare Archite_ura ed Ingegneria a Messina.

Problemi bibliometrici della VQR

•  Non c’è uniformità del metro di giudizio bibliometrico tra le aree

•  ForY indizi che il metro di giudizio sia disuniforme anche nelle le aree

•  Il mix bibliometria/peer review introduce ulteriori disuniformità

•  Conseguenza: sono credibili le pagelle VQR?

Cato mirari se aiebat, quod non rideret haruspex haruspicem cum vidisset

Cicerone, DE NATURA DEORUM, III, 26

Grazie per l’a_enzione!

AGUZZATE LA VISTA: trovate la vera VQR (Area 09) in mezzo a o-o VQR puramente casuali, simulate con il Lego

vqr: un metro rotto?

Education