1 métodos estatísticos para avaliação educacional e medida dalton f andrade (ine/ufsc -...

36
1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - [email protected]) 39a. Regional da ABE – Belém, 06/12/05

Upload: internet

Post on 17-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

1

Métodos Estatísticos para Avaliação Educacional e Medida

Dalton F Andrade (INE/UFSC - [email protected])

39a. Regional da ABE – Belém, 06/12/05

Page 2: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

2

Objetivos Apresentar alguns métodos estatísticos

utilizados em avaliações educacionais e medidaPlanejamento de ExperimentoAmostragemModelos Lineares Hierárquicos (ou

Multiníveis) – MLHTeoria da Resposta ao Item – TRI

Page 3: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

3

SAEB – Avaliação da Educação Básica

Avaliar o sistema de ensino Anos impares Séries terminais (4a./8a. EF + 3a. EM) Várias disciplinas (Português, Matemática, ...) Amostra de alunos Muitos itens (questões) Medir a proficiência do aluno Estudo de fatores associados

Page 4: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

4

Blocos Incompletos Balanceados - BIB

Avaliar uma grande parte de um currículo de uma determinada disciplina e série: necessário apresentar um grande número de itens aos alunos, maior do que eles poderiam responder em 2 horas de prova. Por exemplo, 169 itens de matemática para a 3a. série do EM: 13 conjuntos de 13 itens cada

Provas: Cadernos com 3 conjuntos cada 26 Provas, com conjuntos (itens) comuns Itens de outras séries e anos

Page 5: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

5

Blocos Incompletos Balanceados - BIB

Page 6: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

6

Amostragem complexa

Selecionar uma amostra de alunos satisfazendo certos critérios (região, dependência administrativa, período, ...) Unidade de interesse: aluno

Não existe lista com todos os alunos

Usar lista de escolas para selecionar escolas (Censo Escolar do INEP/MEC): ano anterior

Page 7: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

7

Amostragem complexa

Usar lista de alunos, das escolas selecionadas, para selecionar alunos

Amostragem por conglomerados em dois ou três estágios

Estratificação

Heleno Bolfarine e Wilton O. Bussab (2005). Elementos de Amostragem. São Paulo: Edgard Blücher (ABE-Projeto Fisher)

Page 8: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

8

Modelos Lineares Hierárquicos ou Multiníveis

Estudar como fatores de aluno, professor e escola estão associados com o desempenho dos alunos

Modelos de Regressão com estrutura especial de dependência

GOLDSTEIN, H. (1995). Multilevel Statistical Models. 2a ed. London: Edward Arnold.

RAUDENBUSH, S. W. e BRYK, A. S. (2002). Hierarchical Linear Models. 2a ed. Newbury Park: Sage.

Page 9: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

9

Modelos Lineares Hierárquicos ou Multiníveis

Modelo de regressão:

Y = f(X1, ..., Xp, W1, ..., Wq) + Erro

X: características de aluno (gênero, idade, escolaridade dos pais, tempo de estudo extra classe,...)

W: características de escola (dependência administrativa, localização, recursos pedagógicos, práticas pedagógicas, capacitação da equipe técnica,...)

Erro: independentes com distribuição normal

Page 10: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

10

Modelos Lineares Hierárquicos ou Multiníveis

Modelo multinível

X1: idade (em anos)

W1: dependência administrativa (1=particular, 0=pública)

Nível 1: aluno (8a. série)

proficij =0j + 1j (X1ij –14) + eij

Nível 2: escola

0j = 00 + 01W1j + u0j

1j = 10 + 11W1j + u1j

Page 11: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

11

Modelos Lineares Hierárquicos (ou Multiníveis)

Resultados do SAEB 2001

Partição da Variância Disciplina Série Escolar

Entre Estados Entre Escolas Entre Alunos

4ª 9,34% 27,79% 62,87%

8ª 5,65% 32,06% 62,29% Matemática

11ª 6,84% 36,52% 56,64%

4ª 7,60% 23,68% 68,72%

8ª 4,48% 26,02% 69,50% Português

11ª 5,89% 28,83% 65,28%

Page 12: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

12

Modelos Lineares Hierárquicos (ou Multiníveis)

Resultados do SAEB 2001: Matemática

Série Escolar

Fatores 4ª 8ª 11ª

Intercepto 172,63 (1,75) 240,31 (1,48) 277,05 (2,07)

Gênero 3,86 (0,32) 14,27 (0,37) 18,93 (0,46)

Raça 1,04 (0,34) 3,16 (0,38) 2,52 (0,48)

Defasagem -4,15 (0,18) -6,72 (0,21) -8,25 (0,23)

NSE 3,63 (0,21) 3,97 (0,25) 1,02 (0,30)

Rede 25,13 (1,10) 24,57 (1,23) 19,57 (1,46)

Média NSE 13,62 (0,62) 14,27 (0,71) 20,77 (1,00)

Média Defasagem -3,70 (0,49) -10,68 (0,49) -13,80 (0,70)

Seleção 3,27 (1,50) 12,89 (1,61) 17,28 (1,70)

Page 13: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

13

Teoria da Resposta ao Item - TRI

Medir a proficiência dos alunos Comparar os resultados entre séries (4a., 8a. EF e

3a. EM) Comparar os resultados ao longo dos anos (SAEB

realizado a cada dois anos) para uma mesma série

Realizar diferentes provas entre anos, entre séries e entre alunos de uma mesma série - BIB

Page 14: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

14

Teoria da Resposta ao Item - TRI

Teoria Clássica de Medida - TCM: 1. Resultados dependem do particular conjunto de questões que compõem a prova e dos indivíduos que a fizeram, ou seja, as análises e interpretações estão sempre associadas à prova como um todo e ao grupo de indivíduos.

2. Comparação entre indivíduos ou grupos de indivíduos somente é possível quando eles são submetidos às mesmas provas ou, pelo menos, ao que se denomina de provas paralelas, quase sempre difíceis de serem construídas.

Page 15: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

15

Teoria da Resposta ao Item Teoria da Resposta ao Item – TRI:

1. Muda o foco de análise da prova como um todo para a análise de cada item (questão).

2. Conjunto de modelos matemáticos que relacionam um ou mais traços latentes (não observados) de um indivíduo com a probabilidade deste dar uma certa resposta a um item

3. Traço latente: habilidade/proficiência em Matemática, Português, etc ...

Page 16: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

16

Teoria da Resposta ao Item4. A partir de respostas dadas por indivíduos a um conjunto de itens (prova) deseja-se :

estimar os parâmetros dos itens (calibração)

estimar a habilidade/proficiência do aluno

estimar a proficiência média de um grupo de alunos

5. A probabilidade de resposta a um item é modelada como função da proficiência do aluno e de parâmetros que expressam certas propriedades dos itens.

Page 17: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

17

Teoria da Resposta ao Item

6. Quanto maior a proficiência do aluno, maior a probabilidade de ele acertar o item (modelo acumulativo).

7. Propriedade importante: os parâmetros dos itens e as proficiências dos indivíduos são invariantes, exceto pela escolha de origem e escala.

Page 18: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

18

Teoria da Resposta ao ItemModelos: dependem do tipo de item

• Itens corrigidos como certo/errado: múltipla escolha ou abertos

Modelo Logístico (unidimensional) com 1, 2 ou 3 parâmetros

)b(aiijijijie1

1)c1(c)|1U(P

Page 19: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

19

Modelo Logístico de 3 parâmetros

Curva característica do item - CCI

0,0

0,2

0,4

0,6

0,8

1,0

-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0

habilidade (traço latente)

prob

abilid

ade

de re

spos

ta

corr

eta

b

a

c

iiiiiiii

a: discriminação ou inclinação do itemb: dificuldade (medido na mesma métrica do traço latente)c: probabilidade de acerto para indiv. com baixa habilidade

Page 20: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

20

Teoria da Resposta ao Item

im

hihjih

isjis

jijs

ba

baUP

1

)](exp[

)](exp[)|1(

Logístico modelo no como b e a com isis

• Modelo Nominal: considera todas as categorias de resposta

Page 21: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

21

Modelo Nominal

a=(-2,-1,1,0) e b=(-2,-1,2,1)

0,00,10,20,30,40,50,60,70,80,91,0

-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0

Traço latente

Pro

ba

bili

da

de

P1 P2 P3 P4

Page 22: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

22

Teoria da Resposta ao Item

)](exp[1

1

)](exp[1

1)|1(

)1(

siji

isjijijs

ba

baUP

iimiibbb ...

21

• Modelo de Resposta Gradual: categorias ordinais

Page 23: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

23

Modelo Resposta Gradual a=1,2 e b=(-2,-1,1)

0,00,20,40,60,81,01,2

-4,0 -3,0 -2,0 -1,0 0,0 1,0 2,0 3,0 4,0

Traço latente

Prob

abili

dade

P0 P1 P2 P3

Page 24: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

24

Teoria da Resposta ao Item

• Modelo de Crédito Parcial: Modelo de Resposta Gradual sem o parâmetro de discriminação a

• Modelo de Escala Gradual: Modelo de Resposta Gradual com bis = bi – ds

• Modelo de Grupos Múltiplos (várias populações)

Page 25: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

25

Teoria da Resposta ao Item Resultados

Banco de Itens: itens calibrados na mesma escala

Estimativa dos rendimentos médios na mesma escala, para cada uma das séries e disciplinas ao longo dos anos

Page 26: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

26

Teoria da Resposta ao Item

Matemática - Brasil

150

200

250

300

1995 1997 1999 2001 2003

anos

ren

dim

en

to m

éd

io

4a. 8a. 3a.

Page 27: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

27

Teoria da Resposta ao Item Resultados

Equalização entre avaliações estaduais e o SAEB

Estudo do funcionamento de itens (DIF)

Estudo do desgaste de itens (DRIFT)

Page 28: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

28

Referências bibliográficas ANDRADE, D. F., TAVARES, H. R., VALLE, R. C. (2000).

Teoria da Resposta ao Item: conceitos e aplicações. 14o SINAPE, Associação Brasileira de Estatística.

(Disponível em www.inf.ufsc.br/~dandrade/tri)

BAKER, F. B., (1992). Item Response Theory: Parameter Estimation Techniques. Marcel Dekker.

BOCK, R.D. & ZIMOWSKI, M.F. (1996). Multiple Group IRT, in Linden, W.J. van der & Hambleton, R.K. (eds). Handbook of Modern Item Response Theory, Springer.

Page 29: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

29

Referências bibliográficas KLEIN, R. (2003). Utilização da Teoria de Resposta ao Item

no Sistema Nacional de Avaliação da Educação Básica (SAEB). Ensaio: Avaliação e Políticas Públicas em Educação, Rio de Janeiro, v.11, n.40, p.283-296, 2003.

LORD, F.M. (1980). Applications of item response theory to practical testing problems.Hillsdale:Lawrence Erlbaum Associates Inc.

Sistema Nacional de Avaliação da Educação Básica: SAEB 2001, Relatório Técnico. (2002). Consórcio Fundação Cesgranrio/Fundação Carlos Chagas, Rio de Janeiro..

Page 30: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

30

Aplicação da TRI em Teste de Progresso

Avaliar o desempenho do aluno de curso de medicina

Prova realizada uma vez por ano por todos os alunos (1a.-6a.)

Comissão de avaliação do curso de medicina da UEL:

Sakai, M., Mashima, D., Ferreira Filho, O.F., Matsuo, T.

Page 31: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

31

Aplicações da TRI em outras áreas

Medir o grau de maturidade de uma empresa em relação a Gestão pela Qualidade

- Alexandre, J.W.C., Andrade, D.F., Vasconcelos, A.P. e Araújo, A.M.S.(2002). Uma proposta de análise de um construto para a medição dos fatores críticos da gestão pela qualidade através da teoria da resposta ao item. Gestão & Produção, v.9, n.2, p.129-141.

Medir o Nível de Qualidade de Vida Mesbah, M., Cole, B.F. and Lee, M.L.T.(2002). Ed. Statistical

methods for quality of life studies: design, measurements and analysis. Boston:Kluwer Academic Publishers

Page 32: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

32

Aplicações da TRI em outras áreas

Medir o Grau de Insegurança Alimentar Parke E. Wilde, Gerald J. and Dorothy R. Friedman (2004). Differential

Response Patterns Affect Food-Security Prevalence Estimates for Households with and without Children. J. Nutr.134: 1910–1915.

Med. Prev. Unicamp: profa. Ana Maria Segall Corrêa

Medir a Competência Clínica de Médicos Jishnu Das, Jeffrey Hammer (2005). Which doctor? Combining

vignettes and item response to measure clinical competence. Journal of Development Economics 78, 348-383.

Page 33: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

33

Aplicações da TRI em outras áreas

Medir o Grau de Depressão Embretson, S. E. and Reise, S. P. (2000). Item response

theory for psychologists. New Jersey: Lawrence Erlbaum Associates, Inc., Publishers.

Coleman, M. J., Matthysse, S., Levy, D. L., Cook, S., Lo, J. B. Y.,Rubin, D. B. and Holzman, P. S. (2002). Spatial and object working memory impairments in schizophrenia patients: a bayesian item-response theory analysis. Journal of Abnormal Psychology, 111, number 3, 425-435.

Dissertação de doutorado em Estatística no IME/USP.

Page 34: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

34

Aplicações da TRI em outras áreas

Medir o Grau de Satisfação do Consumidor Costa, M.B.F. (2001). Técnica derivada da teoria da resposta ao

item aplicada ao setor de serviços. Dissertação de Mestrado – PPGMUE/UFPR

Bayley, S. (2001). Measuring customer satisfaction. Evaluation Journal of Australasia, v. 1, no. 1, 8-16.

Bortolotti, S.L.V. (2003). Aplicação de um modelo de desdobramento da teoria da resposta ao item – TRI. Dissertação de Mestrado. EPS/UFSC.

Page 35: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

35

Aplicações da TRI em outras áreas

Medir o Grau de Depressão em Idosos

Yesavage JA, Brink TL Rose TL et al. (1983). Development and validation of a geriatric depression screening scale: a preliminary report. J Psychiat Res, 17:37-49.

UEL – Grupo de pesquisa em psiquiatria: Vargas, H.O., Matsuo, T., Blay, S., Andrade, D.F.

Page 36: 1 Métodos Estatísticos para Avaliação Educacional e Medida Dalton F Andrade (INE/UFSC - dandrade@inf.ufsc.br) 39a. Regional da ABE – Belém, 06/12/05

36

Aplicações da TRI em outras áreas

Genética: Medir a predisposição de um indivíduo em relação a uma certa doença

Tavares, H. R.; Andrade, D. F.; Pereira, C.A. (2004) Detection of determinant genes and diagnostic via item response theory. Genetics and Molecular Biology, v. 27, n. 4, p. 679-685.