avalicao online aprendiz: avaliacao da avaliacao

Critérios de qualidade da

Avaliação ou

A avaliação da avaliação

Critérios de qualidade em

avaliação: como avaliar?

UC: Avaliação Online das aprendizagens

2011_2012

Como avaliar?

Quando avaliar?

O quê avaliar?

Quem avaliar?

Para quê avaliar?

MétodosInstrumentos

SituaçõesEpisódios

AquisiçõesProduçõesSatisfaçãoProcessos

Percursos, ...

Alunos/FormandosProfessoresRecursos, Estratégias E-ACourse DesignDinamicasInstituições, ProgramasSistemas...

SeriaçãoSelecçãoCertificaçãoRegulaçãoDesenvolvimento ...

Como tem a educação

lidado com a

dificuldade da medida

????

UC: Avaliação Online das aprendizagensNeuza Pedro

Fenómeno ‘Elephant in the

room’

Soluções !?! a) ignora-se b) lida-se com isso

Medida, escalas, notas

Educational achievement is difficult to measure:

Measurement involve human capacities and acts are subject to special dificulties due chiefly to:1. The absence or imperfection in units in which to measure.2. The lack of constancy in the facts to be measured3. The extreme complexity of the measurement to be made.

Thorndike, E. L. (1904). Introduction to the theory of mental and social measurements. New York: Teachers College, Columbia University.

Controversial ‘Scientific

movement’ in Education

Psicologia Psicometria Sociologia Sociometria Economia EconometriaAntropologia

AntropometriaBiologia BiometriaQuímica Quimiometria Educação ___________

Medida, escalas, notas

Edumetria

Porque não se conhece o conceito ???

Critérios a considerar

em instrumentos de avaliação

1. Relevância

- Associado ao propósito do teste e à sua validade- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do

avaliador- Não se questiona ainda a qualidade do item mas sim o seu fitness-to-

purpose

Questão: O tipo de questões integradas permitem avaliar o que se pretende?

Este item deverá pretencer a um instrumento desta natureza que assume esta função em particular neste

conjunto particular de circunstâncias?

2. Equilibrio

Questão: A proporção de questões associadas a cada um dos aspectos que

descrevem/caracterizam/compõem o que se pretende analisar então adequadamente expressos/representados no instrumento?

- Os diferentes elementos do que se pretende avaliar tem que ser explicíta, distinta e não-ambiguamente considerados e representados no instrumento

- Dificuldade em identificar claramente as categorias / areas de conteudos envolvidas (taxonomia)

3. Eficiência

- Um instrumento construido para 2h30 composto por 50 itens eficientemente construidos pode ser de tão má qualidade quanto um teste de 20 minutos com items totalmente disprovidos de eficiência

Questão: O instrumento faz um uso eficiente do tempo disponível para a sua aplicação?

E para a sua classificação?

4.Objectividade

- Requer a procura de precisão no significado, a eliminação de distorções das interpretações

- Perguntas difusas e/ou opções de respostas obscuras e excessivamente proximas

- Estimula a produção/centração excessiva em questões factuais

Questão: As questões apresentadas são claras o suficiente para as respostas possiveis serem entendíveis de forma comum por diferentes

pessoas?

5. Especificidade

- Entendida como um complemento à objectividade- Liga-se à desejabilidade em limitar os items de uma prova às

competências (ou conteúdos) particulares que se pretende que a prova contemple.

- Desta forma os itens da prova deveriam ser respondidos de forma pobre por sujeitos que não se haviam previamente debruçado pelo conteudo especifico (ou a sua resposta adequado seria fonte do acaso)

Questão: O tipo de questões integradas remetem especificamente para as competencias (conteudos)

que se pretentem considerar?

6. Dificuldade

- Implica uma referência à norma, à média - Util na procura de estabelecimento de equivalência entre provas- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do

avaliador- Não se questiona a qualidade do item mas sim a sua taxa esperada de

respostas correctas e incorrectas- Pode ser factor a associar à estimação do valor/peso relativo de cada

questão

Questão: O tipo de questões integradas fazem com que, na globalidade, a prova revele um nível

adequado de dificuldade?

7. Discriminação

- O poder discriminativo de um item é estimado pela diferença entre a proporças de respostas correctas apresentadas por sujeitos com bons desempenhos e maus desempenhos

- Assenta no conceito de sensibilidade à variabilidade (inerente aos sujeitos)

Questão: O tipo de questões integradas permitem discriminar sujeitos com diferentes

desempenhos?

Distingue niveis de dominio do conhecimento/competências?

8. Fiabilidade

- Estabelece comparação entre desempenho entre a prova e outras provas equivalentes ou aplicações repetidas da mesma prova (que pretendem medir o mesmo)

- Integra o conceito de probabilidade de erro

Questão: O tipo de questões integradas permitem avaliar o mesmo que outros testes

similares, i e, que se centram sobre o mesmo foco?

9. Justiça (Fairness)

- Baseia-se num conceito relativo (A avaliação nunca é justa!!!)- Liga-se ao assegurar igualdade de circunstâncias- nao requer background especifico- Implica a não existência de ‘conflitos’ e de disturbios no interior da prova

(e no seu acto de administração/cotação)

Questão: A questões integradas estão construidas de modo a que diferentes sujeitos

consigam reunir as mesmas condições de modo a ter um ‘bom desempenho’?

10. Rapidez (Speededness)

- Não existe um valor absoluto ainda que se recomende o seu cálculo com base no tempo tomado por 90% dos sujeitos ao completar a ultima questão (Ebel, 1972)

- Determinante para a selecção da sequencialidade das questões (e sobretudo do que constará como ultimas questões)

- Encontram-se efeitos associados a este critério na avaliação online

Questão: O comprimento da prova é adequado ao tempo disponibilizado para completar da

mesma?O tempo disponibilizado permite atingir um bom

desempenho na mesma ?

Uma ‘boa prova’ deverá

ser:

• de relevo• equilibrada• eficiente• objectiva• específica• moderadamente complexa• discriminativa• fiel• justa • e não apenas disponível

por um período de tempo limitado

Indicadores para

avaliação de questões ou

itens

Definição:

proporção de respostas incorrectas encontradas conjuntamente no grupo de sujeitos com melhores e piores desempenhos

[ Porquê grupos extremos? Maior variabilidade! ]

> 0.40 = bom0.39 - 0.20 = moderado< 0.19 = muito reduzido(Ebel, 1972)

Índice de Dificuldade

Ex: grupo de 100 sujeitosGrupo 1 (melhor desempenho) = 27Número de respostas correctas: 20

Grupo 2 (pior desempenho) = 27Número de respostas correctas: 10

Total de respostas correctas encontradas= 20 + 10=30Total de respostas correctas possíveis = 54

Proporção de respostas correctas 54-30= 24 /54 = 0, 44

Aluno 1 Aluno 2 Aluno 3 Aluno 4 Aluno 5 Aluno 6 Aluno 7 Aluno 8 Aluno 9 Aluno 101 1 0 1 1 0 1 0 0 1 02 1 1 1 1 1 1 1 1 1 13 1 0 1 1 0 0 1 1 1 14 1 0 1 1 1 1 1 1 1 05 0 0 0 0 1 1 1 1 1 16 0 0 0 0 0 0 0 1 0 07 0 1 1 1 1 1 1 1 1 18 0 0 1 0 0 0 1 0 1 0

Aluno 9 Aluno 7 Aluno 8 Aluno 3 Aluno 4 Aluno 6 Aluno 5 Aluno 10 Aluno 1 Aluno 22 1 1 1 1 1 1 1 1 1 17 1 1 1 1 1 1 1 1 0 14 1 1 1 1 1 1 1 0 1 05 1 1 1 0 0 1 1 1 0 03 1 1 1 1 1 0 0 1 0 01 1 0 0 1 1 1 0 0 1 08 1 1 0 1 0 0 0 0 0 0

Distribuição dos índices de dificuldade

Definição:

Decorrente da dificuldade do item refere-se a diferença na proporção de respostas correctas verificadas nos grupos de sujeitos com melhores e piores desempenhos

> 0.40 = muito bom0.30 - 0.39 = bom0.20 – 0.29 = aceitável< 0.19 =pobre

(Ebel, 1972, p. 399)

Índice de Discriminaçã

o

Ex: grupo de 100 sujeitos

Grupo 1 (melhor desempenho) = 27Número de respostas correctas: 20 Grupo 2 (pior desempenho) = 27Número de respostas correctas: 10

Total de respostas correctas no grupo 1 - grupo 2 = 20-10= 10

Proporção do total de respostas correctas = 10/27 = 0, 37

Existe relação entre a soma dos índices de discriminação de cada item de um teste e a variância do score total do teste

𝜎 2=∑𝐷2

6

Na medida em que quanto maior a variância de um determinado número de itens, maior os coeficientes de fiabilidade então, quanto maior a média dos índices de discriminação, maior tenderá a ser também a fiabilidade.

Outros índices de discriminação

• Coeficiente de correlação Biserial• Coeficiente de correlação tetracórica• Coeficiente de Flanagan• Coeficiente de Davis

Indicadores de Fiabilidade

Referente à consistência entre diferentes medições

Ex: Se um instrumento dá sempre os mesmos resultados quando aplicado a 2 objectos (hipoteticamente) iguais, podemos confiar no significado da medida e dizer que a medida é fiável…

[ … sabendo que toda a medida tem sempre erro associado]


Estima (com base nos valores registados nos itens) quão uniformemente esses itens contribuem para a soma não ponderada do instrumentoEscala 0 a 1, onde 0 = revelaria nenhuma uniformidade ou consistência e 1 = uma uniformidade perfeita entre os itens

=

Consistência interna da escala=

coeficiente médio de todos as estimativas de consistência interna que se obteriam se todas as divisões possíveis do teste fossem feitas

Fiabilidade inaceitável <0.6Fiabilidade baixa 0.7Fiabilidade moderada 0.8-0.9Fiabilidade Elevada >0.9


• Teste-reteste, formas equivalentes coeficiente de correlação de Pearson

• Split-half Consistência corrigida de Spearman-Brown, Guttman

• Coeficiente Alpha cronbach (standardizado)

• Coeficiente de Kuder-Richardson (itens dicotómicos, ex. certo|errado)

• Acordo inter/intra-observador

Indicadores de Validade

O instrumento com erro sistemático é um instrumento com validade reduzida, é um instrumento que está a medir algo que não era suposto medir (mesmo que o faça de forma fiável).

Qualquer medida para ser válida enquanto medida de um dado construto, tem necessariamente de ser fiável. Pelo que, a fiabilidade surge como condição necessária, mas não suficiente, para a validade.

Após garantir fiabilidade é necessário pôr de lado a hipótese de existência de erro sistemático, para podermos garantir validade.

(Marôco & Garcia-Marques, 2006)

Indicadores de Validade

Conteúdo = se os conteúdos da prova (itens) representam o construto em análise, se existe validade lógica Avaliação por especialistas

Critério = validade por correspondência a um critério externo onde já se provou estar representado o construto em análise; fala-se assim em validade concorrente (actual) e validade preditiva (face a um desempenho futuro)

Calculo do Coeficiente de correlação com outras provas semelhantes

Construto = grau de consonância dos resultados Análise factorial

Indicadores para

avaliação de categorias

ou dimensões da prova

Teste de Inglês: D1) GramáticaD2) VocabulárioD3) regras funcionamento da língua D4) Compreensão do texto

Indicadores para

avaliação de opções de resposta a questões

Questões abertas vs fechadas (Essay or

objective tests)

Apoia: . Identificação de pontos fortes e fracos nos instrumentos de avaliação. sequenciar / localizar os itens no instrumento. identificar fragilidades nos enunciados e opções de resposta. promover a modificação/eliminação de questões. Equiparar/dividir provas. identificar distractores (elementos de elevada atractividade) nas opções de resposta . distribuir/concentrar o grau de dificuldade

… sobretudo a regular e promover melhorias no processo de avaliação… pela melhoria dos seus instrumentos

Como tem a educação

lidado com a

dificuldade da medida

????

UC: Avaliação Online das aprendizagensNeuza Pedro

Soluções !?! a) ignora-se b) lida-se com isso

c) mascara-se o problema

Requer-se uma (nova) literacia da avaliação

ReferênciasDierick, S., & Dochy, F. (2001). New lines in Edumetrics: New forms of assessment lead to new assessment criteria. Studies in educational evaluation, 27,4, 307-329.

Ebel, R. L. (1972). Essentials of educational measurement (2nd edition). New Jersey: Prentice Hall, Inc.

E-learning Lab UL (2011). Framework de avaliação de cursos online. Disponível em http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning

* Kelley, T. L. (1939). The selection of upper and lower groups for the validation of tests items. Journal of Educational Psychology, 30, 17,24.

Lagarto, J. (2009). Avaliação em e-learning. Educação, Formação & Tecnologias, 2 (1), pp. 19-29. Disponível em http://eft.educom.pt

Marôco, J., & Garcia-Marques, T. (2006). Qual a fiabilidade do alfa de Cronbach? Questões antigas e soluções modernas? Laboratório de Psicologia, 4(1), 65-90.[Disponível em http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf]

Ussher, B., & Earl, K., (2010). ‘Summative’ and ‘Formative’: Confused by the Assessment Terms? New Zealand Journal of Teachers’ Work, 7 (1), 53-63.

http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning

http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning

http://eft.educom.pt/

http://eft.educom.pt/

http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf

http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf

avalicao online aprendiz: avaliacao da avaliacao

Documents