avalicao online aprendiz: avaliacao da avaliacao
DESCRIPTION
UC Mestrado TIC e Educacao Instituto de Educacao Universidade de LisboaTRANSCRIPT
Critérios de qualidade da
Avaliação ou
A avaliação da avaliação
Critérios de qualidade em
avaliação: como avaliar?
UC: Avaliação Online das aprendizagens
2011_2012
Como avaliar?
Quando avaliar?
O quê avaliar?
Quem avaliar?
Para quê avaliar?
MétodosInstrumentos
SituaçõesEpisódios
AquisiçõesProduçõesSatisfaçãoProcessos
Percursos, ...
Alunos/FormandosProfessoresRecursos, Estratégias E-ACourse DesignDinamicasInstituições, ProgramasSistemas...
SeriaçãoSelecçãoCertificaçãoRegulaçãoDesenvolvimento ...
Como tem a educação
lidado com a
dificuldade da medida
????
UC: Avaliação Online das aprendizagensNeuza Pedro
Fenómeno ‘Elephant in the
room’
Soluções !?! a) ignora-se b) lida-se com isso
Medida, escalas, notas
Educational achievement is difficult to measure:
Measurement involve human capacities and acts are subject to special dificulties due chiefly to:1. The absence or imperfection in units in which to measure.2. The lack of constancy in the facts to be measured3. The extreme complexity of the measurement to be made.
Thorndike, E. L. (1904). Introduction to the theory of mental and social measurements. New York: Teachers College, Columbia University.
Controversial ‘Scientific
movement’ in Education
Psicologia Psicometria Sociologia Sociometria Economia EconometriaAntropologia
AntropometriaBiologia BiometriaQuímica Quimiometria Educação ___________
Medida, escalas, notas
Edumetria
Porque não se conhece o conceito ???
Critérios a considerar
em instrumentos de avaliação
1. Relevância
- Associado ao propósito do teste e à sua validade- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
avaliador- Não se questiona ainda a qualidade do item mas sim o seu fitness-to-
purpose
Questão: O tipo de questões integradas permitem avaliar o que se pretende?
Este item deverá pretencer a um instrumento desta natureza que assume esta função em particular neste
conjunto particular de circunstâncias?
2. Equilibrio
Questão: A proporção de questões associadas a cada um dos aspectos que
descrevem/caracterizam/compõem o que se pretende analisar então adequadamente expressos/representados no instrumento?
- Os diferentes elementos do que se pretende avaliar tem que ser explicíta, distinta e não-ambiguamente considerados e representados no instrumento
- Dificuldade em identificar claramente as categorias / areas de conteudos envolvidas (taxonomia)
3. Eficiência
- Um instrumento construido para 2h30 composto por 50 itens eficientemente construidos pode ser de tão má qualidade quanto um teste de 20 minutos com items totalmente disprovidos de eficiência
Questão: O instrumento faz um uso eficiente do tempo disponível para a sua aplicação?
E para a sua classificação?
4.Objectividade
- Requer a procura de precisão no significado, a eliminação de distorções das interpretações
- Perguntas difusas e/ou opções de respostas obscuras e excessivamente proximas
- Estimula a produção/centração excessiva em questões factuais
Questão: As questões apresentadas são claras o suficiente para as respostas possiveis serem entendíveis de forma comum por diferentes
pessoas?
5. Especificidade
- Entendida como um complemento à objectividade- Liga-se à desejabilidade em limitar os items de uma prova às
competências (ou conteúdos) particulares que se pretende que a prova contemple.
- Desta forma os itens da prova deveriam ser respondidos de forma pobre por sujeitos que não se haviam previamente debruçado pelo conteudo especifico (ou a sua resposta adequado seria fonte do acaso)
Questão: O tipo de questões integradas remetem especificamente para as competencias (conteudos)
que se pretentem considerar?
6. Dificuldade
- Implica uma referência à norma, à média - Util na procura de estabelecimento de equivalência entre provas- Muitas vezes a finalidade de uma prova reside (vagamente) na mente do
avaliador- Não se questiona a qualidade do item mas sim a sua taxa esperada de
respostas correctas e incorrectas- Pode ser factor a associar à estimação do valor/peso relativo de cada
questão
Questão: O tipo de questões integradas fazem com que, na globalidade, a prova revele um nível
adequado de dificuldade?
7. Discriminação
- O poder discriminativo de um item é estimado pela diferença entre a proporças de respostas correctas apresentadas por sujeitos com bons desempenhos e maus desempenhos
- Assenta no conceito de sensibilidade à variabilidade (inerente aos sujeitos)
Questão: O tipo de questões integradas permitem discriminar sujeitos com diferentes
desempenhos?
Distingue niveis de dominio do conhecimento/competências?
8. Fiabilidade
- Estabelece comparação entre desempenho entre a prova e outras provas equivalentes ou aplicações repetidas da mesma prova (que pretendem medir o mesmo)
- Integra o conceito de probabilidade de erro
Questão: O tipo de questões integradas permitem avaliar o mesmo que outros testes
similares, i e, que se centram sobre o mesmo foco?
9. Justiça (Fairness)
- Baseia-se num conceito relativo (A avaliação nunca é justa!!!)- Liga-se ao assegurar igualdade de circunstâncias- nao requer background especifico- Implica a não existência de ‘conflitos’ e de disturbios no interior da prova
(e no seu acto de administração/cotação)
Questão: A questões integradas estão construidas de modo a que diferentes sujeitos
consigam reunir as mesmas condições de modo a ter um ‘bom desempenho’?
10. Rapidez (Speededness)
- Não existe um valor absoluto ainda que se recomende o seu cálculo com base no tempo tomado por 90% dos sujeitos ao completar a ultima questão (Ebel, 1972)
- Determinante para a selecção da sequencialidade das questões (e sobretudo do que constará como ultimas questões)
- Encontram-se efeitos associados a este critério na avaliação online
Questão: O comprimento da prova é adequado ao tempo disponibilizado para completar da
mesma?O tempo disponibilizado permite atingir um bom
desempenho na mesma ?
Uma ‘boa prova’ deverá
ser:
• de relevo• equilibrada• eficiente• objectiva• específica• moderadamente complexa• discriminativa• fiel• justa • e não apenas disponível
por um período de tempo limitado
Indicadores para
avaliação de questões ou
itens
Definição:
proporção de respostas incorrectas encontradas conjuntamente no grupo de sujeitos com melhores e piores desempenhos
[ Porquê grupos extremos? Maior variabilidade! ]
> 0.40 = bom0.39 - 0.20 = moderado< 0.19 = muito reduzido(Ebel, 1972)
Índice de Dificuldade
Ex: grupo de 100 sujeitosGrupo 1 (melhor desempenho) = 27Número de respostas correctas: 20
Grupo 2 (pior desempenho) = 27Número de respostas correctas: 10
Total de respostas correctas encontradas= 20 + 10=30Total de respostas correctas possíveis = 54
Proporção de respostas correctas 54-30= 24 /54 = 0, 44
Aluno 1 Aluno 2 Aluno 3 Aluno 4 Aluno 5 Aluno 6 Aluno 7 Aluno 8 Aluno 9 Aluno 101 1 0 1 1 0 1 0 0 1 02 1 1 1 1 1 1 1 1 1 13 1 0 1 1 0 0 1 1 1 14 1 0 1 1 1 1 1 1 1 05 0 0 0 0 1 1 1 1 1 16 0 0 0 0 0 0 0 1 0 07 0 1 1 1 1 1 1 1 1 18 0 0 1 0 0 0 1 0 1 0
Aluno 9 Aluno 7 Aluno 8 Aluno 3 Aluno 4 Aluno 6 Aluno 5 Aluno 10 Aluno 1 Aluno 22 1 1 1 1 1 1 1 1 1 17 1 1 1 1 1 1 1 1 0 14 1 1 1 1 1 1 1 0 1 05 1 1 1 0 0 1 1 1 0 03 1 1 1 1 1 0 0 1 0 01 1 0 0 1 1 1 0 0 1 08 1 1 0 1 0 0 0 0 0 0
Distribuição dos índices de dificuldade
Definição:
Decorrente da dificuldade do item refere-se a diferença na proporção de respostas correctas verificadas nos grupos de sujeitos com melhores e piores desempenhos
> 0.40 = muito bom0.30 - 0.39 = bom0.20 – 0.29 = aceitável< 0.19 =pobre
(Ebel, 1972, p. 399)
Índice de Discriminaçã
o
Ex: grupo de 100 sujeitos
Grupo 1 (melhor desempenho) = 27Número de respostas correctas: 20 Grupo 2 (pior desempenho) = 27Número de respostas correctas: 10
Total de respostas correctas no grupo 1 - grupo 2 = 20-10= 10
Proporção do total de respostas correctas = 10/27 = 0, 37
Existe relação entre a soma dos índices de discriminação de cada item de um teste e a variância do score total do teste
𝜎 2=∑𝐷2
6
Na medida em que quanto maior a variância de um determinado número de itens, maior os coeficientes de fiabilidade então, quanto maior a média dos índices de discriminação, maior tenderá a ser também a fiabilidade.
Outros índices de discriminação
• Coeficiente de correlação Biserial• Coeficiente de correlação tetracórica• Coeficiente de Flanagan• Coeficiente de Davis
Indicadores de Fiabilidade
Referente à consistência entre diferentes medições
Ex: Se um instrumento dá sempre os mesmos resultados quando aplicado a 2 objectos (hipoteticamente) iguais, podemos confiar no significado da medida e dizer que a medida é fiável…
[ … sabendo que toda a medida tem sempre erro associado]
Indicadores de Fiabilidade
Estima (com base nos valores registados nos itens) quão uniformemente esses itens contribuem para a soma não ponderada do instrumentoEscala 0 a 1, onde 0 = revelaria nenhuma uniformidade ou consistência e 1 = uma uniformidade perfeita entre os itens
=
Consistência interna da escala=
coeficiente médio de todos as estimativas de consistência interna que se obteriam se todas as divisões possíveis do teste fossem feitas
Fiabilidade inaceitável <0.6Fiabilidade baixa 0.7Fiabilidade moderada 0.8-0.9Fiabilidade Elevada >0.9
Indicadores de Fiabilidade
• Teste-reteste, formas equivalentes coeficiente de correlação de Pearson
• Split-half Consistência corrigida de Spearman-Brown, Guttman
• Coeficiente Alpha cronbach (standardizado)
• Coeficiente de Kuder-Richardson (itens dicotómicos, ex. certo|errado)
• Acordo inter/intra-observador
Indicadores de Validade
O instrumento com erro sistemático é um instrumento com validade reduzida, é um instrumento que está a medir algo que não era suposto medir (mesmo que o faça de forma fiável).
Qualquer medida para ser válida enquanto medida de um dado construto, tem necessariamente de ser fiável. Pelo que, a fiabilidade surge como condição necessária, mas não suficiente, para a validade.
Após garantir fiabilidade é necessário pôr de lado a hipótese de existência de erro sistemático, para podermos garantir validade.
(Marôco & Garcia-Marques, 2006)
Indicadores de Validade
Conteúdo = se os conteúdos da prova (itens) representam o construto em análise, se existe validade lógica Avaliação por especialistas
Critério = validade por correspondência a um critério externo onde já se provou estar representado o construto em análise; fala-se assim em validade concorrente (actual) e validade preditiva (face a um desempenho futuro)
Calculo do Coeficiente de correlação com outras provas semelhantes
Construto = grau de consonância dos resultados Análise factorial
Indicadores para
avaliação de categorias
ou dimensões da prova
Teste de Inglês: D1) GramáticaD2) VocabulárioD3) regras funcionamento da língua D4) Compreensão do texto
Indicadores para
avaliação de opções de resposta a questões
Questões abertas vs fechadas (Essay or
objective tests)
Apoia: . Identificação de pontos fortes e fracos nos instrumentos de avaliação. sequenciar / localizar os itens no instrumento. identificar fragilidades nos enunciados e opções de resposta. promover a modificação/eliminação de questões. Equiparar/dividir provas. identificar distractores (elementos de elevada atractividade) nas opções de resposta . distribuir/concentrar o grau de dificuldade
… sobretudo a regular e promover melhorias no processo de avaliação… pela melhoria dos seus instrumentos
Como tem a educação
lidado com a
dificuldade da medida
????
UC: Avaliação Online das aprendizagensNeuza Pedro
Soluções !?! a) ignora-se b) lida-se com isso
c) mascara-se o problema
Requer-se uma (nova) literacia da avaliação
ReferênciasDierick, S., & Dochy, F. (2001). New lines in Edumetrics: New forms of assessment lead to new assessment criteria. Studies in educational evaluation, 27,4, 307-329.
Ebel, R. L. (1972). Essentials of educational measurement (2nd edition). New Jersey: Prentice Hall, Inc.
E-learning Lab UL (2011). Framework de avaliação de cursos online. Disponível em http://elearninglab.ul.pt/pagina/framework-de-avaliacao-de-cursos-em-e-learning
* Kelley, T. L. (1939). The selection of upper and lower groups for the validation of tests items. Journal of Educational Psychology, 30, 17,24.
Lagarto, J. (2009). Avaliação em e-learning. Educação, Formação & Tecnologias, 2 (1), pp. 19-29. Disponível em http://eft.educom.pt
Marôco, J., & Garcia-Marques, T. (2006). Qual a fiabilidade do alfa de Cronbach? Questões antigas e soluções modernas? Laboratório de Psicologia, 4(1), 65-90.[Disponível em http://repositorio.ispa.pt/bitstream/10400.12/133/1/LP%204(1)%20-%2065-90.pdf]
Ussher, B., & Earl, K., (2010). ‘Summative’ and ‘Formative’: Confused by the Assessment Terms? New Zealand Journal of Teachers’ Work, 7 (1), 53-63.