psicometria fundamentos.pdf

12
297 Avaliação Psicológica, 2012, 11(2), pp. 297-307 PSICOMETRIA: FUNDAMENTOS MATEMÁTICOS DA TEORIA CLÁSSICA DOS TESTES Ricardo Primi 1 – Universidade São Francisco, Itatiba, Brasil RESUMO Este artigo revisita textos clássicos em psicometria e apresenta os fundamentos matemáticos da Teoria Clássica dos Testes. Aborda o modelo matemático da análise fatorial, o modelo linear clássico, a derivação do índice de precisão e dos tipos de cálculo do coeficiente de precisão, o erro padrão da medida, o equacionamento da validade com a análise fatorial e, por último, a análise de itens. O texto interessa àqueles que queiram ampliar seu conhecimento nos conceitos de psicometria, entendendo de onde surgem as principais fórmulas que usamos na prática psicométrica de análise de testes e escalas. Palavras-chave: teoria clássica dos testes; psicometria; precisão; validade; análise fatorial. PSYCHOMETRICS: MATHEMATICAL FOUNDATIONS OF CLASSICAL TEST THEORY ABSTRACT This paper revisits the classic texts in psychometrics and presents the mathematical foundations of the classical test theory. It discusses the mathematical model of factor analysis, the classical linear model, the derivation of the reliability and types of calculation of the reliability coefficient, the standard error of measurement, the integration of validity with factor analy- sis and, finally, item analysis procedures. The text concerns those who want to deepen their knowledge in the concepts of psychometrics, understanding the origin of the main formulas that we use when doing psychometric analysis of tests and scales. Keywords: classical test theory; psychometrics; reliability; validity; factor analysis. PSICOMETRÍA: FUNDAMENTOS MATEMÁTICOS DE LA TEORÍA CLÁSICA DE LOS TESTS RESUMEN Este artículo repasa los textos clásicos en psicometría y presenta los fundamentos matemáticos de la teoría clásica de los testes. Explica el modelo matemático de análisis factorial, el modelo lineal clásico, la derivación del índice de precisión y los tipos de cálculo del coeficiente de precisión, el error estándar de medición, el ecuacionamento de la validez con el análisis factorial y, por último, el análisis de ítems. El texto es de interés para aquellos que desean ampliar sus conocimien- tos sobre los conceptos de la psicometría, la comprensión de donde surgen las principales fórmulas que se presentan en la práctica psicométrica de tests y escalas. Palabras-clave: teoría clásica de los tests; psicometría; precisión; validez; análisis factorial. 1 Endereço para correspondência: R. Dr. José Bonifácio Coutinho Nogueira, 225 - Cond. 4, Town House 8, 13091611 Campinas, São Paulo, Brasil. E-mail: [email protected] Essa pesquisa teve financiamento do CNPq.

Upload: thiagojuhas

Post on 18-Dec-2015

346 views

Category:

Documents


4 download

TRANSCRIPT

  • 297 Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    Psicometria: fundamentos matemticos da teoria clssica dos testes

    Ricardo Primi1 Universidade So Francisco, Itatiba, Brasil

    ResumoEste artigo revisita textos clssicos em psicometria e apresenta os fundamentos matemticos da Teoria Clssica dos Testes. Aborda o modelo matemtico da anlise fatorial, o modelo linear clssico, a derivao do ndice de preciso e dos tipos de clculo do coeficiente de preciso, o erro padro da medida, o equacionamento da validade com a anlise fatorial e, por ltimo, a anlise de itens. O texto interessa queles que queiram ampliar seu conhecimento nos conceitos de psicometria, entendendo de onde surgem as principais frmulas que usamos na prtica psicomtrica de anlise de testes e escalas.Palavras-chave: teoria clssica dos testes; psicometria; preciso; validade; anlise fatorial.

    Psychometrics: mathematical foundations of classical test theory

    AbstRActThis paper revisits the classic texts in psychometrics and presents the mathematical foundations of the classical test theory. It discusses the mathematical model of factor analysis, the classical linear model, the derivation of the reliability and types of calculation of the reliability coefficient, the standard error of measurement, the integration of validity with factor analy-sis and, finally, item analysis procedures. The text concerns those who want to deepen their knowledge in the concepts of psychometrics, understanding the origin of the main formulas that we use when doing psychometric analysis of tests and scales.Keywords: classical test theory; psychometrics; reliability; validity; factor analysis.

    Psicometra: fundamentos matemticos de la teora clsica de los tests

    ResumenEste artculo repasa los textos clsicos en psicometra y presenta los fundamentos matemticos de la teora clsica de los testes. Explica el modelo matemtico de anlisis factorial, el modelo lineal clsico, la derivacin del ndice de precisin y los tipos de clculo del coeficiente de precisin, el error estndar de medicin, el ecuacionamento de la validez con el anlisis factorial y, por ltimo, el anlisis de tems. El texto es de inters para aquellos que desean ampliar sus conocimien-tos sobre los conceptos de la psicometra, la comprensin de donde surgen las principales frmulas que se presentan en la prctica psicomtrica de tests y escalas.Palabras-clave: teora clsica de los tests; psicometra; precisin; validez; anlisis factorial.

    1 Endereo para correspondncia:R. Dr. Jos Bonifcio Coutinho Nogueira, 225 - Cond. 4, Town House 8, 13091611Campinas, So Paulo, Brasil.E-mail: [email protected]

    Essa pesquisa teve financiamento do CNPq.

  • Primi298

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    Com a popularizao do uso de computado-res, as anlises estatsticas e psicomtricas ficaram muito mais acessveis e fceis de serem executadas. A formao em ps-graduao tende, compreensivel-mente, a focar um contedo instrumental sobre como operar os programas e executar as anlises. Assim h uma carncia de formao mais aprofundada nos fundamentos dos procedimentos psicomtricos que so frequentemente usados nas pesquisas. Este artigo pretendeu revisitar trabalhos clssicos da psi-cometria (Ferguson 1981; Guilford 1954; Gulliksen, 1950; Lord, & Novick, 1974) e resumir os princpios matemticos da Teoria Clssica dos Testes (TCT). Pretende-se apresentar: o modelo matemtico da anlise fatorial, o modelo linear clssico, a deri-vao do ndice de preciso e dos tipos de clculo do coeficiente de preciso, o erro padro da medida, o equacionamento da validade com a anlise fatorial e, por ltimo, a anlise de itens. O texto interessa queles que queiram aprofundar seu conhecimento nos conceitos de psicometria, entendendo de onde surgem as principais frmulas que usamos na prtica psicomtrica de anlise de testes e escalas.

    Anlise fatorial e modelos estruturais da intelign-cia e personalidade

    Como afirma Cattell (1973), nas fases ini-ciais do desenvolvimento das cincias em geral, observam-se esforos procurando definir a taxono-mia ou estrutura de seu fenmeno particular. Assim, a qumica definiu inicialmente os elementos cons-tituintes da matria antes de edificar teorias gerais sobre fenmenos complexos. Essa orientao esteve presente nos estudos sobre a inteligncia, desen-volvidos pelos psicometristas no sculo passado. As pesquisas procuravam definir quais seriam as estruturas constituintes da inteligncia humana que seriam as causas do comportamento observvel.

    O objetivo central desses estudos era iden-tificar quais seriam as habilidades latentes bsicas, definindo o seu nmero e estrutura de organizao. Para isso, foi utilizada a anlise fatorial, que um mtodo estatstico que busca analisar estruturas em matrizes de covarincia ou correlao, redefinindo-as em um nmero menor de variveis. Segundo Johnson e Wichern (1992), o propsito essencial da anlise fatorial descrever, se possvel, as covarin-cias entre variveis em termos de um nmero menor de variveis aleatrias subjacentes, mas inobser-vveis, chamadas fatores (p. 396).

    Os psicometristas procuravam mensu-rar um conjunto amplo de habilidades cognitivas, por exemplo, por meio de uma bateria de testes de inteligncia envolvendo contedos diversificados. Segue-se ento a lgica de que se vrios testes esto altamente inter-relacionados, de maneira que se pode ento inferir a existncia de uma nica varivel latente, inobservvel, que responsvel por estas inter-relaes. Analisando os testes inter-relacio-nados, se chegaria a compreender essa estrutura. Formalmente, supondo que tenham sido observa-das p variveis em uma dada amostra de sujeitos, o modelo fatorial ortogonal diz que:

    X

    X

    X

    X

    l l

    l l

    F

    F

    e

    ep px p px

    m

    p pm pxmm mx

    m mx

    1

    1

    1

    1

    11 1

    1

    1

    1

    1

    1

    .

    ...

    .. .. .

    .

    ...

    =

    +

    +

    Onde:

    Xi = valor da i-sima varivel

    Xi =mdia da i-sima varivel

    lij = carga fatorial da varivel i no fator j

    Fj = valor do j-simo fator comum

    ei = valor do i-simo fator especfico

    m p< o nmero de fatores menor que o nmero de variveis

    O modelo fatorial ortogonal supe que: (1) a mdia dos valores dos fatores comuns e especficos seja zero, (2) a varincia dos fatores seja igual a 1 e a covarincia entre eles seja zero (portanto que a matriz de covarincia entre os fatores seja igual matriz identidade) e (3) a covarincia entre os fato-res especficos seja zero, portanto que a matriz de covarincia entre os fatores especficos seja igual a uma matriz diagonal. Portanto, para uma varivel particular i supe-se que seu valor possa ser dado pela seguinte equao:

    X X l F l F l F ei i i im m i= + + + +1 1 2 2 . . .+

    Pode-se notar nessa equao que: (1) o valor da varivel observada i est em funo de um conjunto m de variveis latentes (portanto inobservveis), ou

  • Psicometria: fundamentos matemticos da Teoria Clssica dos Testes 299

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    seja, os m fatores comuns (F1 . . . Fm), e tambm em funo de um componente especfico a esta varivel (ei). Assim, os desvios em relao mdia, ou seja, a varincia da varivel i explicada pela variao de um conjunto de variveis comuns, ou seja, asso-ciadas tambm varincia do conjunto mais amplo contendo as p variveis do qual a varivel i faz parte, e tambm pela variao especfica desta varivel que no compartilhada pelas outras p variveis; (2) a magnitude com que a variao de um determinado fator j est associada variao na varivel i, cha-mada de carga fatorial, dada por lij; (3) a relao entre os m fatores e a varivel i linear.

    Ainda, segundo o modelo fatorial ortogo-nal, a matriz de varincias e covarincias entre as p variveis poderia ser reescrita da seguinte forma (ver Johnson & Wichern, 1992, para a deduo detalhada dessa equao):

    Cov

    l l

    l l

    l l

    l l

    m

    p pm pxm

    p

    m mp mxpp pxp

    ( )

    .. .. .

    .

    . .. .

    . .

    ..

    X L L= + =

    +

    11 1

    1

    11 1

    1

    1 0 0 00 0 00 0 00 0 0

    O que resulta:

    Var X l lCov X X l l l lCov X F l

    i i im i

    i k i k im km

    i j ij

    ( ) ...( , ) ...( ),

    = + + += + +=

    12 2

    1 1

    Nota-se, na equao, que a varincia de uma varivel i dada pela soma do quadrado das cargas fatoriais desta varivel nos m fatores mais a varin-cia especfica. Essa soma dos quadrados das cargas tambm chamada de comunalidade e denotada por h2:

    h l li im2

    12 2= + +...

    Assim, a varincia da varivel i pode ser reescrita:

    Var X hi i( )= +2

    Tal equao aponta que a varincia de uma varivel i pode ser dividida em duas parcelas. A primeira, a comunalidade, representa a parcela da varincia dessa varivel associada s variaes dos fatores. O termo comunalidade refere-se ao fato de que, sendo os fatores comuns, sua variao est

    associada tambm s p-1 variveis restantes. Por-tanto, essa parcela da varincia de i potencialmente compartilhada pelas p-1 variveis restantes (usa-se o termo potencialmente compartilhvel, j que no se sabe a carga fatorial das p-1 variveis restantes). A segunda parcela, no entanto, representa a poro da varincia no associada aos m fatores, ou seja, no compartilhada pelas variveis restantes. Sendo assim, essa varincia especfica varivel em anlise.

    As equaes dizem ainda que a covarincia entre duas variveis igual soma dos produtos das cargas que estas variveis tm nos fatores comuns, ou seja, sua covarincia nica e exclusivamente dada pelos fatores. Elas tambm mostram que a covarincia entre uma varivel e um fator igual carga da varivel no fator.

    Com a anlise fatorial, a psicometria pro-curou explicar a relao entre escores de diferentes testes em funo de um nmero menor de habili-dades latentes. Nota-se, portanto, que esse mtodo tentou criar um modelo para explicar as diferenas entre indivduos nos escores dos testes (portanto os desvios em relao mdia, Xi X dos resul-tados dos n sujeitos, nas p medidas efetuadas) em funo de um conjunto menor de variveis latentes (Fj). Essas estruturas seriam as habilidades mentais latentes que representariam as causas das diferenas, entre os sujeitos, nos escores dos testes.

    Diante do exposto, fica claro que a an-lise fatorial tornou possvel o estudo emprico de variveis internas no observveis, diretamente, sejam elas da inteligncia ou personalidade e por isto representou um grande avano para a psicolo-gia. Isso ocorreu porque o pesquisador podia partir de um conjunto de variveis observveis e, por meio das inter-relaes entre elas, investigar as possveis dimenses subjacentes que seriam as causas desses comportamentos. Nota-se que esse mtodo pura-mente correlacional, no implicando, em nenhum momento, na manipulao experimental. Em uma analogia interessante, Cattell (1975) tornou claro o mtodo da anlise fatorial:

    O problema que por muitos anos descon-certou os psiclogos era encontrar um mtodo que deslindasse essas influncias funcionalmente unit-rias na floresta catica do comportamento humano. Mas como que numa floresta tropical de fato decide o caador se as manchas escuras que v so dois ou trs troncos apodrecidos ou um s jacar? Ele fica

  • Primi300

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    espera de movimento. Se eles se movem juntos - aparecem e desaparecem juntos - ele conclui por uma nica estrutura. Da mesma forma como John Stuart Mill observou em sua filosofia da cincia o cientista deveria ter em mira a variao concomi-tante na busca de conceitos unitrios (p. 55).

    Utilizando esse instrumental estatstico, os psicometristas investigaram a estrutura da intelign-cia (bem como da personalidade). Surgiram, ento, vrias teorias postulando estruturas nicas, mltiplas e simultaneamente nicas e mltiplas. Uma reviso desses modelos pode ser encontrada em Sternberg (1981, 1984, 1986) e Almeida (1988).

    Preciso e validadeAo lado da pesquisa sobre as estruturas da

    personalidade, a psicometria foi tambm respon-svel pelo aprimoramento das tcnicas de medida na psicologia. Ela foi e continua sendo um ramo espe-cfico da psicologia, destinado ao desenvolvimento de tcnicas de mensurao de variveis psicolgicas, introduzindo um instrumental estatstico adequado as suas complexidades. Seus fundamentos bsicos so parte do que se chamou teoria clssica dos testes.

    Os instrumentos de avaliao psicolgica podem ser caracterizados por duas propriedades mtricas bsicas: Preciso e Validade [em ingls: reliability, validity]. Preciso est associada ao erro de medida, isto , diferena entre o escore observado de um sujeito em um teste, do valor ver-dadeiro que ele tem na varivel latente. Em razo da complexidade prpria s variveis psicolgi-cas, praticamente nunca a variabilidade em escores observados refletem com exatido e preciso as dife-renas reais na varivel latente. Sempre haver um erro de medida, ou seja, variaes que no refletem as diferenas reais. Portanto, uma prtica corrente estimar a preciso de um determinado teste para con-seguir estabelecer uma expectativa de quo errnea poder ser a medida.

    Validade, por sua vez, relaciona-se questo que investiga se o teste est medindo o construto que se prope medir. Nesse sentido, de se esperar que a variao nos escores observados em um teste esteja associada, em certo grau, ao construto psicolgico que o teste se prope medir. Os estudos de validade investigam essa expectativa testando empiricamente se o teste est medindo a varivel conforme foi planejado.

    Sobre as relaes entre essas duas proprie-dades dos testes, sabe-se que uma boa preciso uma condio necessria, mas no suficiente para que um teste seja vlido. Mesmo preciso, um teste pode estar medindo uma varivel diferente daquela a que se props. Assim, a psicometria estruturou um sistema conceitual bsico, o qual denominou modelo linear clssico. Esse sistema ser tratado a seguir e resume a exposio feita nos trabalhos de Ferguson (1981), Guilford (1954), Gulliksen (1950), Muiz (1994) e Pivatto (1992).

    O modelo linear clssico: PrecisoO modelo linear clssico postula que um

    escore observado de um determinado sujeito Xi em um teste pode ser decomposto em duas partes aditivas:

    (1) Ti, o escore verdadeiro [em ingls: true score] do sujeito na varivel medida pelo teste;

    (2) ei, o escore de erro que ocorre em funo da impreciso das medidas psicolgicas.

    Assim, o escore observado pode ser definido como:

    X T ei i i= +

    O escore verdadeiro (Ti) pode ser concebido teoricamente de duas maneiras: (a) uma medida da varivel em anlise, sob condies ideais, usando um instrumento perfeito ou (b) a mdia de um conjunto de infinitas medidas da mesma varivel, no mesmo sujeito, quando estas so independentes, usando um instrumento imperfeito com erros de medidas. Fer-guson (1981) estabelece essa definio como:

    TX

    Ki k

    ij

    k

    =

    =

    lim 1

    O escore de erro (ei) pode ser entendido como uma varivel aleatria associada a eventuais erros associados s condies particulares de aplicao. Ele assume valores positivos e negativos, fazendo, portanto, com que os escores observados sejam ora maiores e ora menores do que os escores ver-dadeiros. Assume-se que o erro seja assistemtico, aleatrio, ou seja, no mostra tendncia sistemtica de assumir valores positivos ou negativos. Nota-se

  • Psicometria: fundamentos matemticos da Teoria Clssica dos Testes 301

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    que o valor do escore verdadeiro fixo entre diferen-tes aplicaes, enquanto o erro tende a variar.

    Ainda seguindo essa lgica, trs postulados so explicitados:

    (1) Se os erros so assistemticos, em um conjunto grande de medidas, a mdia dos erros ser igual a zero:

    e =0

    (2) em um grande conjunto de medidas espera-se que no exista correlao entre os escores verdadeiros e os escores de erro, j que razovel supor que sujeitos com altos escores tenham a mesma tendncia a sofrer acrscimos (erro positivo) ou decrscimos em seus escores (erro negativo) e vice versa:

    te =0

    (3) supe-se que no existir correlao entre os escores de erro de dois testes diferentes a e b, que meam a mesma varivel, portanto testes paralelos:

    e ea b =0

    Como decorrncia da definio e dos pos-tulados, vrias relaes podem ser deduzidas. Com relao mdia, pode-se dizer que, supondo que se mea uma determinada varivel em uma populao, a mdia destes escores observados pode ser escrita como:

    XT e

    N

    T

    N

    e

    NT e T

    i ii

    N

    ii

    N

    ii

    N

    =+

    = + = + == = = ( )

    1 1 1

    X T=

    Assim, a mdia de um conjunto muito grande de escores observados igual mdia dos escores verdadeiros. Entretanto, a varincia dos escores observados dada por:

    x t e te t e t e t e2 2 2 2 22 2 0= + + = + + ( )

    x t e2 2 2= +

    Portanto, como no h correlao entre escore de erro e escore verdadeiro, a varincia do

    escore observado no sofrer contribuio vinda da covarincia entre escore de erro e escore verdadeiro, restringindo-se varincia dos escores verdadei-ros mais a varincia dos escores dos erros. Uma deduo importante ocorre quando se aplicam esses princpios equao da covarincia entre os escores observados e os escores verdadeiros, tal como dada a seguir:

    [ ] [ ] tx

    ii

    N

    i i i ii

    N

    i i ii

    N

    T T X X

    N

    T T T e T

    N

    T T T T e

    N2 1 1 1=

    =

    + =

    += = = ( )( ) ( )(( ) ) ( )( )

    [ ] tx

    i i i i i ii

    N

    i i i ii

    N

    ii

    N

    i

    N

    T T T T e TT T Te

    N

    T T T T T e NX e

    N2

    2 2

    1

    2 2

    1 11

    2=

    + + =

    + + = = == ( ) ( ) )

    tx

    i ii

    N

    i

    N

    t

    T T T T

    N

    T T

    N2

    2 2

    1

    2

    1 2

    2 0 0=

    + + =

    == =

    ( ) ( ) ( ) ( )

    tx t2 2=

    Nota-se, por meio dessa deduo que, como o erro no est correlacionado com o escore verda-deiro, os termos da equao que contm o escore de erro desaparecem. Assim, a covarincia entre o escore observado e o escore verdadeiro igual varincia do escore verdadeiro. Utilizando essas informaes no clculo do coeficiente de correlao, entre o escore observado e o escore verdadeiro, tem-se que:

    tx

    ii

    N

    i

    t x

    ii

    N

    i

    t xt

    t x

    t

    t x

    t

    x

    T T X X

    N

    T T X X

    N=

    =

    = = == =

    ( )( ) ( )( )1 1 2

    21 1

    tx

    t

    x

    =

    Essa equao diz que a correlao entre o escore verdadeiro e o escore observado igual a uma proporo entre os desvios do escore verdadeiro e os desvios do escore observado. Essa frmula refere-se variao em termos de desvios padro. Contudo, na literatura, definiu-se o ndice de preciso [em ingls: index of reliability - tt ] utilizando, em vez do des-vio padro, a varincia. Assim, esse dado por:

    ( )

    tt txt

    x x

    t= =

    =

    22 2

    2

    tt x

    t=

    2

    2

    Como a varincia do escore observado ( x2

    ) composta pela varincia do escore verdadeiro mais

  • Primi302

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    a varincia do escore de erro, o ndice de preciso sempre ser igual ou maior que a varincia do escore

    verdadeiro ( t2 ). Portanto, esse ndice assume valo-

    res entre 0 e 1. O seu valor significa qual parcela da varincia dos escores observados varincia verda-deira. Quanto menor for o coeficiente, menor ser a parcela verdadeira e maior a parcela de erro de medida. Outra forma de se expressar o ndice de pre-ciso, por meio de substituies nas frmulas dadas, :

    tt

    e

    x

    = 12

    2

    Nessa frmula, fica evidente que, quanto maior for a proporo do erro na varincia total do escore observado, mais prxima de 1 fica a segunda parte da equao e menor o ndice de preciso. Con-hecendo os valores da varincia do escore verdadeiro e do escore observado, pode-se calcular o ndice de preciso. Contudo, como o escore verdadeiro no observvel diretamente, sua varincia desconhe-cida. O mtodo de estimao desse ndice decorre do conceito de formas paralelas de um teste. Formas paralelas de um mesmo teste equivalem a medidas idnticas, independentes, de uma mesma varivel psicolgica. Medidas paralelas tm a mesma mdia, varincia e correlao entre todos os pares possveis entre as formas (Guilford, 1954). Sendo assim, como demonstra Ferguson (1981), aplicando-se duas formas paralelas a e b de um mesmo teste a uma populao, tem-se que:

    X T eia i ia= +X T eib i ib= +

    Nota-se que as duas medidas esto em funo do mesmo escore verdadeiro e ambas sujeitas a erros. Calculando-se a correlao entre os escores observados, tem-se:

    ( )( ) ( )( )

    abia

    i

    N

    ib

    a b

    i iai

    N

    i ib

    a b

    X T X T

    N

    T e T T e T

    N=

    =

    + + = =

    1 1

    ( ) ( )

    [ ]

    abi i ib i ia i ia ib ia i ib

    i

    N

    a b

    T T e TT e T e e e T TT Te T

    N=

    + + + += 2 2

    1

    Como os escores de erro so aleatrios e no esto correlacionados entre si e nem com os escores verdadeiros, os termos que contm escore de erro sero iguais a zero, assim:

    [ ] ( )

    ab

    i ii

    N

    a b

    ii

    N

    a b a b

    T TT T

    N

    T T

    N=

    +=

    == =

    2 21

    2

    122

    Como os desvios padres so iguais para as duas formas paralelas sa = sb = sx, ento

    ab tt x

    t= =

    2

    2

    Conclui-se, a partir da deduo exposta, que a correlao entre os escores observados igual ao ndice de preciso. Com base nesse fato, a pr-tica de estimao da preciso de um teste envolve, de alguma forma, correlacionar medidas paralelas. Anastasi (1961) faz uma descrio detalhada dos mtodos empregados na estimao do ndice de pre-ciso. Basicamente so quatro.

    O primeiro mtodo denominado preciso por formas alternativas e consiste na aplicao simultnea, mesma amostra, de duas formas para-lelas de um teste. A estimao do ndice de preciso dada pela correlao entre os dois escores obser-vados, como ficou evidente na deduo apresentada anteriormente.

    O segundo mtodo denominado preciso teste-reteste e envolve a aplicao do mesmo teste, em uma mesma amostra, duas vezes, supondo que estas duas aplicaes sejam independentes, ou seja, a primeira no influencie a segunda. O ndice de preciso dado mais uma vez pela correlao entre os dois conjuntos de escores. Isso se d porque evidente que a forma mais paralela possvel de um determinado teste ele mesmo. Podendo-se supor que a primeira aplicao no afete a segunda, tm-se duas medidas paralelas do mesmo construto e a deduo apresentada, referente correlao entre dois escores paralelos, passa a ser vlida.

    O terceiro mtodo denominado preciso pelas metades e consiste na aplicao de um nico teste a uma nica amostra e, posteriormente, na diviso deste teste em duas metades comparveis, isto , duas metades semelhantes, ou paralelas. A correlao entre essas duas metades igual

  • Psicometria: fundamentos matemticos da Teoria Clssica dos Testes 303

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    estimao do ndice de preciso. Supe-se que, estando todos os itens de um teste medindo o mesmo construto psicolgico, a diviso deste teste em duas metades comparveis equivale a obter duas medidas por meio de formas paralelas do mesmo teste e, por-tanto, passam a ser vlidas as dedues para medidas paralelas.

    Nesse ltimo caso, da preciso pelas meta-tes, como o coeficiente de preciso afetado pelo nmero de itens que compem o teste, comum empregar uma frmula denominada correo de Spearman-Brown para se estimar o coeficiente de preciso caso o teste fosse composto por duas vezes mais itens. Isso feito porque o coeficiente de corre-lao calculado a partir de um teste com a metade do nmero de itens da forma. A frmula empregada (para uma deduo detalhada, da equao a seguir, a partir das equaes apresentadas anteriormente, veja Muiz, 1994 ou Guilford, 1954):

    r rrtttt

    tt2

    21

    =+

    O quarto mtodo denominado preciso por consistncia interna. Esse mtodo se baseia-se na suposio de que cada item representa uma medida paralela do mesmo construto e, portanto, pode-se estimar a preciso de um teste baseando-se na cova-rincia entre os itens. Ou seja, se a correlao entre medidas paralelas igual ao ndice de preciso e cada item do teste uma medida paralela do cons-truto em anlise, ento se pode estimar o coeficiente de preciso baseando-se nas intercorrelaes entre os itens. Esse coeficiente foi desenvolvido em 1937 por Kuder e Richardson e, portanto, conhecido como Kuder Richardson - 20:

    21

    2

    1 x

    n

    iiix

    tt S

    qpS

    nnr

    =

    =

    Onde:

    Sx2 a varincia do escore observado x

    p qi ii

    n

    =

    1 representa a soma das varincias dos

    n itens

    Quando se somam variveis para se compor um escore - como no caso do escore observado que composto pela soma da pontuao nos itens - a varincia desse novo escore composta pela soma da varincia dessas variveis (itens) mais a covarin-cia entre elas. Portanto, quando h covarincia (ou seja, correlao entre os itens), a varincia do escore do teste Sx

    2 ser maior do que a soma da varin-cia nos itens p qi i

    i

    n

    =

    1. Isso far com que

    =

    >n

    iiix qpS

    1

    2 , resultando um numerador positivo. Quanto maior a varincia dos testes em relao a p qi i

    i

    n

    =

    1, mais o resul-

    tado da diviso se aproximar de 1. Portanto, nesse caso, rtt estar tambm prximo de 1, indicando alta consistncia interna. J, quando as covarincias forem prximas de zero, a varincia dos escores ser praticamente igual soma das varincias dos itens. Assim, o numerador da segunda diviso ser prximo de zero fazendo com que rtt esteja prximo de zero, indicando, portanto, baixa consistncia interna do teste.

    Uma medida com importncia prtica deri-vada do ndice de preciso o Erro Padro da Medida (EPM). Como foi colocado anteriormente:

    tt

    e

    x

    = 12

    2

    Isolando e2 , tem-se que:

    e x tt

    e x tt

    2 2 1

    1

    =

    =

    ( )

    Nessa frmula, foi isolado o desvio padro dos escores de erro. Ela diz que, conhecendo o ndice de preciso de um teste, a varincia (ou des-vio padro) dos escores de erro pode ser calculada.

    Considerando-se diferentes medidas, pass-veis de erro, de um construto psicolgico constante (sejam elas medidas repetidas independentes ou medidas feitas por testes paralelos), o valor do escore verdadeiro (Ti) ser constante de medida a medida para um mesmo sujeito. O escore de erro (ei), no entanto, ir variar. Portanto, a variao nos escores observados Xi, entre as aplicaes, para um mesmo sujeito, ser causada pela variao dos esco-res de erro. Dessa maneira, a variao encontrada em medidas repetidas de um construto psicolgico, que tem seu valor constante, chamada erro padro da

  • Primi304

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    medida. Ela nada mais do que o desvio padro dos escores de erro.

    A frmula apresentada coloca o erro padro da medida em funo do ndice de preciso. Por meio dela pode-se extrair qual proporo da varincia do escore observado ser atribuda ao erro. Assume-se que, em repetidas medidas, os escores observados distribuem-se normalmente ao redor do escore ver-dadeiro com desvio padro igual ao erro padro da medida. Essa informao usada para calcular a expectativa de variao dos escores de um teste (em funo de um dado coeficiente de preciso e um dado desvio padro) quando se repete a mesma medida.

    O modelo linear clssico: ValidadeA estimao da preciso um passo rela-

    tivamente fcil e comumente atingido nos estudos das propriedades psicomtricas dos testes. J a estimao da validade um assunto bem mais com-plexo. Uma das formas de se verificar a validade pela correlao entre os resultados do teste e uma medida externa independente. Essa medida externa deve ser necessariamente uma medida vlida da varivel latente que o teste se prope medir (portanto associada ao Ti).

    Em termos matemticos, o problema da validade tratado por Guilford (1954) por meio de uma juno da teoria da anlise fatorial com o modelo clssico linear. Como afirma ele, na pgina 354:

    A teoria clssica divide a varincia do escore observado em dois componentes: varincia ver-dadeira e varincia de erro. Essencialmente, o novo passo est em supor que a varincia ver-dadeira pode ser ainda decomposta em dois componentes aditivos. Estes componentes so: a varincia comum ou comunalidade e mais possi-velmente uma varincia especfica. A varincia comum entre os fatores so compartilhadas pelos outros testes assim como a varincia verdadeira compartilhada por duas formas paralelas do mesmo teste. O componente especfico, at onde se tem informao, nico a um teste particular. parte da varincia verdadeira e, portanto, com-partilhada por duas formas do mesmo teste.

    Na anlise fatorial, o escore de uma varivel qualquer dado pela equao:

    X X l F l F l F si i i im m i= + + + +1 1 2 2 . . .+

    Tambm no modelo linear clssico, o escore de uma varivel qualquer dado por:

    X T ei i i= +

    Assumindo que o escore verdadeiro seja determinado por m variveis latentes, este pode ser decomposto usando o modelo fatorial com m fatores, ou seja,

    T X l F l F l F si i i im m i= + + + +1 1 2 2 . . .+

    A frmula do escore observado ser reescrita como:

    ( )X X l F l F l F s ei i i im m i i= + + + + +1 1 2 2 . . .+Essas relaes trazem uma anlise mais

    detalhada do conceito de escore verdadeiro. Nota-se que o escore verdadeiro representado por um con-junto de variveis latentes construtos psicolgicos - e mais um componente especfico associado s particularidades do teste. Portanto, Guilford (1954) prope que aquilo que medido por um teste seja concebido como algo multifacetado ou multivariado ou como um conjunto de variveis latentes comuns.

    Os escores de um teste expressam as ten-tativas de se medir um construto psicolgico. As medidas externas so mais prximas e vlidas desse construto, portanto, com o componente especfico e o erro prximos de zero. Simultaneamente, tero carga fatorial alta nos fatores subjacentes que com-pem esse construto psicolgico. Portanto, ambas variveis, o teste e a varivel externa, se medirem um mesmo construto, tero cargas fatoriais altas nos fatores que compem o construto. Como foi dito, a correlao ou covarincia entre duas variveis se relacionam s cargas dessas variveis nos fatores comuns subjacentes a elas. Essa correlao obtida somando o produto das cargas que as duas variveis tem nos fatores comuns:

    Cov X X l l l li k i k im km( , ) ...= + +1 1

  • Psicometria: fundamentos matemticos da Teoria Clssica dos Testes 305

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    Assim, quanto maiores as cargas que duas variveis tm em um fator comum maior, ser a correlao entre estas variveis. Isso ocorre porque a anlise fatorial extrai e concretiza, nos escores dos fatores, a varincia comum. Com base nisso, se um teste e uma varivel externa medem um mesmo atri-buto psicolgico, suas cargas fatoriais nas variveis latentes que compem este construto sero altas. Embasando-se na frmula apresentada, pode-se deduzir que a correlao entre o teste e a varivel externa ser alta, provando assim que, quanto maior a correlao teste e varivel externa, mais vlido o teste. Assim sendo, o mtodo de estimao da vali-dade envolve a anlise correlacional com medidas externas, buscando-se esclarecer a rede de relaes com variveis externas rede nomolgica (Embret-son, 1994).

    Anlise de itens pela TCTPara que os critrios de preciso e validade

    de um teste sejam satisfeitos, inicialmente deve-se partir para a anlise das unidades bsicas que compem o teste, ou seja, os itens. Geralmente, as anlises quantitativas incluem a anlise da dis-tribuio de respostas nos itens (ou o ndice de dificuldade, quando o item dicotmico), o poder discriminativo, a anlise das alternativas, a proba-bilidade de acerto ao acaso e a validade externa do item (Almeida, 1993).

    Supondo que os itens representem respostas dicotmicas como acerto ou erro, e que N sujeitos respondam a n itens, os dados podem ser arranja-dos na matriz a seguir (Figura 1) onde cada sujeito representado em uma linha e cada item em uma coluna:

    No corpo da matriz esto representadas as respostas dos sujeitos aos itens. Na coluna marginal direita esto representados os acertos dos sujeitos

    (Xi), ou seja, a somatria de pontos nos itens. Na linha marginal inferior esto representados os escores dos itens (Pj), ou seja, quantos sujeitos acertaram o item j. Um dos primeiros atributos dos itens o ndice de dificuldade (ID). Ele representa a probabilidade de acerto no item em causa. Por-tanto, IDj =

    Pj/N. Assim, um ID = 0,87, para um determinado item j indica que 87% das pessoas acertaram o item j.

    Considerando, nesse momento, somente o ndice de dificuldade, pode-se dizer que um bom item aquele que possui alta varincia, visto que o objetivo do teste explicitar as variaes que exis-tem entre os indivduos, itens com alta varincia iro contribuir para uma maior varincia do escore do teste, j que uma das parcelas da varincia do escore a soma da varincia dos itens individuais. Isso ir permitir uma maior discriminao dos indivduos em funo dos escores. Um item com ID = 1,00 ou 0,00 no traz informao alguma, pois no permi-tir uma separao dos sujeitos j que, em um caso 100% acertam e, no outro, 100% erram.

    sabido que os indivduos diferem entre si no construto que se deseja avaliar, ento um item com varincia prxima a zero pode ser considerado como um item inadequado para o teste. Em contrapartida, itens com ID = 0,50 so os que apresentam maior varincia j que dividem o grupo de sujeitos pela metade, permitindo a comparao de cada um dos 50 sujeitos que erraram com cada um dos 50 sujeitos que acertaram, ou seja, 50 X 50 = 2500 comparaes (em um grupo de 100 sujeitos). Desse modo, so considerados bons itens aqueles que possuem IDs entre 0,30 e 0,70, ou seja perto de 0,50 (Ferguison, 1981). Em termos tcnicos, o que se deseja que a varincia dos escores do teste seja mxima. ndices com IDs prximos a 0,50 contribuem aumentando a varincia dos escores. Contudo, um segundo fator tambm contribui para isso: a covarincia entre os

    Itens sujeitos 1 . j . . n S1 c11 c1n X1.i ci1 cij Xi

    N cN1 cNn XNS . P1 Pj Pn

    Figura 1 - Matriz de respostas de N sujeitos a n itens

  • Primi306

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    itens. Quando os itens esto altamente correlaciona-dos, a varincia do escore aumenta.

    Um exemplo simples pode ajudar a com-preender esse fato. Suponha que um teste seja composto por 20 itens com IDs = 0,50, suponha tambm que todos os itens tenham uma correlao perfeita entre si, ou seja, um indivduo que acerte o item j acerte tambm os j-1 itens restantes e inver-samente um sujeito que erre o item j erre tambm os j-1 itens restantes. Como a probabilidade de acerto de qualquer um dos itens 0,50, e como a correlao entre todos os itens 1, para qualquer item j, os 50% que acertam este item acertam tambm todos os j-1 itens restantes, chegando assim ao escore mximo no teste. J os 50% que erram tm, pelas mesmas razes, o escore 0.

    A varincia dos escores no teste, definida por S2 = S(X - X )2 / N, ser mxima, pois 100% dos indivduos estaro a uma distncia mxima da mdia, ora para cima (50% dos sujeitos com escore mximo), ora para baixo (50% dos sujeitos com escore mnimo), elevando a soma de quadrados. Mais uma vez, supondo que esse teste tenha sido aplicado a 100 sujeitos, os 50 sujeitos com escore mximo podero ser comparados com cada um dos 50 sujeitos com escore mnimo, portanto 2500 com-paraes poderiam ser feitas.

    Em situaes prticas, no sero encontra-dos testes com esses padres perfeitos de correlao 1 e IDs = 0,50 como exemplificado. Pode-se pen-sar, no entanto, em diferentes graus de covarincia entre os itens. Quanto maior a covarincia, maior ser a varincia do escore total. Um mtodo muito frequente de se avaliar quanto um item contribui para a diferenciao dos sujeitos calcular a correlao entre o item e o escore total no teste. Esse coeficiente chamado de correlao ponto bisserial (rpbi) e expressa a correlao entre uma varivel categrica dicotmica (acerto ou erro) e uma varivel intervalar (o escore no teste que, embora no possa ser con-siderada uma varivel intervalar genuna, para fins prticos considerada como tal). Ver argumentos de Ferguson (1981) e Lord e Novick (1974).

    Esse coeficiente tambm chamado de poder discriminativo do item. Esse nome dado j que uma alta correlao entre o item e o escore indica que o item contribui para aumentar a varincia dos

    escores ajudando a discriminao entre os sujeitos. O clculo desse coeficiente dado por:

    rX X

    Spqpbi

    p q

    x

    =

    Onde

    p representa a probabilidade de acerto ou o ID do item em causaq=1-p

    Sx representa o desvio padro da varivel contnua

    Xp,Xq a mdia dos sujeitos que acertaram o item e dos que erraram

    Em suma, um bom teste deve ser com-posto por itens com alta varincia (ID) e com alta correlao com o escore total (rpbi). Isso faz com que a varincia do escore seja alta e possa captar as variaes do atributo psicolgico que mensurado.

    Como foi visto anteriormente, o mtodo de preciso por consistncia interna baseia-se na cova-riao entre os itens para estimar a preciso. Altas correlaes item-total associam-se alta consis-tncia interna e alta preciso. A anlise dos itens possibilita um olhar mais apurado s caractersti-cas dos itens para que se possa fazer uma seleo daqueles que contribuem, em maior grau, para o teste como um todo no aumento da preciso. Con-tudo, essa varincia capturada deve estar associada varivel latente em anlise. Da mesma forma que julgada a validade de um teste, a validade de um item dada pela correlao entre o item e um critrio externo.

    Haveria ainda muitos detalhes a tratar para que se possa analisar todo o conjunto terico e pr-tico edificado pela psicometria. No entanto, este artigo trata somente dos conceitos bsicos referen-tes analise fatorial e ao modelo clssico e como as prticas mais comuns de construo de instrumentos de avaliao se relacionam a eles. Atualmente, novas abordagens tm surgido dentro dos modelos da Teoria de Resposta ao Item (Hambleton & Swami-natham, 1985) e devero ser objeto de reflexo em trabalhos futuros, de forma a enriquecer a discusso sobre as teorias da medida.

  • Psicometria: fundamentos matemticos da Teoria Clssica dos Testes 307

    Avaliao Psicolgica, 2012, 11(2), pp. 297-307

    referncias

    Almeida, L. S. (1993). Relatrio da disciplina de mtodos de observao e investigao Psico-lgica -1 ano. Braga: Universidade do Minho.

    Almeida, L. S. (1988). Teorias da inteligncia. Por-to: Edies Jornal de Psicologia.

    Anastasi, A. (1961) Testes Psicolgicos. So Paulo: EPU.

    Cattell, R. B. (1973). Personality and mood by ques-tionaire: a handbook of interpretative theory, psychometrics, and pratical procedures. San Francisco: Jossey-Bass Publishers.

    Cattell, R. B. (1975). Anlise cientfica da persona-lidade. So Paulo: Ibrasa.

    Embretson, S. (1994). Applications of cognitive design systems to test development. Em: C. R. Reynolds (Org.), Cognitive assessment: a mul-tidisciplinary perspective (pp. 107-135). New York: Plenum Press.

    Ferguson, G. A. (1981). Statistical Analysis in Psychology and Education. New York: McGraww-Hill. International Editions - Psy-chology Series.

    Guilford, J. P. (1954). Psychometric Methods. New York: McGraw-Hill.

    Gulliksen, H. (1950). Theory of mental tests. New York: John Wiley & Sons.

    Hambleton, H. K. & Swaminatham, H. (1985). Item Response Theory: Principles and Applications. Boston: Kluwer.

    Johnson, R. A. & Wichern, D. W. (1992). Applied multivariate statistical analysis. London: Pren-tice Hall international.

    Lord, F. M. & Novick, N. R. (1974). Statistical The-ories of mental test scores. Oxford, England: Addison-Wesley.

    Muiz, J. (1994). Teora Clsica de los Tests. Ma-drid: Ediciones Pirmide.

    Pivatto, M. M. (1992). Modelos para testes com res-postas dicotmicas com principal enfoque em teoria de resposta ao item. Dissertao de Mes-trado no publicada. Instituto de Matemtica Estatstica e Cincias da Computao, Univer-sidade Estadual de Campinas, Campinas.

    Sternberg, R. J. (1981). The evolution of theories of intelligence. Intelligence, 5, 209-230.

    Sternberg, R. J. (1984). Toward a triarchic theory of human intelligence. The Behaviour and Brain Sciences, 7, 269-315.

    Sternberg, R. J. (1986). Toward a unified theory of human reasoning. Intelligence, 10, 281-314.

    Recebido em maio de 2012Aceito em junho de 2012

    sobre o autor:

    Ricardo Primi, psiclogo pela PUC Campinas, doutor em Psicologia Escolar e do Desenvolvimento Humano pela Universidade de So Paulo. professor associado do Programa de Ps-Graduao em Psicologia da Universidade So Francisco.