correlação e regressão simples - labape · correlação e regressão •em geral as medidas...
TRANSCRIPT
Correlação e Regressão
Prof. Dr. Ricardo Primi
Adaptado de Gregory J. Meyer, University of Toledo, USA; Apresentação na
Universidade e São Francisco, São Paulo, Brasil31 Julho, 2007
Correlação e Regressão
•Mensura a relação entre variáveisCorrelação = co-relação = co-variância = r
•Geralmente examina variáveis bidimensionais •Mas diferenças de média entre grupos também podem ser
expressas por meio da co-relação• e.g., VI = Diagnóstico: Transtorno Psicótico (codificado como 1) vs. outros
transtornos (codificados como 0)VD = X-% como um índice de Acurácia Perceptual• t-test comparando MPsychotic vs. MOther de X-% pode ser expressa como a
r do Diagnóstico com X-% • i.e., rDiagnostico -X-%
• r e t terão o mesmo valor de p ou de significância estatística
Correlação e Regressão
• Em geral as medidas estão associadas por relações lineares• Mas existem técnicas para correlações e regressões não lineares
•Correlação ≠ Causalidade• r’s assumem valores entre -1.0 e +1.0• O sinal mostra a direção das relações• Os valores absolutos mostram a magnitude da relação• 0.0 = ausência de relação• -1.0 or +1.0 = relação perfeita
•Visualizando as magnitudes das correlações• "ForcedDegreeofCorrelation.sps"
var 1
2 3 4 5
0.38 0.12
1 2 3 4 5
0.30
2.0
2.5
3.0
3.5
4.0
4.5
0.272
34
5
●
var 2
0.05 0.26 0.26
● ●
var 3
0.04
12
34
5
0.26
12
34
5
● ● ●
var 4
0.02
2.0 2.5 3.0 3.5 4.0 4.5
● ●
1 2 3 4 5
● ●
1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
var 5
Correlation plot
T2_44O1T2_40O1T2_30O1T2_25O1T2_20O1T2_15O1T2_10O1T2_05O1T2_41O0T2_35O0T2_34N1T2_24N1T2_09N1T2_39N0T2_29N0T2_19N0T2_14N0T2_04N0T2_36E1T2_26E1T2_16E1T2_11E1T2_01E1T2_31E0T2_21E0T2_06E0T2_38C1T2_33C1T2_28C1T2_13C1T2_03C1T2_43C0T2_23C0T2_18C0T2_08C0T2_42A1T2_32A1T2_22A1T2_17A1T2_07A1T2_37A0T2_27A0T2_12A0T2_02A0
T2_02A0
T2_07A1
T2_12A0
T2_17A1
T2_22A1
T2_27A0
T2_32A1
T2_37A0
T2_42A1
T2_03C
1T2_08C
0T2_13C
1T2_18C
0T2_23C
0T2_28C
1T2_33C
1T2_38C
1T2_43C
0T2_01E1
T2_06E0
T2_11E1
T2_16E1
T2_21E0
T2_26E1
T2_31E0
T2_36E1
T2_04N
0T2_09N
1T2_14N
0T2_19N
0T2_24N
1T2_29N
0T2_34N
1T2_39N
0T2_05O
1T2_10O
1T2_15O
1T2_20O
1T2_25O
1T2_30O
1T2_35O
0T2_40O
1T2_41O
0T2_44O
1 −1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
var 1
1 2 3 4 5
0.30
23
45
0.321
23
45
●
var 2
0.43
2 3 4 5
● ●
1 2 3 4 5
12
34
5
var 3
Correlation plot
T5_24Em1
T5_23Em1
T5_22Em1
T5_21Em1
T5_20Em1
T5_19Em1
T5_18Em1
T5_17Em1
T5_16Sc1
T5_15Sc1
T5_14Sc1
T5_13Sc1
T5_12Sc1
T5_11Sc1
T5_10Sc1
T5_09Sc1
T5_08Ac1
T5_07Ac1
T5_06Ac1
T5_05Ac1
T5_04Ac1
T5_03Ac1
T5_02Ac1
T5_01Ac1
T5_01Ac1
T5_02Ac1
T5_03Ac1
T5_04Ac1
T5_05Ac1
T5_06Ac1
T5_07Ac1
T5_08Ac1
T5_09Sc1
T5_10Sc1
T5_11Sc1
T5_12Sc1
T5_13Sc1
T5_14Sc1
T5_15Sc1
T5_16Sc1
T5_17Em1
T5_18Em1
T5_19Em1
T5_20Em1
T5_21Em1
T5_22Em1
T5_23Em1
T5_24Em1 −1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
Correlation plot
SE
Grit
SlfSoc
SlfEmo
SlfAcd
Locus
ProSoc
PeerProb
HypAc
EmoSym
CndProb
Open2
Neuro2
Extra2
Consc2
Agree2
Open1
Neuro1
Extra1
Consc1
Agree1
Agree1
Consc1
Extra1
Neuro1
Open1
Agree2
Consc2
Extra2
Neuro2
Open2
CndProb
EmoSym
HypAc
PeerProb
ProSoc
Locus
SlfAcd
SlfEmo
SlfSoc Grit SE
−1
−0.8
−0.6
−0.4
−0.2
0
0.2
0.4
0.6
0.8
1
GF_GC
800700600500400300200
RMG
10
9
8
7
6
5
4
3
2
1
0
EPN_EG
16014513011510085705540
RG
20
18
16
14
12
10
8
6
4
2
0
Correlação e regressão
• Uma distinção simples: • Empregamos a análise correlacional quando queremos investigar a existência
de relações entre variáveis e a análise de regressão quando queremos prever uma variável a partir de outra ou de uma soma de outras
Correlations
1 ,575** ,581** ,474** ,367** ,410**,000 ,000 ,000 ,000 ,000
289 289 288 287 289 289,575** 1 ,473** ,475** ,269** ,323**,000 ,000 ,000 ,000 ,000289 289 288 287 289 289,581** ,473** 1 ,507** ,376** ,427**,000 ,000 ,000 ,000 ,000288 288 288 286 288 288,474** ,475** ,507** 1 ,094 ,120*,000 ,000 ,000 ,113 ,042287 287 286 287 287 287,367** ,269** ,376** ,094 1 ,936**,000 ,000 ,000 ,113 ,000289 289 288 287 289 289,410** ,323** ,427** ,120* ,936** 1,000 ,000 ,000 ,042 ,000289 289 288 287 289 289
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
RA_measure
RV_measure
RN_measure
RP_measure
Idade
Escolaridade
RA_measure RV_measure RN_measure RP_measure Idade Escolaridade
Correlation is significant at the 0.01 level (2-tailed).**.
Correlation is significant at the 0.05 level (2-tailed).*.
Correlations
1 ,145 ,214** ,045,076 ,008 ,621
157 151 152 124,145 1 ,799** ,315**,076 ,000 ,000151 151 151 122,214** ,799** 1 ,325**,008 ,000 ,000152 151 152 123,045 ,315** ,325** 1,621 ,000 ,000124 122 123 124
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
c_br
epn_eg
epn_re
av_des
c_br epn_eg epn_re av_des
Correlation is significant at the 0.01 level (2-tailed).**.
1. ComunicaçãoPossui competências efetivas de se comunicar oralmente e na escrita. Sabe escutar os clientes e colegas de trabalho. Apresenta uma imagem confiável, de boa reputação, profissional ao comunicar-se. Raramente esta pessoa teve alguma dificuldade em razão de problemas de comunicação.2. Conhecimento do TrabalhoComparado a outros com experiência similar, têm um conhecimento perfeito do trabalho. Procura ativamente por informações em manuais, cursos, treinamentos, vídeos, etc... para permanecer atualizado. É aberto às perguntas de outros colegas de trabalho e superiores a respeito de procedimentos do seu trabalho3. Organização e PlanejamentoMantém seu espaço de trabalho e seus produtos organizados. Raramente perde trabalhos ou os inutiliza por causa de falta de organização e planejamento. Geralmente cumpre os prazos estipulados. É capaz de aceitar e usar ferramentas organizacionais para melhorar a performance (por exemplo, agenda de planejamento diário, etc...)4. Segurança no trabalhoMantém a área de trabalho segura. Segue procedimentos de segurança. Contribui para manter a segurança de outras pessoas. Não faz erros descuidados e/ou perigosos.5. Controle EmocionalMantém respostas emocionais sob o controle. Não mostra irritação com os supervisores, clientes, ou colegas de trabalho. Evita queixar-se desnecessariamente. É otimista para cima, alto astral.6. Trabalho em EquipeTrabalha bem com seus colegas mas pode também trabalhar independentemente. Compreende os outros e dá respostas apropriadas. Em situações de conflito tem uma influência tranqüilizadora ao invés de alimentadora do conflito. Tem o mesmo respeito para pessoas de tipos diversos.7. Atendimento ao Cliente(Os clientes podem ser os existentes na organização ou externos). Trata os clientes com respeito. Faz os clientes se sentirem especiais. Toma medidas extras para atender a pequenos pedidos dos clientes que não precisariam ser feitos mas que adicionam valor ao atendimento. Age a favor da satisfação do cliente e da lealdade ao cliente. Coloca a satisfação do cliente acima de suas necessidades (às vezes sai mais tarde para terminar o trabalho).8. FidelidadeAssume e da conta dos compromissos. É quase sempre pontual ou adiantado. Dispõe-se a trabalhar longas horas sem reclamar quando necessário. Nunca “enrola”, rouba materiais,, tempo e recursos do empregador.9. Avaliação GeralDe modo amplo quão bom funcionário é esta pessoa?10. RecontrataçãoSe esta pessoa deixasse sua organização, qual a probabilidade de você contratá-la novamente caso fosse possível?
6 = excelente (melhor do que 90% de pessoas com experiência semelhante) 5 = muito bom (melhor do que 70% de pessoas com experiência semelhante) 4 = bom (superior metade das pessoas com experiência semelhante)3 = satisfatório (não superior à metade, mas aceitável se comparado às pessoas com experiência semelhante) 2 = requer melhoria (um trabalhador que você não contrataria)1 = inaceitável (entre os piores trabalhadores)Não posso avaliar: use isto somente se você não tem bastante informação para fornecer uma avaliação exata.
Exercício 1
• Instalar o JASP: https://jasp-stats.org• Explore o arquivo ex1_ie_bpr_16pf_avdes.sav• Use visualização• Entenda as estatísticas descritivas
personality measurement. Instead of beingdeveloped to measure preconceived dimen-sions of interest to a particular author, theinstrument was developed from the uniqueperspective of a scientific quest to try to discover the basic structural elements of personality.
Raymond Cattell’s personality researchwas based on his strong background in thephysical sciences; born in 1905, he witnessedthe first-hand awe-inspiring results of sci-ence, from electricity and telephones to auto-mobiles, airplanes, and medicine. He wantedto apply these scientific methods to theuncharted domain of human personality withthe goal of discovering the basic elements ofpersonality (much as the basic elements of thephysical world were discovered and organ-ized into the periodic table). He believed thathuman characteristics such as creativity,authoritarianism, altruism, or leadership skillscould be predicted from these fundamentalpersonality traits (much as water was aweighted combination of the elements of
hydrogen and oxygen). For psychology toadvance as a science, he felt it also neededbasic measurement techniques for personality.Thus, through factor analysis – the powerfulnew tool for identifying underlying dimen-sions behind complex phenomena – Cattellbelieved the basic dimensions of personalitycould be discovered and then measured.
Over several decades, Cattell and his col-leagues carried out a program of comprehen-sive, international research seeking athorough, research-based map of normal per-sonality. They systematically measured thewidest possible range of personality dimen-sions, believing that ‘all aspects of human personality which are or have been of impor-tance, interest, or utility have already becomerecorded in the substance of language’(Cattell, R.B., 1943: 483). They studied thesetraits in diverse populations, using three differ-ent methodologies (Cattell, R.B., 1973):observation of natural, in-situ life behavior orL-data (e.g. academic grades, number of trafficaccidents, or social contacts); questionnaire
136 THE SAGE HANDBOOK OF PERSONALITY THEORY AND ASSESSMENT
Table 7.1 16PF Scale Names and DescriptorsDescriptors of Low Range Primary Scales Descriptors of High RangeReserved, Impersonal, Distant Warmth (A) Warm-hearted, Caring, Attentive To OthersConcrete, Lower Mental Capacity Reasoning (B) Abstract, Bright, Fast-LearnerReactive, Affected By Feelings Emotional Stability (C) Emotionally Stable, Adaptive, MatureDeferential, Cooperative, Avoids Conflict Dominance (E) Dominant, Forceful, AssertiveSerious, Restrained, Careful Liveliness (F) Enthusiastic, Animated, SpontaneousExpedient, Nonconforming Rule-Consciousness (G) Rule-Conscious, DutifulShy, Timid, Threat-Sensitive Social Boldness (H) Socially Bold, Venturesome, Thick-SkinnedTough, Objective, Unsentimental Sensitivity (I) Sensitive, Aesthetic, Tender-MindedTrusting, Unsuspecting, Accepting Vigilance (L) Vigilant, Suspicious, Skeptical, WaryPractical, Grounded, Down-To-Earth Abstractedness (M) Abstracted, Imaginative, Idea-OrientedForthright, Genuine, Artless Privateness (N) Private, Discreet, Non-DisclosingSelf-Assured, Unworried, Complacent Apprehension (O) Apprehensive, Self-Doubting, WorriedTraditional, Attached To Familiar Openness to Change (Q1) Open To Change, ExperimentingGroup-Orientated, Affiliative Self-Reliance (Q2) Self-Reliant, Solitary, IndividualisticTolerates Disorder, Unexacting, Flexible Perfectionism (Q3) Perfectionistic, Organized, Self-DisciplinedRelaxed, Placid, Patient Tension (Q4) Tense, High Energy, Driven
Global ScalesIntroverted, Socially Inhibited Extraversion Extraverted, Socially ParticipatingLow Anxiety, Unperturbable Anxiety Neuroticism High Anxiety, PerturbableReceptive, Open-Minded, Intuitive Tough-Mindedness Tough-Minded, Resolute, UnempathicAccommodating, Agreeable, Selfless Independence Independent, Persuasive, WillfulUnrestrained, Follows Urges Self-Control Self-Controlled, Inhibits UrgesAdapted with permission from S.R. Conn and M.L. Rieke (1994). 16PF Fifth Edition Technical Manual. Champaign, IL: Institutefor Personality and Ability Testing, Inc.
9781412946520-Ch07 5/7/08 7:03 PM Page 136
Table 7.2 16PF global factors and the primary trait` make-up
Global Factors
Primary Factors
Extraversion/Introversion High Anxiety/Low Anxiety
(A) Warm-Reserved(F) Lively-Serious(H) Bold-Shy(N) Private-Forthright(Q2) Self-Reliant–Group-oriented
(C) Emotionally Stable–Reactive
(L) Vigilant–Trusting(O) Apprehensive–Self-assured(Q4) Tense–Relaxed
(A) Warm–Reserved(I) Sensitive–Unsentimental(M) Abstracted–Practical(Q1) Open-to-Change/
Traditional
(E) Dominant–Deferential(H) Bold–Shy(L) Vigilant–Trusting(Q1) Open-to Change/
Traditional
(F) Lively–Serious(G) Rule-conscious/Expedient(M) Abstracted–Practical(Q3) Perfectionistic–Tolerates
disorder
Tough-Mindedness/Receptivity Independence/Accommodation Self-Control/Lack of Restraint
9781412946520-Ch07 5/7/08 7:03 PM Page 138
Comparison of the 16PF globalscales with other five-factor models
For over 50 years, the 16PF has included thebroad, second-order dimensions currentlycalled ‘the Big Five’ (Cattell, R.B., 1946; Krug and Johns, 1986). In fact, Cattell locatedthree of these five factors in his earliest stud-ies of temperament (1933) – which Digman(1996) called ‘the first glimpse of the BigFive’. Four of the five current traits werealready described in Cattell’s 1957 book. Allfive traits have been clearly identified andscorable from the questionnaire since therelease of the fourth edition around 1970.Although Cattell continued to believe thatthere were more than five factors, so havemany other prominent psychologists (Block,1995; Fiske, 1994; Hogan et al., 1996;Jackson et al., 2000; Lee et al., 2005;Ostendorf, 1990; Saucier 2001).
The 16PF scales and items also played animportant role in the development of the otherBig Five factor models (e.g. Costa andMcCrae, 1976, 1985; Norman, 1963;McKenzie et al., 1997; Tupes and Christal,1961). For example, the first NEO manual(Costa and McCrae, 1985: 26) describes thedevelopment of the questionnaire as beginningwith cluster analyses of 16PF scales, whichthese researchers had been using for over 20 years in their own research. However, thisorigin, or even acknowledgement of the exis-tence of the five 16PF global factors, does notappear in any current accounts of the develop-ment of the Big Five (Costa and McCrae,1992a; Digman, 1990; Goldberg, 1990).
Furthermore, when the 16PF correlationmatrix, which was used in the original devel-opment of the Big Five, is re-analyzed using more modern, rigorous factor-analytic
methods, Costa and McCrae’s results do notreplicate (McKenzie, 1998). Instead, appro-priate factoring (see R.B. Cattell, 1978;Gorsuch, 1983) of the original matrix pro-duces the five 16PF global factors, ratherthan the three orthogonal NEO factors thatCosta and McCrae chose to use.
A range of studies comparing the five 16PFglobal factors and the set of NEO Big Five fac-tors show a striking resemblance between thetwo (Carnivez and Allen, 2005; H.E.P. Cattell,1996; Conn and Rieke, 1994; Gerbing andTuley, 1991; Schneewind and Graf, 1998).These studies show strong correlational andfactor-analytic alignment between the twomodels: Between the two extraversion factors,between anxiety and neuroticism, betweenself-control and conscientiousness, betweentough-mindedness/receptivity and openness-to-experience, and between independence anddis-agreeableness. In fact, the average correla-tion between the 16PF global factors and theirrespective NEO five factors are just as high asthose between the NEO five factors and theBig Five markers which the NEO was devel-oped to measure (H.E.P. Cattell, 1996;Goldberg, 1992). The alignments among theBig Five models are summarized in Table 7.4.
However, there are important differencesbetween the two models. Although propo-nents of the other five-factor models have donemuch in the last decade to try to bring abouta consensus in psychology about the exis-tence of five global factors, their particularset of traits have been found to be problem-atic. In the development process, the NEO Big Five factors were forced to be statisti-cally uncorrelated or orthogonal for reasonsof theoretical and statistical simplicity.However, few have found this as a satisfactoryapproach for defining the basic dimensions
THE SIXTEEN PERSONALITY FACTOR QUESTIONNAIRE (16PF) 141
Table 7.4 Alignments among the three main five-factor models16PF (Cattell) NEO-PI-R (Costa and McCrae) Big Five (Goldberg)Extraversion/Introversion Extraversion SurgencyLow Anxiety/High Anxiety Neuroticism Emotional stabilityTough-Mindedness/Receptivity Openness Intellect or cultureIndependence/Accommodation Agreeableness AgreeablenessSelf-Control/Lack of Restraint Conscientiousness Conscientiousness or dependability
9781412946520-Ch07 5/7/08 7:03 PM Page 141
Modeloshttp://r4ds.had.co.nz/program-intro.html
Visualização de padrões -> modelos
Modelagem • http://r4ds.had.co.nz/model-basics.html#introduction-15• “Patterns provide one of the most useful tools for data scientists
because they reveal covariation. If you think of variation as a phenomenon that creates uncertainty, covariation is a phenomenonthat reduces it. If two variables covary, you can use the values of onevariable to make better predictions about the values of the second. Ifthe covariation is due to a causal relationship (a special case), thenyou can use the value of one variable to control the value of thesecond... Models are a tool for extracting patterns out of data. ” (p. 106)
http://rpsychologist.com/d3/NHST/
http://rpsychologist.com/d3/CI/
http://rpsychologist.com/d3/cohend/
Correlação e Regressãohttp://rpsychologist.com/d3/correlation/
Fórmula da correlação
�
r =
xi − x ( )sx
⎛ ⎝ ⎜
⎞ ⎠ ⎟
yi − y ( )sy
⎛
⎝ ⎜ ⎞
⎠ ⎟ i=1
N
∑N −1( )
�
r =zxi zyi
i=1
N
∑N −1
Produto-momento!
• A média do produto de dois momentos indicando co-relação
• Produto : multiplicação de duas variáveis (X, Y)
• Momento: função aplicada a média de desvios
• Momentos centrais: : 1o = Média, 2º = Variancia, 3º = Assimetria, 4o = Kurtose
• Os escores z são momentos
• Desvios da média em unidades de desvio padrão
• Co-relação: ocorrência simultânea together• z para X pareado copm z para Y
• Então a correlação Produto-Momento de Pearson (r) é a magnitude média em que pares de escores (X, Y) se correlacionam por desviarem simultaneamente de suas respectivas médias
( )X Xzs-
=
X Yz zr
N=å
Coeficiente de Correlação de Pearson - Produto Momento
n Nota A
Nota B
1 2 3
2 2 2
3 4 5
: : :
9 9 7
10 10 7
11 9 6
12 9 8
Reta de regressão
Equação preditora:Ŷ= b0 + b1XX = valor do preditorY = valor do critérioŶ= valor preditob1= inclinação da linhab0= constante
X
876543210
Y
8
7
6
5
4
3
2
1
0
Equação da reta
Reta de regressão
•Melhor previsão de Y em relação aos valores de X• Equação de previsão:
Ŷ= b0+ b1XNa qual:X = valor do preditor (variável preditora ou VI)Ŷ= valor previsto de Y (variável resposta ou VD ou critério)
i.e., valor de Y na linha, dado Xb1 = inclinação (slope) da linha, Mudança em Ŷ para uma mudança de 1-unidade de mudança em Xb1 = rXY(SY/SX) b0 = constante (intercept)
Ŷ quando X = 0.0 b0= MY – b1MX
Reta de regressão: Exemplo
•SSResid = ∑(Y – Ŷ)2
• Sum of squared distances of each person's Y score from the line of prediction
X
876543210
Y
8
7
6
5
4
3
2
1
0
Reta de regressão exemplo
X
876543210
Y
8
7
6
5
4
3
2
1
0
Ŷ= b0+ b1X = 1.6 + (.60)(X)
b1 = .60; mudança no escore bruto de Ŷ para 1a unidade de mudança em X
b0 = 1.6; constante; valor de Ŷquando X = 0
Soma de Quadrados da Regressão
• SSResidual = ∑(Y – Ŷ)2
• Soma das distâncias ao quadrado de cada escore Y das pessoas em relação a reta de previsão
X
876543210
Y
8
7
6
5
4
3
2
1
0
Soma de Quadrados da Regressão
• SSTotal = ∑(Y–MY)2
• Soma das distâncias ao quadrado de cada escore Y das pessoas em relação à média geral de Y• i.e., numerador da variância
de Y; total de variância na VD
X
876543210
Y
8
7
6
5
4
3
2
1
0
Soma de Quadrados da Regressão
• SSModelo= ∑(Ŷ–MY)2
• Soma das distâncias ao quadrado de cada escore predito Y (i.e., a linha) da média de Y• Indica a variação na VD
que pode ser explicada pelo modelo• Os pontos observados de
dados não são considerados; somente a comparação do modelo de Y tem relação à média de Y X
876543210
Y
8
7
6
5
4
3
2
1
0
Soma de Quadrados da Regressão
X
876543210
Y
8
7
6
5
4
3
2
1
0
X
876543210
Y
8
7
6
5
4
3
2
1
0
X
876543210
Y
8
7
6
5
4
3
2
1
0
SSTotal = ∑(Y –MY)2
SSModel = ∑(Ŷ –MY)2 SSResidual = ∑(Y – Ŷ)2
http://setosa.io/ev/ordinary-least-squares-regression/
r Produto Momento: Exemplo
ID X Y 1 5 7 2 1 3 3 4 4 4 3 1 5 7 5 M 4.00 4.00 s 2.00 2.00
Sum
X
876543210
Y
8
7
6
5
4
3
2
1
0
• Insira X andY no SPSS e calcule o r• rXY = .60
Reta de regressão
•Gere a equação de regressão do exemplo no SPSS•A equação de previsão minimiza os erros, definidos como
SSResidual = ∑(Y – Ŷ)2
• Em que :• Y = valores observados (i.e., os valores do gráfico de
dispersão)• Ŷ= valores preditos na reta de regressão
• Portanto, SSResidual indica a extensão em que a linha não consegue prever os dados observados• SSResid na regressão é análogo ao SSWG na ANOVA• i.e., variabilidade nas células que não pode ser explicada pelo modelo.
Reta de regressão : Exemplo
Equação de previsão: Ŷ= b0 + b1Xb1 = rXY(SY/SX)
= .60(2.236/2.236) = .60(Porque SY = SX, r = b1; isso é raro
acontecer)
b0= MY – b1MX
= 4 – .60(4) = 4 – 2.4 = 1.6
Ŷ= 1.6 + (.60)(X)
Calcule Ŷ para cada Xe.g., for X = 5
Ŷ = 1.6 + (.60)(5) = 4.6
ID X Y Ŷ 1 5 7 2 1 3 3 4 4 4 3 1 5 7 5 M 4.0 4.0 S 2.236 2.236
•Como na ANOVA, a análise de regressão particiona a variância da variável dependente em componentes mutuamente exclusivos e exaustivos:• 1. Aquilo que é explicado pelo modelo• i.e., pela VI ou VIs
• 2. Aquilo que não pode ser explicado pelo modelo• i.e., variância residual
•SSTotal = SSModelo + SSResidual• Como definido, SSResidual = ∑(Y – Ŷ)2
• Soma das distâncias ao quadrado de cada escore Y das pessoas em relação a reta de regressão (linha de predição)
Saídas do SPSS (Output) Dados do Modelo: 2as Tabelas
• Tabelas da ANOVA• SSModelo é chamado SSRegression
• Variação (i.e., SS) é dividida pelo gl (df) correspondente para calcular-se a a variância (i.e., MS)
• MS = SS / df• F é calculado por MSModelo/MSResidual
• i.e., A variância explicada pelo modelo é maior do que a variância não explicada?• Avaliar a significância usando dfNumerador e dfDenominador
Saídas do SPSS (Output) Dados do Modelo: 2as Tabelas
• ModeloTabela Sumária(Summary table)• R2 =proporção da variânciatotal explicada pelo modelo de regressão
• R2 = SSModel / SSTotal
• No exemplo: R2 = 7.2 / 20.0 = .36• R = √R2 = rYŶ
• No exemplo:R = √.36 = .60• R = rYŶ = .60
Saídas do SPSS (Output) Dados do Modelo: 2as Tabelas•Tabela sumária (cont.)• R2 ajustado = Estimativa do parâmetro populacional , ρ (rho)
• Em que p = # de preditores• No exemplo a: Adj. R2 = 1-[(1-.36)(5-1)/(5-1-1)] • = 1-[(.64*4)/3] = .14667
• Erro padrão da Estimativa (SEE)• Indica o grau de incerteza na previsão• SEE = √MSResidual
• No exemplo: SEE = √4.26667 = 2.06559
Coeficientes de regressão: b, B, &β• Indicam a mudança em Ŷ para cada 1a-unidade de mudança em X• b = coeficiente de regressão não padronizado
• Mudança expressa em unidades do escore bruto• Mudança no escore bruto Ŷ para uma unidade de mudança no escore bruto de X
• B = SPSS notação para b• β (Beta) = coeficiente de regressão padronizado.
• Mudança expressa em unidades de desvio padrão (SD)• Número de mudanças em SD em Ŷ para uma mudança de 1 SD em X
Coeficientes de regressão: b, B, &β
• b pode ser muito maior que β (& vice versa)• Isso dependerá da unidade de medida
• b = β quando:• SX = SY• e.g., quando X e Y são escores z
• Interpretação• b é empregado quando as unidades tenham um sentido inerente• e.g., renda, altura, peso• β é empregado quando as métricas são arbitrárias• e.g., maioria das escalas psicológicas
•Note: b para (constante) é o termo constante (intercept, b0)
Pressupostos
• Correlação: como uma estatística descritiva não há assunções prévias• Regressão: requer 2 assunções• Ambas relacionadas às distribuições condicionais
Distribuições Marginais e Condicionais
•Distribuições marginais: • Distribuição de Y desconsiderando X• i.e., Variância de Y transpassando todos os níveis de X: S2
Y
•Distribuição condicional: • Distribuição de Y condicionada em X• i.e, Variância de Y em um dado valor de X: S2
Y·X
• Considere as diferenças usando a sintaxe do SPSS• "Marginal andConditionalDistributions.sps"
Duas assunções na regressão
•Normalidade:• Y é normalmente distribuído para cada valor de X• Procure por assimetria < 2.0 e curtose < 7.0
•Homocedasticidade: • S2 de Y é constante quando calculado separadamente para cada valor
específico de X; i.e., cada distribuição condicional• Análogo à assunção de variâncias iguais dentro dos grupos no t-test ou
ANOVA • Justifica o uso de um único MSResidualpara:• Calcular a significância estatística• Determinar o erro padrão da estimativa (SEE)
• SEE é simplesmente o SD das distribuições condicionais• SEE = SY·X
22
ˆ( )(1 )
2use 2 because estimated and from data
Y X Y
Y YS S R
NN a b
×
-= = -
--
å
Distribuição marginal de Y_50
Marginal Distribution of Y_50
4.003.50
3.002.50
2.001.50
1.00.500.00
-.50-1.00
-1.50-2.00
-2.50-3.00
-3.50-4.00
1100
1000
900
800
700
600
500
400
300
200
100
0
Std. Dev = .99
Mean = .01
N = 10000.00
Distribuiçãocondicional de Y_50
Exercício 2
• Abra o arquivo ex1_ie_bpr_16pf_avdes.sav • Escolha duas variáveis e faça a regressão simples