introduÇÃo Às inversas generalizadas de matrizes de ...duartejb).pdf · generalizada de...
TRANSCRIPT
INTRODUÇÃO ÀS INVERSAS GENERALIZADAS DE MATRIZES
DE APLICAÇÃO COMUM EM ESTATÍSTICA EXPERIMENTAL1
João Batista Duarte2
RESUMO: Este texto propõe-se a apresentar os princípios fundamentais relacionados às inversas de matrizes, com
ênfase para as inversas generalizadas, ou simplesmente inversas-g, as quais têm grande utilidade e aplicação em
estatística. O entendimento de áreas importantes da estatística teórica e aplicada como a de modelos lineares não pode
ser completo, sem algum domínio básico do que seja uma matriz inversa, sobretudo uma inversa generalizada. Aqui são
apresentados conceitos, propriedades e alguns exemplos simples de como se obter algumas destas matrizes. Foram
tomados quatro tipos de matrizes inversas, dada a sua maior aplicação na estatística experimental, a saber: inversa
generalizada de Moore-Penrose, inversa generalizada condicional, inversa generalizada de quadrados mínimos e inversa generalizada reflexiva ou inversa-g2.
INTRODUÇÃO
O conceito clássico sobre inversa de uma matriz3, amplamente difundido, enuncia que “se
uma matriz A tem inversa A-1
, essa matriz necessariamente é quadrada e deve ter determinante
diferente de zero”. Isto equivale a dizer que a matriz A é não-singular (uma matriz quadrada é dita
singular se tiver determinante nulo), ou ainda, que tem posto completo (linhas e colunas
linearmente independentes). A partir desse enunciado, várias propriedades interessantes podem ser
verificadas, como:
i) AA-1
= A-1
A = I , sendo I uma matriz identidade de mesma dimensão ou ordem
ii) A-1
é única, com determinante igual ao recíproco do determinante de A
iii) (A-1
)-1
= A
iv) (A’)-1
= (A-1
)’
v) (AB)-1
= B-1
A-1
Uma considerável parte dos problemas estatísticos, teóricos e aplicados, envolve a solução
de sistemas de equações lineares do tipo Ax = b (ou y = X). Se A é de ordem nxn, não singular,
então, a solução do sistema existe (sistema consistente) e é única (sistema determinado), sendo dada
por: x = A-1
b (ou = X-1
y). Porém, há, com freqüência, casos em que A não é quadrada, ou mesmo
sendo A quadrada, pode ocorrer de ser singular (matriz com determinante igual a zero ou, ainda, de
posto incompleto). Nestas situações também pode haver solução para os sistemas associados, de
1 Texto didático produzido durante o curso de Álgebra de Matrizes, na Escola Superior de Agricultura ‘Luiz de Queiroz’ / USP,
Piracicaba, SP, em 1996. 2 Professor na Escola de Agronomia da Universidade Federal de Goiás, Caixa Postal 131, CEP 74001-970, Goiânia, GO, Brasil (E-
mail: [email protected]).
3 A inversa regular de uma matriz A={aij}, não-singular, é dada por: A-1 = [1/det(A)] Adj(A); sendo det(A) o
determinante de A (diferente de zero) e Adj(A), a matriz adjunta de A. Esta é dada por: Adj(A) = [Cof(A)]’ , em que
Cof(A) é a chamada matriz de cofatores de A, com cada elemento definido por: cij = (-1)i+j Mij ; sendo Mij (menor de
entrada aij) o determinante da matriz obtida de A, pela eliminação de sua i-ésima linha e j-ésima coluna.
2
modo que uma teoria unificadora para tratar todas as situações é altamente desejável. Uma
abordagem neste sentido envolve o uso das inversas generalizadas de matrizes (Graybill, 1983).
Trataremos a seguir de alguns tipos de inversas generalizadas de uso mais freqüente na
solução de problemas estatísticos: i) inversa generalizada de Moore-Penrose, por suas fortes
propriedades algébricas; ii) inversa generalizada condicional, pela sua abrangência e simplicidade;
iii) inversa generalizada de quadrados mínimos, por sua ampla aplicação em estatística
experimental; e iv) inversa generalizada reflexiva ou inversa-g2, também de grande aplicação, em
especial pelo sistema estatístico-computacional SAS
(Statistical Analysis System), que é de uso
bastante generalizado em análise de dados.
INVERSA GENERALIZADA DE MOORE-PENROSE
A idéia de obter uma matriz com as propriedade de uma matriz inversa, para uma matriz A
de ordem mxn, de posto ou ‘rank’ r [A] = r, com r min {m, n}, surgiu com os trabalhos de E. H.
Moore, em 1920, tendo sido formalizada, em 1956, por R. Penrose (Souza, 1988). Daí a
denominação inversa generalizada de Moore-Penrose ou pseudo-inversa, definida como a matriz A+
que satisfaz às seguintes condições:
i) A A+A = A (note-se que AA
+ e A
+A têm papel de matriz identidade I)
ii) A+A A
+ = A
+
iii) A A+
= (A A+)’ (AA
+ é simétrica)
iv) A+A = (A
+A)’ (A
+A é simétrica)
Embora AA+
e A+A desempenhem o papel de matriz I (identidade) na pré-multiplicação por
A e A+ (ou na pós-multiplicação por A
+ e A), respectivamente, essas matrizes só serão mesmo
iguais à identidade em situações especiais. Ex.: se A for não-singular (n.s.), então: AA+
= A+A = I;
e, sendo A n.s., A-1
atende todas as condições especificadas. Logo, A-1
é um caso particular de A+.
É possível mostrar que qualquer matriz, inclusive vetor, possui sempre uma única inversa
generalizada de Moore-Penrose. Logo, A+ sempre existe e é única para uma dada matriz A, o que
caracteriza suas propriedades de existência e unicidade. Outra característica de A+ é que, sendo
AA+ simétrica e A de ordem mxn, então, A
+ será nxm. Veja: se AA
+ = (AA
+)’, então ambas são
mxm; pois, resultam de mAn x nA+
m . Raciocínio idêntico verifica-se para A+A .
A obtenção de A+ a partir de A é apresentada de algumas formas. A primeira delas a ser
apresentada aqui é dada a partir da chamada decomposição por valores singulares (DVS) da matriz
3
que se deseja inverter (A). Tal decomposição é descrita, com exemplos, no Apêndice 1. Assim,
dada a DVS da matriz: A = USV’ ou A= ii1i
i vu
r
, então:
A+
= V S
-1 U’ ou A
+ = ii
1ii
uv1
r
(com i = 1, 2, ..., r)
em que:
U: é a matriz cujas colunas são os autovetores (ui) de AA’, associados aos seus respectivos
autovalores não nulos (i); estes vetores são ortogonais entre si (ui’ui’=0, para ii’) e de norma
(comprimento) unitária, ou seja, são também normalizados (ui’ui=1), o que implica em
UU’=U’U=I, caracterizando U como uma matriz ortogonal (Searle, 1982)4;
S: é a matriz diagonal com os sucessivos valores singulares de A, dispostos em ordem decrescente,
isto é, S = diag { r ...,,, 21 }, tal que i i’ , com i>i’ ;e
V: é a matriz cujas colunas são os autovetores (vi) de A’A, ortonormais (V’V=VV’=I), associados
aos seus respectivos autovalores não nulos (i), os quais são idênticos aos de AA’.
Obs.: Sendo AA’ e A’A matrizes simétricas, todas as suas raízes (autovalores) são reais e positivas5 (i 0).
Vejamos, então, se A+, assim definida, satisfaz às condições especificadas. Se A
+ = , então
é evidente que satisfaz às quatro condições. Para A+ e r 0, tem-se:
i) AA+A = USV’ VS
-1U’ USV’ = US I
S
-1 I SV’ = U SS
-1 SV’ = USV’ = A
ii) A+A A
+ = VS
-1U’ USV’ VS
-1U’ = VS
-1 I S I S
-1U’ = VS
-1S S
-1U’ = VS
-1U’ = A
+
iii) AA+
= USV’ VS-1
U’ = US I S
-1U’ = UU’, que é uma forma de matriz simétrica; por outro lado:
(AA+)’ = A
+’A’ = (VS
-1U’)’ (USV’)’ = US
-1’V’VS’U’ = US
-1 I S’U’ = UU’ (simétrica).
iv) A+A = VS
-1U’ USV’ = VS
-1 I
SV’ = VV’, que também é uma forma simétrica; por outro lado:
(A+A)’ = A’A
+’ = VS’U’ US
-1’V’ = VS’ I S
-1’V’ = VV’ (simétrica).
Obs.: Sendo S uma matriz diagonal, assim como S-1, ambas são logicamente simétricas, então: S’=S e S-1’=S
-1.
Feitas estas demonstrações, pode-se afirmar que a inversa de Moore-Penrose, definida como
A+
= V S
-1 U’, existe para qualquer matriz A (inclusive se A for um vetor). Outra definição de A
+ é
dada a partir da fatoração de mAn, com posto r>0, em matrizes mBr e rCn , ambas de posto r, tal que:
A = B C (fatoração de posto completo – algoritmo de Dwivedi citado por Iemma, 1988). Neste
caso, encontradas as matrizes B e C (exemplo numérico em Apêndice 2, letra b), a inversa
generalizada é dada por:
A+
= C’(CC’)-1
(B’B)-1
B’
4 Se P é uma matriz ortogonal, então: P-1 = P’ P’P = PP’=I ; logo, suas linhas e colunas são vetores ortonormais, isto
é, são ortogonais e normalizadas; além disso, P é uma matriz quadrada, com det (P)=1 (não nulo).
4
Usando o mesmo raciocínio desenvolvido anteriormente é fácil demonstrar que A+, assim
definida, também existe, satisfazendo as quatro condições. Para verificar a propriedade de que A+ é
única (unicidade) pode-se assumir, por hipótese, que A tenha duas inversas, A1+ e A2
+. Se
provarmos que A1+
= A2+, então, mostraremos que A admite uma única inversa generalizada de
Moore-Penrose. Sob esta hipótese, A1+ e A2
+ devem, portanto, satisfazer aos seguintes conjuntos de
condições:
i.1) A A1+A = A i.2) A A2
+A = A
ii.1) A1+A A1
+ = A1
+ ii.2) A2
+A A2
+ = A2
+
iii.1) AA1+
= A1+’A’ iii.2) AA2
+ = A2
+’A’
iv.1) A1+A = A’A1
+’ iv.2) A2
+A = A’A2
+’
Para chegarmos a essa demonstração obteremos, inicialmente, dois resultados:
1o) AA1
+ = (A A2
+A) A1
+ = (AA2
+)’(AA1
+)’ = A2
+’A’A1
+’A’ = A2
+’(AA1
+A)’ = A2
+’A’
Logo, AA1+ = (A A2
+)’ = AA2
+ (I)
2o) A1
+A = A1
+(A A2
+A) = (A1
+A)’(A2
+A)’ = A’A1
+’A’A2
+’= (AA1
+A)’A2
+’= A’A2
+’
Logo, A1+A = (A2
+A)’ = A2
+A (II)
Sabendo-se que: A1+
= A1+A A1
+ e AA1
+ = AA2
+ (do resultado I) A1
+ = A1
+(A A2
+) = (A1
+A)A2
+ ;
assim, substituindo-se II neste resultado temos: A1+
= A2+A A2
+ = A2
+ A1
+ = A2
+ . Logo, a matriz
A admite uma única inversa generalizada de Moore-Penrose.
Outras propriedades desse tipo de matriz inversa mostram a sua semelhança com o conceito
clássico de inversa regular (A-1
) , por exemplo:
a) (A’)+
= (A+)’ A
+’ = A’
+
b) (A+)
+ = A
c) r [A+] = r [A]
d) (A’A)+
= A+A’
+
e) (AA+)
+ = A A
+
f) se A = A’ A+
= A+’
g) se A é n.s. A+
= A-1
e AA+
= A+A = I
h) se AA = A (idempotente) A+
= A
i) se A = diag {d11, d22, ..., dnn} A+
= diag {d11-1
, d22-1
, ..., dnn-1},
para dii 0; se dii = 0 dii-1
= 0 (i=1, 2, ..., n).
j) se mAn tem posto r = n A+
= (A’A)-1
A’ e A+A = I ; e
se mAn tem posto r = m A+
= A’(AA’)-1
e AA+ = I ;
ademais, também é válido: A+
= (A’A)+A’ = A’(AA’)
+ , r [A] .
5 Matrizes com esta característica são classificadas como “não negativas”.
5
k) AA+
, A+A , (I – AA
+) e (I – A
+A) são todas matrizes simétricas e idempotentes.
l) sejam mBr , de posto r, e rCn , também de posto r (com r > 0), então: (BC)+
= C+
B+
m) se P(m) e Q(n) são matrizes ortogonais, então: (PAQ)+ = Q’A
+P’
n) se k é um escalar, então: (kA)+
= k1 A
+ .
INVERSA GENERALIZADA CONDICIONAL
Em determinados problemas estatísticos, como na solução de sistemas de equações lineares,
exigências tão restritivas quanto aquelas da inversa generalizada de Moore-Penrose não são
necessárias. Dessa forma, uma classe de matrizes inversas generalizadas, satisfazendo apenas
algumas daquelas condições, pode ser de interesse, especialmente se forem de fácil obtenção. Neste
caso, enquadram-se as chamadas inversas generalizadas condicionais ou simplesmente inversas
generalizadas.
Inversa condicional de uma matriz A, de ordem mxn, é uma matriz denotada por A– , de
ordem nxm, que satisfaz à condição: A A–A = A . Dessa forma, A+ é inversa condicional de A, pois
satisfaz tal propriedade (primeira condição da inversa de Moore-Penrose); a recíproca, no entanto,
não é verdadeira. Atente-se de que A– é “uma” inversa-g de A e não “a” inversa-g de A, pois podem
existir muitas matrizes que satisfazem tal condição. A exceção ocorre quando A é não-singular;
situação em que A– = A
-1, sendo, portanto, única. Além disso, todas as propriedades de A+ discutidas
anteriormente e que estejam associadas a esta condição são também propriedades de A– .
A obtenção de uma inversa condicional não apresenta uma expressão definida, já que podem
haver várias inversas condicionais para uma certa matriz. Assim, há uma série de procedimentos,
entre os quais o algoritmo de Searle (1971) será aqui descrito por se mostrar de simples utilização.
Considere, então, uma matriz mAn de posto r e as seguintes operações:
i) Na matriz A, tomar-se qualquer sub-matriz M, não-singular, também de posto r (M é
denominada menor principal não nulo);
ii) Obter-se M-1
e, em seguida, a sua transposta (M-1
’);
iii) Substituir-se em A os elementos de M pelos correspondentes elementos de M-1
’ e zera-se
os demais; e
iv) A transposta da matriz resultante é uma inversa condicional de A .
Obs.: Se A for uma matriz simétrica, dispensa-se as referidas transposições. Ademais, as matrizes inversas
condicionais obtidas por esse algoritmo são também inversas reflexivas.
Outros processos são disponíveis. Um deles, para matrizes quadradas, baseia-se na obtenção
de uma forma de Hermite (H) da matriz A, por meio de operações elementares de linhas e colunas:
6
[ A | I ] ~ ... (operações elementares) ... ~ [ M A | M ], em que: M A = H .
Neste caso a matriz M (não-singular) é uma inversa condicional de A, pois, sendo MA uma
forma de Hermite, então, MA é idempotente (propriedade de H), ou seja: MA MA = MA; como M
é não-singular, existe M-1
. Pré-multiplicando ambos os termos por M-1
tem-se: M-1
MAMA = M-
1MA AMA = A; logo: M = A–
.
Se A não for quadrada, por este último procedimento, recomenda-se aumentar a matriz A de
linhas ou colunas nulas para se obter A0 quadrada. Obtém-se, então: M0A0 = H, por meio de
operações elementares. A inversa condicional de A é obtida tomando-se a partição M de M0,
conforme o número de linhas ou colunas aumentadas em A. Para l linhas nulas aumentadas em A,
descarta-se as l últimas colunas de M0 para obter M. O inverso é feito no caso de se aumentar
colunas em A.
INVERSA DE QUADRADOS MÍNIMOS
Provavelmente nenhum procedimento em estatística aplicada seja usado com mais
freqüência do que a teoria de Quadrados Mínimos (Graybill, 1983). Os sistemas de equações
lineares advindos dessa teoria podem ser resolvidos usando-se outra categoria de matrizes inversas
generalizadas, as inversas de quadrados mínimos, cuja definição é apresentada a seguir.
Seja uma matriz mAn , denota-se Al uma inversa generalizada de quadrados mínimos de A,
se e somente se essa matriz satisfizer às duas condições:
i) A Al A = A ; e
ii) AAl = (AA
l )’ (forma simétrica)
Obs.: Conclui-se, portanto, que toda inversa de quadrados mínimos é uma inversa condicional e que
A+ é também inversa de quadrados mínimos.
Uma matriz Al pode ser obtida a partir de uma matriz inversa condicional por meio da
seguinte expressão: Al = (A’A)- A’ . Provemos, então, que A
l , assim definida, satisfaz às duas
condições:
i) A [(A’A)- A’] A = A , pré-multiplicando-se (ambos os termos) por A+’A’ tem-se:
A+’A’A(A’A)- A’A = A
+’A’A
(AA+)’A (A’A)- A’A = (AA
+)’A
AA+A(A’A)- A’A = AA
+A
A (A’A)- A’ A = A
A Al
A = A
7
ii) pós-multiplicando-se AAl por AA
+ tem-se:
AAl AA
+ = AA
+ (que é uma forma já sabidamente simétrica). Do primeiro termo ainda segue:
A[(A’A)-A’]AA+
= A(A’A)-A’(AA+)’
= A(A’A)-A’A
+’A’
= A(A’A)-A’
= AA
l AA
l = AA
+ .
Logo, AAl é simétrica. Como AA
+ é idempotente, então, AA
l também o é.
Entre as propriedades das matrizes inversas de quadrados mínimos verifica-se, então, que:
AAl = AA
+ = A (A’A)- A’ ; logo, como A
+ é única, AA
l = AA
+ = A (A’A)- A’ é uma forma
invariante para qualquer Al e para qualquer (A’A)- .
INVERSA REFLEXIVA OU INVERSA-G2
Este tipo de inversa é incluído neste texto em virtude de sua aplicação pelo sistema
estatístico SAS, de uso bastante difundido em termos de análise de dados. É assim denominada por
atender a duas condições recíprocas (inversa-g2).
Dada uma matriz qualquer mAn , uma matriz AR
(ou Ag2
), de ordem nxm, é definida inversa
reflexiva de A, se e somente se satisfizer as duas condições:
i) A AR
A = A ; e
ii) ARA A
R = A
R .
Obs.: Disso, conclui-se que toda inversa reflexiva é uma inversa condicional e que A+ é também uma
inversa reflexiva.
As inversas reflexivas também não são únicas e uma forma de obtê-las é por meio da
seguinte expressão: AR
= A-A A- ; ou seja, a partir de uma inversa condicional de A é possível
obter, então, uma inversa reflexiva de A . Mostremos, portanto, que matrizes assim definidas são
inversas reflexivas; ou seja, satisfazem às duas condições:
i) A (A- A A-) A = ( A-
A)(A- A) A = A , como AA- é idempotente, tem-se: AA-
A = A .
ii) (A-A A-)A(A-A A-) = ( A-A)(A-A)( A-A)A- = A
R , novamente partindo-se da idempotência de
A-A tem-se: ( A-A)(A-A)A- = A-A A- = A
R .
Logo, AR
= A-A A- é uma inversa reflexiva de A (tomando-se diferente matrizes A- obtém-
se diferentes inversas reflexivas AR para a mesma matriz A ).
No contexto da estatística experimental é comum trabalhar-se com matrizes do tipo X’X(n)
(quadradas e simétricas), derivadas de matrizes de delineamentos (de posto incompleto r<n). Neste
caso, o SAS usa o seguinte algoritmo para obter sua inversa-g2 de X’X:
8
i) Toma-se, seqüencialmente, as colunas linearmente independentes (l.i.) de mXn , para
formar a matriz mX1r ;
ii) Obtém-se r(X1’X1)r e sua inversa regular (X1’X1)-1
;
iii) Substituem-se em X’X os elementos correspondentes às r colunas l.i. pelos elementos de
(X1’X1)-1
, operando simetricamente com as linhas;
iv) Zeram-se as colunas e linhas restantes; e
v) A matriz resultante é uma inversa-g2 de X’X, ou seja (X’X)R .
CONCLUSÃO
Todas as idéias aqui apresentadas, relativas ao conceito de inversas generalizadas de
matrizes, ampliam a base conceitual para um melhor entendimento da teoria estatística em geral,
sobretudo, dos problemas relacionados à busca de soluções em sistemas de equações lineares.
Assim, conclui-se pela relevância da iniciação neste tópico, sobretudo àqueles com interesse em
avançar no entendimento da teoria de modelos lineares, de aplicação rotineira na análise de dados
provenientes de delineamentos experimentais.
BIBLIOGRAFIA
DWIVEDI, P. 1975. A method to compute the rank factors of a matrix. Sankhya, 36(B.4): 463-464.
GABRIEL, K.R. 1978. Least squares approximation of matrices by additive and multiplicative models. J. R.
Statist. Soc. (Series B), 40: 186-196.
GOOD, I.J. 1969. Some applications of the singular decomposition of a matrix. Technometrics, 11: 823-
831.
GRAYBILL, F. A. 1983. Matrices with applications in statistics. 2. ed. California: Wadsworth. 461 p.
HILL, D. R. & MOLER, C. B. 1988. Experiments in computacional matrix algebra. New York: Random. 446 p.
IEMMA, A. F. 1988. Matrizes para estatística: Um texto para profissionais de ciências aplicadas.
Piracicaba: ESALQ/USP. 339 p.
IEMMA, A. F. & PALM, R. 1992. Les matrices inverses généralisees et leur utilisation dans le modèle
linéaire. reed. 2002. Notes de Statistique et D'informatique, Gembloux. 25 p.
SEARLE, S. R. 1971. Linear models. New York: John Wiley & Sons. 420 p.
SEARLE, S. R. 1982. Matrix algebra useful for statistics. New York: John Wiley & Sons. 438 p.
SOUZA, J. de. 1988. Análise em componentes principais. v. II. Brasília: Thesaurus. 67 p.
9
Apêndice 1
DECOMPOSIÇÃO POR VALORES SINGULARES (DVS) – EXEMPLOS E PROPRIEDADES
Exemplo 1:
Considere, inicialmente, a DVS de uma matriz quadrada simples (A(2x2) ):
A(2) = 4 2 = U S V’ = k k uk vk’ = 1 u1 v1’ + 2 u2 v2’ = A1 + A2 . 1 3 k =1,2, ..., p; onde: p = min{nlinhas l.i., ncolunas l.i.}=2, é o posto de A.
Para obter essa decomposição faz-se necessário, em princípio, encontrar os p escalares k, bem como os p vetores uk e vk’ (neste caso k=1,2; pois p=2), denominados valores singulares e vetores singulares
coluna e linha, respectivamente. Uma forma de obter os valores singulares de uma matriz (A) é extraindo-se
a raiz quadrada dos autovalores (k2) de uma das correspondentes matrizes simétricas AA’ ou A’A, que
possuem os mesmos autovalores (Iemma, 1988). Os autovetores de AA’ associados a cada k2, dispostos em
ordem decrescente destes autovalores, são exatamente os p vetores-coluna que formam a matriz U, ou seja, os vetores singulares-coluna de A. Analogamente, os p autovetores de A’A são os vetores singulares-linha
de A, dispostos como linhas da matriz V’. As matrizes AA’ e A’A, neste caso, são dadas por:
AA’= 20 10 , com polinômio característico dado por:
10 10 (20 - ) (10 -
) - (10 . 10) = 0
A’A= 17 11 , com polinômio característico dado por:
11 13 (17 - ) (13-
) - (11 . 11) = 0
Tomando-se o primeiro polinômio obtêm-se as duas raízes características (ou autovalores) da matriz AA’:
200- 20
- 10
+ ()
2 - 100 = 0
()
2 - 30
+ 100 = 0 1
2 = 26,18034 e 2
2 = 3, 81966.
Note-se que: 12 + 2
2 = 26,18 + 3,82 = 30 = i,j aij
2 = (4)
2 + (2)
2 + (1)
2 +(3)
2 = 30.
Da mesma forma, as duas raízes ou autovalores de A’A são obtidas a partir de:
221- 17
- 13
+ ()
2 - 121 = 0
()
2 - 30
+ 100 = 0 mesmas raízes (1
2 = 26,18034 e 2
2 = 3, 81966).
Os p autovetores normalizados (de comprimento unitário) de AA’ associados a cada autovalor k2
(neste caso: k=1,2) são obtidos por:
k=1) 20-26,18 10 u11 = 0 10 10-26,18 u12 0
-6,18 10 u11 = 0 u1 = 0,8506508 , com u112 + u12
2 =1.
10 -16,18 u12 0 0,5257311
k=2) 20-3,82 10 u21 = 0
10 10-3,82 u22 0
16,18 10 u21 = 0 u2 = -0,5257311 , com u212 + u22
2 =1.
10 6,18 u22 0 0,8506508
10
Da mesma forma, os p autovetores normalizados de A’A associados a cada k2 são obtidos por:
k=1) 17-26,18 11 v11 = 0
11 13-26,18 v12 0
-9,18 11 v11 = 0 v1 = 0,7677517 , com v112 + v12
2 =1.
11 -13,18 v12 0 0,6407474
k=2) 17-3,82 11 v21 = 0 11 13-3,82 v22 0
13,18 11 v21 = 0 v2 = -0,6407474 , com v212 + v22
2 =1.
11 9,18 v22 0 0,7677517
A decomposição por valores singulares (DVS) da matriz A é, portanto, dada pelas seguintes parcelas
(neste caso duas, em razão do posto 2 de A):
1 u1 v1’ = (26,18)1 /2
. 0,8506 . 0,7677 0,6407 = 3,341640 2,788854 = A1 0,5257 2,065225 1,723607
e
2 u2 v2’ = ( 3,82)1 /2
. -0,5257 . -0,6407 0,7677 = 0,658360 -0,78885 = A2
0,8506 -1,065225 1,276393
Fazendo-se: A1 + A2 , obtém-se exatamente a matriz A={aij}. Ademais, tomando-se a soma de
quadrados dos elementos da matriz A1={a1ij}, obtém-se exatamente 12 (ij a1ij
2 =1
2 =26,18034), o mesmo
verificando-se para a soma de quadrados dos elementos de A2={a2ij}, isto é: ij a2ij2
=22
= 3,81966. Note-se que A1 representa ainda uma aproximação da matriz A, no caso, a aproximação DVS de posto unitário para
A. Observe-se que esta aproximação (A1) é especialmente boa em termos da soma de quadrados dos elementos de A (26,18 versus 30). Good (1969) mostra que uma aproximação DVS de posto n, com n<p,
resulta também na menor soma de quadrados de desvios entre os elementos das duas matrizes. Ou seja,
ij(aij - anij)2
é mínima para An={anij} obtida pela soma das n primeiras parcelas da DVS de A. O que
significa dizer que nenhuma outra aproximação de posto n para a matriz A resultará num valor igual ou inferior a este. No presente caso, nenhuma outra matriz de posto unitário é capaz de aproximar-se tão bem a
A quanto A1; logicamente em termos do critério de dispersão ij (aij - a1ij)
2 .
Equivalentemente, como já mencionado, a DVS de A pode também ser obtida multiplicando-se as matrizes U, S e V’, nesta ordem (A = U S V’), fazendo-se:
0,8506 -0,5257 (26,18)1/2
0 0,7677 0,6407 v1’ U = 0,5257 0,8506 ; S= 0 (3,82)
1/2 ; e V’ = -0,6407 0,7677 v2’
u1 u2 1 2
11
Exemplo 2:
Considere agora outra matriz A(3x2) de maior ordem e sua decomposição singular (DVS):
2 3
A = 1 7 = U S V’ = k k uk vk’ = 1 u1 v1’ + 2 u2 v2’ = A1 + A2 . 1 5 k =1,2, ..., p(A) ; p(A) = min{nlinhas LI, ncolunas LI}=2;
i,j aij2 = 89.
Para matrizes de ordem elevada, a tarefa de encontrar autovalores e conseqüentemente valores
singulares, bem como os respectivos autovetores e vetores singulares, torna-se impraticável manualmente.
Entretanto, através de um programa computacional para álgebra de matrizes pode-se obter com facilidade as matrizes U, S e V que determinam a DVS. No SAS / proc IML, por exemplo
6, fazendo-se uso do comando
“call svd(U,S,V,A)”, obtém-se as seguintes matrizes como resultado da DVS de A:
0,3605 0,9204 9,3274 0,0000 0,2169 0,9762
U = 0,7559 -0,3835 ; S = 0,0000 1,4142 ; e V = 0,9762 -0,2169
0,5465 -0,0767
1 2 v1 v2
u1 u2 (valores singulares de A) (vetores singulares-linha de A) (vetores singulares-coluna de A) (autovalores de AA’ e A’A)
1/2 (autovetores de A’A)
(autovetores de AA’) 12 + 2
2 = 87 + 2 = 89.
Assim, A é decomposta em duas parcelas (matrizes de posto unitário), quais sejam:
0,7294 3,2824
A1 = 1 u1 v1’= 1,5294 6,8824 ; i,j a1ij2 = 87.
1,1059 4,9765 2 3
A1 + A2 = 1 7 = A 1 5
1,2706 -0,2824
A2 = 2 u2 v2’ = -0,5294 0,1176 ; i,j a2ij2 = 2.
-0,1059 0,0235
Algumas propriedades dos resultados obtidos:
1)- A decomposição por valores singulares (DVS) de uma matriz, definida como A={aij}, corresponde a uma
partição da soma de quadrados de seus elementos, isto é: ij aij2 = k k
2 (Mandel, 1971). Ademais esta
partição é ortogonal, pois: U’U=V’V=I A1’A2= A2’A1, sem perda de generalidade (Ai’Aj=, i j).
2)- No exemplo anterior, foram necessários dois termos (duas matizes parciais) para reproduzir a matriz A
exatamente. Isso deve-se ao posto de A ser dois (duas colunas independentes). Adicionando-se uma linha e/ou uma coluna linearmente dependentes, a decomposição continua sendo feita com base em apenas dois
termos, pois apenas dois de seus valores singulares (ou dos autovalores de AA’ e de A’A) serão não nulos.
3)- Tomando-se A1 tem-se uma aproximação de posto ‘um’ para A. Assim, se existir alguma lei regendo a construção da matriz A e se tal lei tiver algum efeito sobre a soma de quadrados de seus elementos, não há
dúvida de que A1 fornece uma boa aproximação para essa medida (Good, 1969; Gabriel, 1978). Assim, A1
representa a aproximação de quadrados mínimos, de posto ‘um’, para a matriz A, com: 12 /k k
2 =0,98. Se
p(A)>2, então, A1 +A2 seria a aproximação DVS de posto ‘dois’ para A e assim por diante.
6 proc iml; reset print log; A={2 3, 1 7, 1 5};
call svd (U,S,V,A);
quit;
12
Apêndice 2
INVERSAS DE MATRIZES - EXEMPLOS NUMÉRICOS
a) INVERSA REGULAR
Exemplo 1:
Considere a matriz quadrada a seguir:
A(2) =
61
23
Seu determinante é obtido por: det (A) = (3x6) – (1x2) = 16
Como det (A) 0, A é uma matriz não-singular; logo, existe A-1, tal que: AA
-1 = A-1
A = I .
Partindo-se da definição, A-1 = [1/det(A)] Adj(A) , temos que, primeiramente, obter Adj(A):
Adj(A) = [Cof(A)]’ , sendo Cof(A) a matriz de cofatores de A, com: cij = (-1)i+j Mij, logo:
c11 = (-1)1+1 . 6 = 6 ; c12 = (-1)1+2 . 1 = –1 ; c21 = (-1)2+1 . 2 = –2 ; c22 = (-1)2+2 . 3 = 3 Assim:
Cof(A) =
32
16 Adj(A) =
31
26
Logo:
A-1 =
31
2616
1 A-1 =
163
161
81
83
A partir disso, pode-se também construir uma regra geral para obter a inversa de uma
matriz não-singular (n.s.), de dimensão 2x2, isto é:
Se A é n.s., dada por: A(2) =
dc
ba, então: A
-1 =
ac
bdA
1)det(
.
Exemplo 2:
Considere agora um sistema de equações descrito por: y = X .
d
a
m
011
101
011
6
12
14
, em que:
d
a
m
e
011
101
011
X
6
12
14
y ;; .
Um problema matemático associado a um sistema desse tipo consiste em encontrar o vetor
(incógnitas) que pré-multiplicado por X produz y , ou seja, a solução do sistema de
equações lineares. Em estatística aplicada essa solução (vetor ) pode corresponder aos
coeficientes que ponderam a matriz X de informações, associada à origem dos dados (por
exemplo, uma matriz de delineamento experimental), para produzir as respostas observadas
(vetor y).
Se X for uma matriz não-singular (com determinante não nulo), existe X-1 e a solução do
sistema, única, pode ser obtida por: = X-1
y (resultado da pré-multiplicação dos dois
lados da equação por X-1 X
-1 y= X-1
X X-1
y= I = ).
13
O determinante de X é dado por:
det (X) = [1x0x0 + 1x1x1 + 0x1x(-1)] – [1x0x0 + (-1)x1x1 + 0x1x1] = 1 – (-1) = 2
Como det (X) 0 X é n.s. X-1 , tal que: XX
-1 = X-1
X = I .
Da definição de inversa regular sabemos: X-1=[1/det(X)]Adj(X). Assim, temos que,
primeiramente, obter Adj(X) e, conseqüentemente, Cof(X), cujos elementos são dados por:
c11 = (-1)1+1 . det (M11) = 1x [0x0-(-1x1)] = 1
c12 = (-1)1+2 . det (M12) = (-1)x[1x0-(1x1)] = 1
c13 = (-1)1+3 . det (M13) = 1x [1x(-1)-(1x0)] = -1
c21 = (-1)2+1 . det (M21) = (-1)x[1x0-(-1x0)] = 0
c22 = (-1)2+2 . det (M22) = 1x [1x0-(1x0)] = 0
c23 = (-1)2+3 . det (M23) = (-1)x[1x(-1)-(1x1)] = 2
c31 = (-1)3+1 . det (M31) = 1x [1x1-0x0] = 1
c32 = (-1)3+2 . det (M32) = (-1)x[1x1-(1x0)] = -1
c33 = (-1)3+3 . det (M33) = 1x [1x0-(1x1)] = -1
Logo:
Cof(X) =
111
200
111
Adj(X) =
121
101
101
Então temos:
X-1 =
121
101
101
21 =
21
21
21
21
21
21
1
0
0
.
De posse desta matriz pode-se obter a solução do referido sistema. Sendo X uma matriz
não-singular sabe-se também que o sistema y = X é consistente e determinado, ou seja, tem
sempre uma solução e esta é única, respectivamente. Busquemos, então, esta solução (= X-1
y):
d
a
m
=
21
21
21
21
21
21
1
0
0
2
4
10
6
12
14
2d
4a
10m
b) INVERSA DE MOORE-PENROSE
A seguir é ilustrada a obtenção da inversa-g de Moore-Penrose por meio de dois
procedimentos. Ambos exigem, inicialmente, uma fatoração ou decomposição da matriz a ser
invertida. O primeiro desses procedimentos usa a chamada fatoração de posto completo do
tipo A = BC; o outro procedimento parte da chamada decomposição por valores singulares da
matriz (A = U SV’).
Exemplo 1:
Considere a matriz a seguir (exemplo extraído de Iemma, 1988):
A(3) =
202
022
224
, com det (A) = 0 (matriz singular)
14
Embora a matriz seja quadrada, sua singularidade implica que a matriz não admite inversa
regular (A-1). Apesar disso, em alguns problemas estatísticos pode-se ter interesse em
inverter matrizes desse tipo.
O procedimento adotado neste exemplo para obter a inversa-g de Moore-Penrose usa a
fatoração de posto completo mAn = mBr rCn; em que rmin{m,n} é o posto de A e as matrizes B e C
são posto coluna e posto linha completos, respectivamente (também de postos iguais a r).
O algoritmo de Dwivedi (1975) permite obter essa fatoração em r ciclos de quatro passos
cada:
1o.Ciclo:
passo 1 - Tomar algum elemento não nulo em A = {aij}, o qual será denotado apq;
passo 2 - Obter a matriz resultante do produto vetorial u1 v1’, com:
u1 =
nq
q2
q1
pqa1
a
a
a
e v1’ = pm2p1p aaa .
passo 3 - Fazer A1 = A - u1v1’
passo 4 - Se A1 = (matriz nula), então r=1 e o processo está encerrado; logo: B=u1 e C=v1’
B C = A .
Se A1 , um novo ciclo deve ser iniciado a partir da matriz A1 e assim sucessivamente
até a convergência, quando Ar = . Neste ponto, as matrizes B e C são dadas por:
B = ruuu 21 e C =
rv
v
v
2
1
B C = A
No caso presente, o posto da matriz A(3x2) é nitidamente dois (a primeira linha é a soma
das outras duas ou a primeira coluna é a soma das outras duas). Assim, o processo deve
encerrar em dois ciclos:
1o.Ciclo:
1o.passo - Tomemos, por exemplo, apq = a11 = 4 (elemento chamado pivot);
2o.passo - Obter a matriz resultante do produto vetorial u1 v1’, com:
u1 v1’ =
112
112
224
224
2
2
4
1v
1u
41
3o.passo - Fazer A1 = A - u1v1’ (zera as linha e coluna do povot)
A1
110
110
000
112
112
224
202
022
224
4o.passo - Como A1 , então, um novo ciclo deve ser iniciado a partir de A1.
15
2o.Ciclo:
1o.passo - Tomemos agora, por exemplo, apq = a22 = 1 (elemento não nulo);
2o.passo - A matriz resultante do produto vetorial u2 v2’ (de 2o.ciclo) é dada por:
u2 v2’ =
110
110
000
110
1
1
0
2v
2u
11
3o.passo - Fazer A2 = A1 - u2v2’ (zera as linha e coluna do pivot)
A2
000
000
000
110
110
000
110
110
000
4o.passo - Como A2 = (matriz nula), o processo está encerrado com dois ciclos,
comprovando o posto dois de A, assim como das matrizes B e C, as quais são
dadas por:
B =
1
1
01
uu
21
21
21 e C =
110
224
v
v
2
1
De posse das matrizes B e C, tal que BC=A (fatoração de posto completo), pode-se agora
obter a inversa-g de Moore-Penrose da matriz A por:
A+ = C’(CC’)-1 (B’B)
-1 B’
Neste caso, é necessário, primeiramente, obter as inversas regulares de (B’B) e de (CC’),
as quais são matrizes não-singulares, haja vista B e C serem posto coluna e posto linha
completos, respectivamente. Segue-se, então:
(B’B) =
20
0
1
1
01
110
123
21
212
121
(B’B)-1 =
21
32
0
0
(CC’) =
20
024
12
12
04
110
224 (CC’)-1
=
21
241
0
0
Logo:
A+
=
12
12
04
21
241
0
0
21
32
0
0
110
121
21
=
21
121
21
121
61 0
21
21
31
31
32
0
A+ =
541
451
112
18
1
185
92
181
92
185
181
181
181
91
16
Como exercício adicional pode-se verificar se esta matriz atende às quatro condições que
caracterizam a inversa-g de Moore-Penrose.
Exemplo 2:
Considere agora a matriz A(3x2):
A(3x2) =
51
71
32
Como a matriz não é quadrada (retangular), não se aplicam a esta os conceitos de
determinante, singularidade, bem como o conceito clássico de inversa regular.
Entretanto, também neste caso, pode-se ter interesse em inverter esse tipo de matriz.
Neste exemplo, a obtenção da inversa-g de Moore-Penrose é ilustrada a partir do outro
procedimento referido, a decomposição singular (DVS). Assim, dada a DVS da matriz, A =
USV’ , a sua inversa-g A+ é obtida diretamente por: A
+ = V S
-1 U’. Para simplificação do
procedimento, escolheu-se a matriz A(3x2) anterior, que já foi objeto de ilustração da DVS
no Apêndice 1. Disto decorre:
0,3605 0,9204 9,3274 0,0000 0,2169 0,9762
U = 0,7559 -0,3835 ; S = 0,0000 1,4142 ; e V = 0,9762 -0,2169
0,5465 -0,0767
A inversa-g de Moore-Penrose é obtida a partir destas mesmas matrizes, bastando-se
inverter a matriz S, não-singular, cuja inversão é bastante simples; tendo em vista
tratar-se de uma matriz diagonal. Assim:
A+ =
076703835092040
546507559036050
0
0
2169097620
9762021690
414211
327491
,,,
,,,
,,
,,
,
,
A+ =
076703835092040
546507559036050
153393010465820
6902685002325740
,,,
,,,
,,
,,
A+ =
0689655013793101034480
040230247126064367820
,,,
,,,
Verifiquemos, então, se a matriz obtida anteriormente atende às quatro condições
exigidas para a inversa A+:
i) AA+A = A
AA+A =
51
71
32
0689655013793101034480
040230247126064367820
,,,
,,,
51
71
32
AA+A =
AA
304600442530126440
442530718390080460
126440080460977010
,,,
,,,
,,,
51
71
32
=
51
71
32
= A
17
ii) A+A A
+ = A
+
A+AA
+ =
069001379010340
040202471064370
,,,
,,,
51
71
32
069001379010340
040202471064370
,,,
,,,
A+AA
+ =
AA
10
01
069001379010340
040202471064370
,,,
,,,=
069001379010340
040202471064370
,,,
,,, = A+
iii) AA+
= (AA+)’ (AA
+ é simétrica): pode ser verificada no desenvolvimento da primeira
propriedade (i).
iv) A+A = (A
+A)’ (A+
A é simétrica): pode ser verificada no desenvolvimento da segunda
propriedade (ii).
c) INVERSA GENERALIZADA CONDICIONAL
A seguir é ilustrada a obtenção da inversa-g condicional, seguindo-se o Algoritmo de
Searle (1971):
Exemplo 1:
Considere novamente a matriz:
A(3) =
202
022
224
, com r (A) = 2
Dado o posto dois da matriz, pelo algoritmo, tem-se:
i) Toma-se em A qualquer sub-matriz M, não-singular, também de posto r, por exemplo:
M =
20
02
ii) Obtém-se M-1 e, em seguida, a sua transposta (M-1’):
M-1
=
21
21
0
0 = M-1
’
iii) Substitui-se em A os elementos de M pelos correspondentes elementos de M-1’ e zeram-se os demais:
21
21
00
00
000
18
iv) Uma inversa-g condicional (A-) é dada pela transposta da matriz resultante:
A- =
21
21
00
00
000
A verificação de que esta matriz satisfaz à condição desse tipo de inversa-g é muito
simples:
A A-A =
202
022
224
21
21
00
00
000
202
022
224
=
AA
100
010
110
A
202
022
224
=
202
022
224
= A
Exemplo 2:
Considere agora a matriz:
X =
101
101
011
011
, r (X) = 2 (i): M =
10
01 (ii): M-1 = M
-1’ (iii):
000
100
010
000
;
Logo:
X =
0100
0010
0000
, é uma inversa-g condicional de X.
d) INVERSA-G DE QUADRADOS MÍNIMOS
Da definição de desse tipo de inversa-g tem-se: Xl = (X’X)- X’. Considere, então, a seguinte
matriz, para a qual se buscará sua inversa de quadrados mínimos:
X =
101
101
011
011
X’X =
202
022
224
, com (X’X)- =
21
21
00
00
000
(obtida no exemplo 1, letra c)
Logo:
Xl =
21
21
00
00
000
1100
0011
1111
=
21
21
21
21
00
00
0000
.
19
Passemos, então, a verificar se esta matriz satisfaz às duas condições exigidas por esse
tipo de inversa:
i) X Xl X = X
XXlX =
101
101
011
011
21
21
21
21
00
00
0000
101
101
011
011
=
lXX
21
21
21
21
21
21
21
21
00
00
00
00
X
101
101
011
011
=
101
101
011
011
= X
ii) XXl = (XX
l )’; isto é, XXl é uma forma simétrica; o que se pode verificar do resultado
parcial anterior.