Álgebra lineal -...

175
Álgebra Lineal Miguel A. Marmolejo L. & Manuel M. Villegas L. Departamento de Matemáticas Universidad del Valle

Upload: dodung

Post on 18-Aug-2018

220 views

Category:

Documents


0 download

TRANSCRIPT

Álgebra Lineal

Miguel A. Marmolejo L. & Manuel M. Villegas L.

Departamento de MatemáticasUniversidad del Valle

Índice general

Introducción 1

Índice de figuras iii

Capítulo 1. Preliminares 11.1. Matrices 11.2. Espacios vectoriales 51.3. Transformaciones lineales 111.4. Espacios fundamentales de una matriz. Rango de una matriz. Sistemas de ecuaciones lineales 13

Capítulo 2. Matrices Particionadas. Traza de una Matriz 172.1. Submatrices. Operaciones con matrices particionadas 172.2. Determinantes e inversas de algunas matrices especiales 212.3. Traza de una matriz 28

Capítulo 3. Valores propios y vectores propios. Diagonalización 313.1. Valores propios y vectores propios 313.2. Diagonalización 393.3. Diagonalización de matrices simétricas 483.4. Diagonalización simultánea de matrices simétricas 63

Capítulo 4. Formas cuadráticas 714.1. Clasificación de las formas cuadráticas. 714.2. Cambio de variable. Diagonalización de formas cuadráticas 744.3. Formas cuadráticas positivas, negativas e indefinidas. 824.4. Anexo: Matrices no negativas. Matrices idempotentes 89

Capítulo 5. Inversa generalizada e inversa condicional de matrices. 995.1. Inversa generalizada de una matriz 995.2. Cálculo de la g-inversa de una matriz 1075.3. Inversa condicional de una matriz 1125.4. Sistemas de ecuaciones lineales: g-inversa y c-inversa de una matriz. mínimos cuadrados. 119

Capítulo 6. Factorización de matrices 1316.1. Descomposición LU 1316.2. Descomposición QR 1386.3. Descomposición de Cholesky 1466.4. Descomposición en valores singulares (SVD) 151

Capítulo 7. Rectas e hiperplanos. Conjuntos convexos. 1577.1. Rectas. Segmentos de recta. Hiperplanos 1577.2. Conjuntos convexos 164

Índice general

Índice alfabético 169

Bibliografía 171

ii

Índice de figuras

1.1. Transformación lineal 15

3.1. Interpretación geométrica de vector propio 323.2. Vectores propios de T (x, y) = (2x, x+ 3y) 33

5.1. Problema de los mínimos cuadrados 1205.2. Ajuste por mínimos cuadrados 1215.3. Ajuste lineal por mínimos cuadrados 1225.4. Ajuste lineal ejemplo 5.50 1265.5. Ajuste lineal ejemplo 5.51 1275.6. Ajuste cuadrático ejemplo 5.52 129

6.1. Esquema de la factorización LU 136

7.1. Puntos y vectores en R3. 1577.2. Una recta en R2. 1587.3. Gráfica de una recta que pasa por los puntos P y Q. 1597.4. Segmento de recta que une los puntos P y Q 1607.5. Gráfica de un plano en R3. 1617.6. Gráficas de un plano y una recta en R3 1627.7. Ilustración de semiespacios abiertos 1637.1. Conjuntos convexos y no convexos 165

iii

CAPÍTULO 1

Preliminares

En este capítulo se recopilan algunas definiciones y algunos resultados básicos que servirán de referenciaen el desarrollo de los capítulos posteriores. Se consideran aquí varios aspectos relacionados con matrices,espacios vectoriales y transformaciones lineales. El orden en que se presentan los temas no corresponde alencontrado en la mayoría de textos utilizados en un primer curso de álgebra lineal (Grossman [5], Nakos yYoyner [10], Strang [14] y otros).

1.1. Matrices

Una matriz A de tamaño m× n (o simplemente Am×n) es un arreglo rectangular de escalares 1 dispuestosen m filas ("líneas" horizontales) y n columnas ("líneas" verticales); el escalar que está en la i-ésima fila yen la j-ésima columna se denota por aij o 〈A〉ij y se llama elemento ij de la matriz A. Para indicar dichoarreglo usualmente se escribe A = [aij ]m×n, o en forma expandida

(1.1) A =

26664a11 a12 · · · a1n

a21 a22 · · · a2n

......

. . ....

am1 am2 · · · amn

37775 .Si Ai denota la i-ésima fila de A y Aj la j-ésima columna de A; esto es,

Ai =ˆai1 ai2 · · · ain

˜; Aj =

26664a1j

a2j

...amj

37775 ,

entonces el arreglo (1.1) se puede representar por filas o por columnas como sigue:

A =

26664A1

A2

...Am

37775 =ˆA1 A2 · · · An

˜.

Las matrices se denotan, como se ha sugerido, con letras mayúsculas A, B, C, etc. El conjunto de todaslas matrices m×n con elementos reales se denotará por Mm×n(R) o simplemente Mm×n. Los elementos deMn×n se llaman matrices cuadradas de orden n; a la "diagonal" formada por los elementos a11, a22, . . . , annde una tal matriz A, se le llama diagonal principal de A.

1A no ser de que se exprese lo contrario, todos los escalares serán números reales

1

1.1. Matrices Preliminares

Toda matriz cuadrada A cuyos elementos fuera de la diagonal principal son nulos (aij = 0 para i 6= j, i, j =1, 2, . . . , n), se denomina matriz diagonal y usualmente se escribe A = diag(a11, a22, . . . , ann). Una matrizcuadrada se llamada triangular superior (inferior) si todos sus elementos abajo (arriba) de su diagonalprincipal son nulos.

La matriz diagonal de orden n, cuyos elementos en su diagonal principal son todos iguales a 1, se denominamatriz idéntica o matriz identidad de orden n; tal matriz se denota por In (o simplemente I, cuando no seanecesario especificar el orden).

Una matriz nula es una matriz cuyos elementos son todos nulos. Una matriz nula será denotada por 0 (opor 0m×n cuando sea necesario especificar el tamaño de la matriz).

Dos matrices A y B de igual tamaño m × n son iguales si y sólo si sus componentes correspondientes soniguales. Esto es,

〈A〉ij = 〈B〉ij ; i = 1, 2, . . . ,m, j = 1, 2, . . . , n.

La suma A+B de dos matrices A y B de tamaño m× n, es la matriz m× n tal que:

〈A+B〉ij = 〈A〉ij + 〈B〉ij ; i = 1, 2, . . . ,m, j = 1, 2, . . . , n.

La multiplicación αA del número α por la matriz A de tamaño m× n, es la matriz de tamaño m× n, talque:

〈αA〉ij = α 〈A〉ij ; i = 1, 2, . . . ,m, j = 1, 2, . . . , n.

El producto AB de la matriz A ∈ Mm×s por la matriz B ∈ Ms×n, es la matriz de tamaño m× n, tal que:

〈AB〉ij =

sXk=1

〈A〉ik 〈B〉kj ≡ Ai ·Bj ; i = 1, 2, . . . ,m, j = 1, 2, . . . , n.

1.1.1. Inversa de una matriz. Sea A ∈ Mn×n. Si existe una matriz B ∈ Mn×n tal que AB = I,se puede demostrar que BA = I y que B es única. Cuando existe una matriz B tal que AB = I, a B se lellama la matriz inversa de A y se le denota por A−1. Es este caso se dice que A es no singular o invertible;en caso contrario, se dice que A es no invertible o singular.

En el siguiente teorema se establecen algunas propiedades de la inversa de una matriz

1.1. Teorema. Si A, B ∈ Mn×n son matrices invertibles y si α es un número no nulo, entonces:1. La matriz A−1 es invertible y

`A−1

´−1= A.

2. La matriz AB es invertible y (AB)−1 = B−1A−1.3. La matriz αA es invertible y (αA)−1 = α−1A−1.

1.1.2. Transpuesta de una matriz. Sea A una matriz m × n. La matriz transpuesta de A es lamatriz n ×m, denotada por AT , cuya i-ésima fila corresponde a la i-ésima columna de la matriz A. Estoes, la transpuesta de A es la matriz AT tal que 〈ATij〉 = 〈Aji〉, para i = 1, 2, . . .m, y j = 1, 2, . . . n.

Sea A una matriz cuadrada. Si AT = A, se dice que A es una matriz simétrica, y si AT = −A, se dice queA es una matriz antisimétrica. En particular, las matrices diagonales son simétricas.

Las propiedades más relevantes de la transpocisión se dan en el siguiente teorema.

1.2. Teorema. Si A y B son matrices tales que las operaciones siguientes están bien definidas, entonces:1. (AT )T = A.2. AT = BT si y sólo si A = B.3. Si A es una matriz diagonal, entonces AT = A.4. Si α, β son números, entonces (αA+ βB)T = αAT + βBT .5. (AB)T = BTAT .

2

Preliminares 1.1. Matrices

6. Las matrices ATA y AAT son simétricas.7. Si A es invertible, entonces AT es invertible y (AT )−1 = (A−1)T .

1.1.3. Determinantes. En este apartado se dan las definiciones de menor, cofactor,matriz de cofac-tores, matriz adjunta y determinante de una matriz cuadrada. Además se presentan algunas propiedadesdel determinante. En lo sucesivo, el determinante de una matriz A será denotado por |A| o por det(A).

Se define el determinante de una matriz de manera inductiva. Para una matriz A1×1, que consta de un sóloelemento; digamos A = [a], se define det(A) = a. El determinante de una matriz n× n; n ≥ 2, se define entérminos de determinantes de matrices (n− 1)× (n− 1); para ello es necesario introducir los conceptos demenor y cofactor.

Sea A = [aij ]n×n; el menor del elemento 〈A〉ij se denota por mij y se define como el determinante de lamatriz que resulta al suprimir la i-ésima fila de A y la j-ésima columna de A. El cofactor del elemento 〈A〉ijse denota por Cij y se define como

Cij = (−1)i+jmij .

La matriz C, cuyos elementos son los cofactores Cij de A se denomina matriz de los cofactores de A. Latranspuesta de la matriz de cofactores C, se denomina adjunta de A y se denota por adj(A), es decir,adj(A) = CT .

El determinante de A se define entonces como el número

det(A) =

nXj=1

〈A〉1j C1j ,

En particular, si A = [aij ]2×2 entonces det(A) = a11a22 − a12a21.

En el siguiente teorema se dan expresiones para calcular el determinante de una matriz (cuadrada) entérminos de sus cofactores. Además, muestra que el valor del determinante no depende de la fila o columnaa lo largo de la cual se haga la expansión. Dicho teorema presenta también una forma para calcular lainversa de una matriz.

1.3. Teorema. Sea A una matriz cuadrada de orden n.

1. Si Cij denota el cofactor del elemento 〈A〉ij, entonces:

a) det(A) =

nXj=1

〈A〉ij Cij , para cada i = 1, 2, . . . , n.

b) det(A) =

nXi=1

〈A〉ij Cij , para cada j = 1, 2, . . . , n.

2. Para cualquier matriz cuadrada A, se tiene que

A · adj(A) = adj(A) ·A = det(A) · I .3. La matriz A es invertible sii |A| 6= 0, en este caso se tiene que

A−1 = (det(A))−1 · adj(A) .

Las principales propiedades del determinante de una matriz se recogen en el teorema que sigue.

1.4. Teorema. Sean A, B y C matrices cuadradas de orden n, entonces:

1. |A| = |AT | .2. Si A tiene una fila nula, entonces |A| = 0.

3

1.1. Matrices Preliminares

3. Si A y B son matrices que difieren únicamente en la k-ésima fila y si Ak = α · Bk (con α 6= 0),entonces |A| = α|B|.

4. Si α es un escalar, entonces |αA| = αn|A|.5. Si A, B y C difieren únicamente en la k-ésima fila y si Ck = Ak +Bk, entonces |C| = |A|+ |B|.6. Si A tiene dos filas iguales, entonces |A| = 0.7. Si B se obtiene al intercambiar dos filas de A, entonces |B| = −|A|.8. El determinante de una matriz no cambia si los elementos de la i-ésima fila son multiplicados por

un escalar α y los resultados son sumados a los correspondientes elementos de la k-ésima fila, parak 6= i.

9. |AB| = |A||B|.

Nota. Por (1), cualquier proposición sobre |A| que sea verdadera en las filas de A es también verdaderapara las columnas de A.

1.1.4. Operaciones elementales. Matrices elementales. En este apartado se introducen lasoperaciones elementales y las correspondientes matrices elementales, que constituyen la herramienta básicapara describir ciertos procesos de cálculo y para demostrar algunos resultados importantes del álgebra linealrelacionados con los sistemas de ecuaciones lineales, con la inversa generalizada de una matriz y con diversasdescomposiciones de una matriz. Para un desarrollo detallado ver Espinosa y Marmolejo [6].

1.5. Definición (Operaciones y matrices elementales). Dada una matriz A, cada una de las siguientesoperaciones es llamada una operación elemental en las filas (columnas) de A.

(i) El intercambio de dos filas (columnas) de A.(ii) La multiplicación de los elementos de una fila (columna) de A por un escalar no nulo.(iii) Reemplazar una fila (columna) de A, por la suma de ella y un múltiplo escalar no nulo de otra fila

(columna) de dicha matriz.

Una matriz elemental por filas (columnas) es aquella que resulta de efectuar una operación elemental sobrelas filas (columnas) de una matriz identidad.

1.6. Teorema (Matrices elementales).

1. Cada matriz elemental es invertible. Además, la inversa de cada matriz elemental es una matrizelemental.

2. Sea A una matriz m×n. Si B es una matriz que resulta al efectuar una operación elemental sobrelas filas de A y si E es la matriz elemental que resulta de efectuar la misma operación elementalsobre las filas de la matriz idéntica Im, entonces E ·A = B.

3. Sea A una matriz m × n. Si B es una matriz que resulta al efectuar una operación elementalsobre las columnas de A y si E es la matriz elemental que resulta de efectuar la misma operaciónelemental sobre las columnas de la matriz idéntica In, entonces A · E = B.

1.7.Definición (Forma escalonada reducida). Se dice que una matriz R tiene la forma escalonada reducida,si satisface las siguientes condiciones:

(i) Si una fila de R es no nula, el primer elemento no nulo de dicha fila, de izquierda a derecha, es 1.(ii) Si las filas i e i+ 1 de R son no nulas, el primer elemento no nulo de la fila i+ 1 está a la derecha

del primer elemento no nulo de la fila i.(iii) Si una columna de R contiene el primer elemento no nulo de una fila de R, los demás elementos

de dicha columna son nulos.(iv) Si R tiene filas nulas, éstas aparecen en la parte inferior de R.

El siguiente teorema relaciona los conceptos de matrices elementales y forma escalonada reducida para unamatriz arbitraria.

4

Preliminares 1.2. Espacios vectoriales

1.8. Teorema. Para toda matriz A existe una única matriz R que tiene la forma escalonada reducida y unnúmero finito de matrices elementales por filas E1, E2, . . . , Ek tales que:

Ek · · ·E2 · E1 ·A = R .

La matriz R mencionada en el teorema anterior se denomina la forma escalonada reducida de A.

1.9. Teorema. Sea A una matriz cuadrada de orden n.

1. A es invertible sii la forma escalonada reducida de A es In.2. A es invertible sii A se puede expresar como el producto de un número finito de matrices elementales.

Los dos últimos teoremas dan lugar a un método para decidir cuándo una matriz cuadrada A es invertibley, simultáneamente, proveen un algoritmo para calcular su inversa.

El método consiste en lo siguiente: Forme la matriz [A | In]. Seguidamente efectúe operaciones elementalessobre la filas de esta matriz hasta obtener su forma escalonada reducida; al final se obtiene una matrizque se representa como: [R |P ]; donde R es la forma escalonada reducida de A. Ahora: A es invertible siiR = In. Si A es invertible entonces A−1 = P .

1.2. Espacios vectoriales

El conjunto de matricesm×n, junto con las operaciones suma de matrices y multiplicación de un escalar poruna matriz, tiene una estructura algebraica denominada espacio vectorial. Esta estructura es importanteporque incluye otros conjuntos que se presentan frecuentemente en las matemáticas y sus aplicaciones.

1.10. Definición. Un espacio vectorial (real) es un conjunto V , cuyos elementos son llamados vectores,junto con dos operaciones: suma de vectores (+) y multiplicación de un escalar por un vector (·), quesatisfacen las propiedades siguientes:

(i) Si u ∈ V y v ∈ V , entonces u + v ∈ V .(ii) Si u ∈ V y v ∈ V , entonces u + v = v + u.(iii) Si u ∈ V , v ∈ V y w ∈ V , entonces

(u + v) + w = u + (v + w) = u + v + w.

(iv) Existe un vector 0 ∈ V tal que para todo u ∈ V , u + 0 = 0 + u = u.(v) Si u ∈ V , entonces existe un vector −u ∈ V tal que

u + (−u) = (−u) + u = 0.

(vi) Si u ∈ V y α es un escalar, αu ∈ V .(vii) Si u ∈ V y α, β son escalares, entonces (αβ)u = α(βu) = β(αu).(viii) Si u ∈ V y α, β son escalares, entonces (α+ β)u = αu + βu.(ix) Si u ∈ V y v ∈ V y α es un escalar, entonces α(u + v) = αu + αv.(x) Si u ∈ V , entonces 1u = u.

1.11. Ejemplo. Son espacios vectoriales:

1. V = Rn = {(x1, x2, . . . , xn) : xi ∈ R, i = 1, 2, . . . , n} con las operaciones definidas así:

(x1, x2, . . . , xn) + (y1, y2, . . . , yn) = (x1 + y1, x2 + y2, . . . , xn + yn)

α · (x1, x2, . . . , xn) = (αx1, αx2, . . . , αxn) .

2. V = Mm×n, el conjunto de matrices m× n con las operaciones definidas en la sección 1.1.

5

1.2. Espacios vectoriales Preliminares

3. V = F(R,R), el conjunto de funciones de R en R con las operaciones definidas así :

(f + g)(t) = f(t) + g(t) , t ∈ R .

(αf)(t) = αf(t) , t ∈ R .

4. V = Pn, el conjunto de los polinomios de grado menor o igual que n con las operaciones definidasen el ejemplo anterior.

Como se establece en la definición, un espacio vectorial (real) es un tripla que consta de un conjunto V yde dos operaciones con ciertas propiedades. Cuando no haya lugar a confusión o cuando no sea necesarioexplicar las operaciones mencionadas, se hará referencia simplemente al espacio vectorial V.

1.12. Definición. Sea V un espacio vectorial y W un subconjunto no vacío de V. Se dice que un W essubespacio de V , si W, junto con las operaciones definidas en V , es un espacio vectorial.

1.13. Definición. Sean V un espacio vectorial, v0 un elemento de V y W es un subespacio de V . Elsubconjunto determinado así:

L = {v ∈ V : v = v0 + w, para w ∈W },

es denominado una variedad lineal de V .

El siguiente concepto es básico en el estudio de los espacios vectoriales. En particular, servirá para carac-terizar ciertos subespacios de un espacio vectorial.

1.14. Definición. Sean v1, v2, . . . , vn vectores de un espacio vectorial V . Se dice que un vector v ∈ V escombinación lineal de los vectores v1, v2, . . . , vn, si existen escalares α1, α2, . . . , αn tales que:

v = α1v1 + α2v2 + · · ·+ αnvn =

nXi=1

αivi .

1.15. Teorema. Sea W un subconjunto no vacío de un espacio vectorial V . Entonces, W es un subespaciode V sii W es cerrado bajo la operación suma de vectores y la multiplicación por un escalar, es decir, sii

1. Si u ∈W y v ∈W , entonces u + v ∈W .2. Si u ∈W y α ∈ R, entonces αu ∈W .

1.16. Teorema. Si U y W son subespacios de un espacio vectorial V , entonces:

1. La intersección de U con W ; U ∩W es un subespacio vectorial de V .2. La suma de U con W ; definida por

U +W = {v ∈ V : v = u + w, con u ∈ U y w ∈W },

es un subespacio vectorial de V .

1.17. Teorema. Sea C un conjunto no vacío de vectores de un espacio vectorial V . El conjunto de todaslas combinaciones lineales de los vectores de C;

W = {v ∈ V : v =kXi=1

αivi; k ∈ N, vi ∈ C y αi ∈ R, i = 1, 2, . . . , k}

es un subespacio de V.

6

Preliminares 1.2. Espacios vectoriales

Sea C un conjunto no vacío de vectores de un espacio vectorial V . El subespacio de V, de todas lascombinaciones lineales de los vectores de C mencionado en el teorema anterior, es denominado el espaciogenerado por los vectores de C o simplemente, espacio generado por C. Cuando C = {v1, v2, . . . , vn} (esfinito), este espacio será denotado por 〈v1, v2, . . . , vn〉 o por gen{v1, v2, . . . , vn}.

Cuando consideramos un conjunto C de vectores de un espacio vectorial, es a veces importante determinarcuándo algún vector o algunos de los vectores de C se pueden expresar como combinaciones lineales de losrestantes vectores en C. Para ello, necesitamos de la definición de dependencia lineal de un conjunto devectores y algunos resultados sobre ella.

1.18. Definición (Independencia lineal). Sea C = {v1, v2, . . . , vn} un conjunto de vectores (distintos)de un espacio vectorial V . Se dice que C es linealmente dependiente o que los vectores v1, v2, . . . , vn sonlinealmente dependientes, si existen escalares α1, α2, . . . , αn no todos nulos tales que:

0 = α1v1 + α2v2 + · · ·+ αnvn =

nXi=1

αivi ,

en caso contrario, se dice que C es linealmente independiente o que los vectores v1, v2, . . . , vn son lineal-mente independientes. Es decir; C es linealmente independiente, si para todos los escalares α1, α2, . . . , αn;0 =

Pni=1 αivi , implica

α1 = α2 = . . . , = αn = 0 .

1.19. Teorema. En un espacio vectorial V se tiene:

1. Todo conjunto que contenga el vector nulo, 0, es linealmente dependiente.2. Todo conjunto que contenga un subconjunto linealmente dependiente es linealmente dependiente.3. Todo subconjunto de un conjunto linealmente independiente, es linealmente independiente.4. Un conjunto de vectores C = {v1, v2, . . . , vn}, n ≥ 2, es linealmente dependiente sii uno de los

vectores de C es combinación lineal de los restantes vectores de C.

1.2.1. Bases y dimensión. Dado un espacio vectorial V, es útil determinar un subconjunto B deV que sea linealmente independiente y que genere al espacio V ; un tal conjunto B se denomina base de V.

Se dice que un espacio vectorial V es de dimensión finita, si existe un conjunto finito C de vectores de V , talque el espacio generado por C en V . En caso contrario, se dice que dicho espacio tiene dimensión infinita.Ejemplos de éstos últimos son: el conjunto de funciones de R en R, o el conjunto de todos los polinomios.En lo que sigue, se consideran sólo espacios de dimensión finita.

1.20. Definición (Base). Sea B un conjunto de vectores de un espacio vectorial V. Se dice que B es unabase de V si se tienen las dos condiciones:

(i) El espacio generado por B es V .(ii) El conjunto B es linealmente independiente.

Si un espacio vectorial V tiene una base B1 = {v1, v2, . . . , vn} compuesta por un número ninito n devectores, entonces se puede demostrar, que cualquier otra base B2 de V tiene exactamente n elementos. Adicho número común se le llama dimensión del espacio V y se escribe dimV = n. El siguiente teorema resumealgunos resultados importantes sobre espacios vectoriales (bases, conjuntos lienalmente independientes,conjuntos generadores, etc.).

1.21. Teorema. Sea V un espacio vectorial de dimensión n.

1. Si B = {v1, v2, . . . , vn} es un conjunto de n vectores de V, entonces:a) B es una base de V sii B es linealmente independiente.b) B es una base de V sii B genera a V .

7

1.2. Espacios vectoriales Preliminares

2. Si C = {u1, u2, . . . , ur} es un conjunto linealmente independiente, entonces r ≤ n.3. Si C = {u1, u2, . . . , ur} es un conjunto linealmente independiente, con r < n, entonces existen

n − r vectores de V ; w1, w2, . . . , wn−r, tales que B = {u1, u2, . . . , ur, w1, . . . , wn−r} es unabase de V.

4. Si C = {u1, u2, . . . , ur} genera a V entonces r ≥ n.5. Si el conjunto C = {u1, u2, . . . , ur} genera a V y r > n, entonces existen n − r vectores de C;

denotados por w1, w2, . . . , wn−r, tales que B = C \{w1, w2, . . . , wn−r} es una base de V.6. Si W es un subespacio de V entonces dimW ≤ n. Si dimW = n, entonces W = V.

1.22. Teorema. Si U y W son subespacios de un espacio vectorial V entonces

dim(U +W ) = dimU + dimV − dim(U ∩W ) .

1.23. Nota. En el teorema anterior si U ∩W = {0}, al espacio U +W de V se le denomina suma directade U con W y se escribe U ⊕W en lugar de U +W . En este caso, cada vector v ∈ U ⊕W se puede expresarde manera única como suma de un vector u ∈ U y un vector w ∈W ; es decir existen vectores únicos u ∈ Uy w ∈W tales que v = u + w. Además se tiene que

U ∩W = {0} sii dim(U +W ) = dimU + dimV .

1.24. Teorema. Si U es un subespacio de un espacio vectorial V , entonces existe un subespacio W de Vtal que U ⊕W = V.

El subespacio W del teorema anterior no es necesariamente único y es llamado un complemento de U.También se dice que U y W son subespacios complementarios.

1.25. Definición. Sea W un subespacio de un espacio vectorial V, v0 un vector en V y L la variedad

L = {v ∈ V : v = v0 + w, w ∈W}.

Si dimW = k, entonces se dice que la variedad lineal L tiene dimensión k.

1.2.2. Coordenadas. El concepto de coordenadas de un vector respecto de una base es útil en elestudio de las transformaciones lineales. Para introducir este concepto es necesario definir primero lo que esuna base ordenada de un espacio vectorial V. En la definición 1.20 era irrelevante en qué orden aparecieralos elementos de una base. Sin embargo, a partir de ahora el orden será importante.

1.26. Definición (Base ordenada). Si v1, v2, . . . , vn es una sucesión finita de vectores linealmente inde-pendientes de un espacio vectorial V, que generan a V , entonces se dice que B = {v1, v2, . . . , vn} es unabase ordenada de V.

1.27. Teorema. Si B = {v1, v2, . . . , vn} es una base ordenada de V , entonces para cada vector v ∈ Vexisten escalares α1, α2, . . . , αn únicos tales que

v = α1v1 + α2v2 + · · ·+ αnvn =

nXi=1

αivi ,

1.28. Definición. Sea B = {v1, v2, . . . , vn} una base ordenada de un espacio vectorial V . Sea v un vectorde V y sean α1, α2, . . . , αn los escalares únicos tales que v =

Pni=1 αivi , el vector (vector columna) de

coordenadas de v respecto de la base ordenada B se denota por [v]B y se define así:

[v]B =

26664α1

α2

...αn

37775 .8

Preliminares 1.2. Espacios vectoriales

Si u y v son dos vectores de V y si α es un escalar, entonces [αu]B = α [u]B y [u + v]B = [u]B + [v]B .

De otro lado, a cada vector n× 1 (matriz n× 1) c = [ α1 α2 · · · αn]T le corresponde un único vector

v de V tal que [v]B = c, a saber v =Pni=1 αivi.

Así, cada base ordenada B de V determina una correspondencia biunívoca, v→ [v]B , entre los espacios V yMn×1, que preserva las suma de vectores y la multiplicación de un escalar por un vector. Más aún, preservala independencia lineal; ésto es, el conjunto C = {u1, u2, . . . , uk} es un conjunto de vectores linealmenteindependientes de V sii el conjunto C∗ = {[u1]B , [u2]B , . . . , [ uk]B} es un conjunto de vectores linealmenteindependientes de Mn×1.

En el caso en que V = Rn y B = {e1, e2, . . . , en} sea la base canónica, es decir e1 = (1, 0, 0, . . . , 0),e2 = (0, 1, 0, . . . , 0),. . . , en = (0, 0, 0, . . . , 1), la mencionada correspondencia está dada por

x = (x1, x2, . . . , xn) −→ [x]B =

26664x1

x2

...xn

37775 .En algunas situaciones resulta conveniente tener presente esta correspondencia, la cual se usa en este textoidentificando a x con [x]B .

1.2.3. Producto interno. Bases ortonormales. En este apartado se consideran los conceptos deproducto interno y de bases ortonormales, lo que será particularmente útiles en el capítulo 3 al tratar ladiagonalización de matrices simétricas.

1.29.Definición (Producto interno). Sea V un espacio vectorial. Sean además u, v y w vectores arbitrariosde V y α un escalar real. Un producto interno en V es una función 〈·; ·〉 : V × V → R que satisface laspropiedades:

(i) 〈u; v〉 = 〈v; u〉.(ii) 〈u; u〉 ≥ 0 y 〈u; u〉 = 0 si y sólo si u = 0.(iii) 〈αu; v〉 = α 〈u; v〉.(iv) 〈u + v; w〉 = 〈u; w〉+ 〈v; w〉.

Observación. Si B es una base ordenada de un espacio vectorial V , entonces la función 〈·; ·〉 : V ×V → Rdefinida por 〈u; v〉 = [u]TB [v]B es un producto interno. En particular, si V = Rn y B es la base canónicade Rn, se tiene que

〈x; y〉 = [x]TB [y]B = x1y1 + x2y2 + · · ·+ xnyn ,

donde x = (x1, x2, . . . , xn) y y = (y1, y2, . . . , yn).

En lo que sigue se considera a Rn con este producto interno (producto escalar) y a veces se escribe x · y oxTy para indicar a 〈x; y〉.

Si 〈·; ·〉 es un producto interno sobre un espacio vectorial V , la norma o longitud de un vector v de V sedenota por ‖v‖ y se define así: ‖v‖ =

p〈v; v〉. Cuando ‖v‖ = 1, se dice que v es un vector unitario.

Nota. En lo que resta de este texto, cuando se use la norma ‖v‖ de un vector v ∈ Rn se estará haciendoreferencia a la norma euclidiada, es decir, si v es el vector de componentes v = [ v1 v2 . . . vn ]T ,entonces

‖v‖ =qv21 + v2

2 + · · ·+ v2n.

9

1.2. Espacios vectoriales Preliminares

1.30. Teorema (Desigualdad de Schwarz). Sea V un espacio vectorial con producto interno 〈·; ·〉. Para cadapar de vectores u y v de V se satisface la desigualdad

|〈u; v〉| ≤ ‖u‖ ‖v‖ .

Sean u y v vectores de un espacio vectorial V con producto interno 〈·; ·〉, si u y v no son nulos, la medidadel ángulo entre ellos se define como

θ = arc cos|〈u; v〉|‖u‖ ‖v‖ .

1.31. Definición. Sea V un espacio vectorial con producto interno 〈·; ·〉:

1. Se dice que dos vectores u y v de V son ortogonales si 〈u; v〉 = 0.2. Se dice que un conjunto C = {v1, v2, . . . , vn} de vectores de V es ortogonal si 〈vi; vj〉 = 0 para

i 6= j, i, j = 1, 2, . . . , n.3. Se dice que un conjunto C = {v1, v2, . . . , vn} de vectores de V es ortonormal si C es ortogonal y

cada vector de C es unitario, o sea si:

〈vi; vj〉 = δij =

(1 si i = j

0 si i 6= j; i, j = 1, 2, . . . , n .

4. Se dice que dos conjuntos no vacíos, C1 y C2, de vectores son ortogonales, si para cada par devectores u ∈ C1 y v ∈ C2, 〈u; v〉 = 0.

1.32. Teorema. Sea V un espacio vectorial con producto interno 〈·; ·〉. Si C = {v1, v2, . . . , vn} es unconjunto ortogonal que no contiene al vector 0, entonces C es linealmente independiente.

1.33. Teorema (Proceso de ortogonalización de Gram-Schmidt). Sea W un subespacio no nulo de unespacio vectorial V de dimensión finita k con producto interno 〈·; ·〉 y sea B = {w1, w2, . . . , wk} una basede W. Entonces C = {v1, v2, . . . , vk} es una base ortogonal de W y C∗ = {v∗1 , v∗2 , . . . , v∗k} es una baseortonormal de W , donde:

v1 = w1

v2 = w2 −〈w2; v1〉〈v1; v1〉

v1

v3 = w3 −〈w3; v1〉〈v1; v1〉

v1 −〈w3; v2〉〈v2; v2〉

v2

...

vk = wk −k−1Xi=1

〈wk; vi〉〈vi; vi〉

vi ,

y donde v∗i =vi‖vi‖

para i = 1, 2, . . . , k.

1.34. Teorema. Sean v1, v2, . . . , vk vectores no nulos de un espacio vectorial V de dimensión n > k, conproducto interno 〈·; ·〉. Si C1 = {v1, v2, . . . , vk} es un conjunto ortogonal (respectivamente ortonormal),entonces existe un conjunto ortogonal (respectivamente ortonormal) C2 = {w1, w2, . . . , wn−k} de vectoresde V tal que B = C1 ∪C2 es una base ortogonal (ortonormal) de V. Más aún, si U = 〈v1, v2, . . . , vk〉 y siW = 〈w1, w2, . . . , wn−k〉 entonces V = U ⊕W y además, U y W son ortogonales.

10

Preliminares 1.3. Transformaciones lineales

1.3. Transformaciones lineales

En esta sección se consideran los aspectos más importantes sobre las transformaciones lineales. En lo quesigue; U, V y W denotarán espacios vectoriales.

1.35. Definición. Una función T : U → V es una transformación lineal, si para cualquier para de vectoresu1, u2 en U y todo escalar α, se tiene que:

(i) T (u1 + u2) = T (u1) + T (u2)(ii) T (αu1) = αT (u1).

1.36. Ejemplo. Algunos ejemplos de transformaciones lineales son:1. Para cada U, la función idéntica I : U → U, u→ I(u) = u.2. Para cada matriz A ∈ Mm×n, la función A : Rn → Rm, definida por x→ y = Ax. �

1.37. Teorema. Sean U y V espacios vectoriales, B = {u1, u2, . . . , un} una base de U y T : U → V esuna transformación lineal. Entonces T queda determinada por los vectores T (u1), T (u2), . . . , T (un).

Asociados a toda transformación lineal hay dos subespacios importantes a saber; su núcleo y su imagen.El primero de ellos corresponde a todos lo elementos del espacio U que son transformados en el elementonulo del espacio V ; el segundo, corresponde a todos los elementos del espacio V que tienen al menos unapreimagen en el espacio U. En forma más precisa tenemos

1.38. Definición. Sea T : U → V es una transformación lineal.1. El núcleo de T se denota por N (T ) y se define así:

N (T ) = {u ∈ U : T (u) = 0} .2. La imagen de T se denota por Img(T ) y se define así:

Img(T ) = {T (u) : u ∈ U} .

1.39. Definición. Sea T : U → V una transformación lineal.1. Se dice que T es inyectiva (biunívoca o uno a uno), si dos elementos distintos u1, u2 ∈ U , tienen

imagen distinta. Esto es, si y sólo si

u1 6= u2 implica T (u1) 6= T (u2); para todo u1, u2 ∈ U.2. Se dice que T es sobreyectiva (o simplemente sobre), si cada elemento del espacio V posee al menos

una preimagen en U. Esto es si y sólo si

Para todo v ∈ V existe un u ∈ U tal que T (u) = v.

El siguiente teorema resume algunos aspectos básicos de las transformaciones lineales.

1.40. Teorema. Sea B = {u1, u2, . . . , un} un subconjunto de vectores de U y sea T : U → V unatransformación lineal:

1. N (T ) es un subespacio vectorial de U.2. T es inyectiva sii N (T ) = {0} .3. Img(T ) es un subespacio vectorial de V.4. Si B es una base de U , entonces {T (u1), T (u2), . . . , T (un)} genera al espacio Img(T ).5. Si T es inyectiva y B es linealmente independiente, entonces el conjunto {T (u1), T (u2), . . . , T (un)}

es linealmente independiente en V .6. dimN (T ) + dim Img(T ) = dimU .

A la dimensión de N (T ) se le llama nulidad de T y a la dimensión de Img(T ) se llama rango de T.

11

1.3. Transformaciones lineales Preliminares

1.3.1. Matriz de una transformación lineal referida a un par de bases ordenadas. A cadatransformación lineal se le puede asignar una matriz A, la cual está determinada por las bases de los espaciosvectoriales involucrados en dicha transformación. Se verá en esta sección, que una tal asignación simplificarámuchos cálculos. Es decir, será más conveniente trabajar con la matriz asociada a una transformación lineal(referida a ciertas bases), que con la transformación lineal misma.

1.41. Definición. Sean U y V espacios vectoriales, T : U → V una transformación lineal y sean B1 ={u1, u2, . . . , un} y B2 = {v1, v2, . . . , vm} bases ordenadas de U y de V respectivamente. La matriz de Treferida a las bases B1 y B2 se denotará por [T ]B1B2

y corresponde a la matriz m× n dada por:

[T ]B1B2=ˆ

[T (u1)]B2 [T (u2)]B2 · · · [T (un)]B2

˜.

1.42. Teorema. Sean U y V espacios vectoriales, T : U → V una transformación lineal y sean B1 ={u1, u2, . . . , un} y B2 = {v1, v2, . . . , vm} bases ordenadas de U y de V respectivamente. Para cadau ∈ U se tiene que:

[T (u)]B2= [T ]B1B2

[u]B1.

Nota. Por el teorema anterior y por el teorema 1.37, la transformación lineal T queda completamentedeterminada por el conocimiento de las bases B1 y B2, y de la matriz [T ]B1B2

.

1.3.2. álgebra de transformaciones lineales. Inversa de una transformación lineal. En estasección se consideran las operaciones de suma, multiplicación por un escalar y composición entre transfor-maciones lineales. Así mismo se abordará la relación existente entre las matrices asociadas correspondientes.En este apartado U, V y W denotan espacios vectoriales.

1.43. Teorema. Sean T : U → V y S : U → V transformaciones lineales y α un escalar. Sean además B1

y B2 bases ordenadas de U y V, respectivamente:

1. La función suma de T y S; (T + S) : U → V, definida por (T + S)(u) = T (u) + S(u) es unatransformación lineal. Más aún

[T + S]B1B2= [T ]B1B2

+ [S]B1B2.

2. La función múltiplo escalar de T ; (αT ) : U → V, definida por (αT )(u) = αT (u) es una transfor-mación lineal. Más aún

[αT ]B1B2= α [T ]B1B2

.

12

Preliminares 1.4. Espacios fundamentales de matrices

Nota. Sean U , V dos espacios vectoriales, se denota con L(U, V ) al conjunto de todas las transformacioneslineales entonces:

1. El conjunto L(U, V ) junto con las operaciones mencionadas en el teorema anterior es un espaciovectorial. además, si dimU = n y dimV = m entonces dimL(U, V ) = m× n.

2. De la misma forma como una base B1 de U determina la correspondencia biunívoca entre los es-pacios vectoriales V y Mm×1, dada por, v → [v]B2

; las bases B1 y B2 de U y V , determinan lacorrespondencia biunívoca entre los espacios L(U, V ) y Mm×n, la cual está dada por T → [T ]B1B2

.Esta correspondencia preserva la suma de vectores y la multiplicación de un escalar por un vec-tor, tal como se establece en el teorema anterior. En otras palabras, esta correspondencia es unatransformación lineal.

1.44. Teorema. Sean T : U → V y S : V → W transformaciones lineales. Entonces, la composiciónS ◦T : U →W es una transformación lineal. Si además, B1, B2 y B3 representan bases ordenadas para losespacios U, V y W respectivamente, entonces se tiene que:

[S ◦ T ]B1B3= [S]B2B3

[T ]B1B2.

1.45. Teorema. Si T : U → V es una transformación lineal biyectiva, entonces la función inversa de T ,T−1 : V → U es una transformación lineal y la matriz [T ]B1B2

es invertible. Además,ˆT−1˜

B2B1=ˆT˜−1

B1B2.

1.3.3. Matrices semejantes. Cambio de baseo por gen{v1, v2, . . . , vn}. Los conceptos de ma-trices semejantes y cambio de base serán particularmente útiles en el capítulo 4 para el estudio de los valorespropios y los vectores propios de una transformación lineal.

1.46. Definición. [Matrices semejantes]Sean A y B matrices cuadradas de orden n, se dice que A y B sonsemejantes, si existe una matriz invertible P tal que B = P−1AP.

1.47. Definición. [Matriz cambio de base]Sean B1 y B2 bases ordenadas del espacio vectorial U, y seaI : U → U la transformación lineal idéntica. La matriz P = [I]B1B2

se denomina matriz de cambio de basede la base B1 a la base B2, (ésto debido a lo enunciado por el teorema 1.42, [u]B2

= [I]B1B2[u]B1

).

1.48. Teorema. Sean T : U → U una transformación lineal y B1 y B2 bases ordenadas de U .

1. La matriz de cambio de base de la base B1 a la base B2, P = [I]B1B2, es invertible y su inversa es

la matriz de cambio de base de la base B2 a la base B1.2. Las matrices A = [T ]B2B2

y B = [T ]B1B1son matrices semejantes, además se tiene

[T ]B1B1= [I]−1

B1B2[T ]B2B2

[I]B1B2= P−1 [T ]B2B2

P .

1.4. Espacios fundamentales de una matriz. Rango de una matriz. Sistemas de ecuacioneslineales

En esta sección se consideran los llamados espacios fundamentales de una matriz A. Dos de estos espaciosson precisamente el núcleo y la imagen de la transformación lineal x→ y = Ax, los cuales están relacionadoscon el conjunto solución de un sistema de ecuaciones lineales Ax = y. El lector recordará de los resultadosde un primer curso de álgebra lineal, que el espacio fila y es espacio columna de A tienen igual dimensión.A ese número común se le denomina rango de A y se denota por ρ(A).

Sea A una matriz m×n. El subespacio de Rn generado por las filas de A se denomina espacio fila de A y lodenotamos por F(A); esto es, F(A) = 〈A1, A2, . . . , Am〉. El subespacio de Rm generado por las columnasde A se denomina espacio columna de A y lo denotamos por C(A); esto es, C(A) = 〈A1, A2, . . . , An〉. El

13

1.4. Espacios fundamentales de matrices Preliminares

espacio formado todas soluciones de un sistema homogéneo de ecuaciones lineales Ax = 0 se denominaespacio nulo de una matriz, esto es, el espacio nulo es el conjunto

N (A) = {x ∈ Rn : Ax = 0 }.

De otro lado, el subespacio de Rn;

Img(A) = {Ax : x ∈ Rn}= {y ∈ Rm : y = Ax para algún x ∈ Rn} .

se denomina imagen de A.

1.49. Teorema. Para cualquier matriz A se tiene que

dimF(A) = dim C(A) .

1.50. Teorema. Sea A una matriz arbitraria entonces:

1. F(A) y N (A) son ortogonales. ésto es, sus elementos son ortogonales entre si.2. C(A) y N (At) son ortogonales. ésto es, sus elementos son ortogonales entre si.

1.51. Teorema. Sean A y B matrices de tamaño adecuado, tales que las operaciones siguientes estándefinidas.

1. C(AB) ⊆ C(A) y F(AB)⊆ F(B).2. Si P y Q son matrices invertibles de tamaño apropiado

a) C(A) = C(AQ).b) F(A) = F(PA).

3. C(A+B) ⊆ C(A) + C(B) y F(A+B) ⊆ F(A) + F(B).4. Para cualquier matriz A se tiene que: N (A) = N (ATA).

Nota. Según el inciso 2(b) del teorema anterior y según el teorema 1.8, si R es la forma escalonada reducidade la matriz A, entonces F(A) = F(R).

1.52.Teorema. Sea A una matrizm×n. La imagen de la transformación lineal A : Rn → Rm, x→ y = Ax,es el espacio columna de A; esto es,

Img(A) = C(A) = {Ax : x ∈ Rn} .

Nota. De acuerdo con el inciso (3) del teorema 1.40 y de acuerdo con los teoremas 1.49 y 1.52: si A esuna matriz m× n, entonces

dimN (A) + dimF(A) = n.

Análogamente, puesto que F(At) = C(A),

dimN (AT ) + dim C(A) = m.

De otra parte, con base en la nota 1.23,

Rn = F(A)⊕N (A) y Rm = C(A)⊕N (AT ),

es decir, los subespacios F(A) y N (A) de Rn son complementarios. Así mismo, los subespacios C(A) yN (At) de Rm son complementarios.

Esto implica entonces, que cada x ∈ Rn y cada y ∈ Rm se pueden expresar en forma única así: x = f + ny y = c + u, donde f , n, c y u pertenecen a F(A), N (A), C(A) y N (AT ), respectivamente (ver figura 1.1).

Nota. Según las definiciones, el núcleo de la transformación lineal x→ y = Ax es el espacio nulo de A.

14

Preliminares 1.4. Espacios fundamentales de matrices

IRm

f

x=f+n

Ax=Af

cu

y=c+u

n

F C

N N

(A) (A)

(A) T

Rn

I

(A )

Figura 1.1. Transformación lineal

De otro lado, si definimos el rango de la matriz A, ρ(A), como el rango de la transformación lineal x →y = Ax, entonces se tiene que rango de A es la dimensión del espacio columna de A.

1.53. Teorema. Sea A una matriz m× n, entonces:

1. ρ(A) es igual al número máximo de filas linealmente independientes de la matriz A.2. ρ(A) es el número máximo de columnas linealmente independientes de la matriz A.3. ρ(A) es el número de filas no nulas de la forma escalonada reducida de la matriz A.4. Para cualquier matriz A, ρ(A) = ρ(AT ) = ρ(AAT ) = ρ(ATA).5. Si A es una matriz m× n y B es una matriz n× k, entonces ρ(AB) ≤ ρ(A) y ρ(AB) ≤ ρ(B).6. Si P es una matriz invertible m×m y Q es una matriz invertible n×n, entonces ρ(A) = ρ(PA) =

ρ(AQ) = ρ(PAQ).7. Si A y B son matrices m× n, entonces ρ(A+B) ≤ ρ(A) + ρ(B).

1.54. Teorema. Sea A una matriz m× n y sea y un vector m× 1.

1. El sistema de ecuaciones Ax = y tiene solución sii y ∈ C(A).2. El sistema de ecuaciones Ax = y tiene solución sii el rango de la matriz A es igual al rango de la

matriz aumentada del sistema [A | y], es decir sii ρ(A) = ρ([A|y]).3. Para el sistema de ecuaciones lineales Ax = y se da una y sólo una de las opciones siguientes:

a) El sistema no tiene solución, en cuyo caso y /∈ C(A).b) El sistema tiene infinitas soluciones, en cuyo caso su conjunto solución es una variedad lineal

de la formaS = {xp + xh : xh ∈ N (A)} ,

donde xp es una solución particular del sistema; ésto es, Axp = y, además, dimN (A) > 0.c) El sistema tiene una única solución. En este caso se tiene que N (A) = {0}.

El teorema siguiente recoge, teóricamente, el método de Gauss-Jordan para resolver sistemas de ecuacioneslineales.

1.55. Teorema. Sean A una matriz m × n y y un vector n × 1. Si P es una matriz invertible m ×m talque PA = R, donde R es la forma escalonada reducida de A, entonces Ax = y sii Rx = Py; esto es, lossistemas de ecuaciones lineales Ax = y y Rx = Py tienen el mismo conjunto solución. En particular, siy = 0; Ax = 0 sii Rx = 0.

1.56. Teorema (Resumen). Sea A una matriz cuadrada de orden n. Las afirmaciones siguientes son equiv-alentes:

1. det(A) 6= 0.2. A es invertible.3. La forma escalonada de A en In.

15

1.4. Espacios fundamentales de matrices Preliminares

4. Los vectores fila de A son linealmente independientes.5. El espacio fila de A es Rn, es decir, F(A) = Rn.6. Los vectores columna de A son linealmente independientes.7. El espacio columna de A es Rn, es decir, C(A) = Rn.8. El rango de la matriz A es n.9. N (A) = {0}.

10. El sistema de ecuaciones lineales Ax = 0 tiene la única solución x = 0.11. Para todo y ∈ Rn, El sistema de ecuaciones lineales Ax = y tiene solución.

Por último, consideramos un método para calcular una base de cada uno de los espacios fundamentales deuna matriz m× n arbitraria A. El método consiste en efectuar los pasos siguientes:

Paso 1 Forme la matriz [AT | In].

Paso 2 Efectúe operaciones elementales sobre las filas de la matriz anterior hasta obtener la formaescalonada reducida. Al final se obtiene la matriz puede describir por bloques así:24 Er×m Pr×n

0(n−r)×m P(n−r)×n

35donde r = ρ(A).

Los vectores fila de la matriz Er×m conforman una base para C(A) y los vectores fila de lamatriz P(n−r)×n conforman una base para N (A).

Al llevar a cabo el paso 2 con la matriz [A | Im] se obtienen sendas bases para C(AT ) = F(A) y N (AT ).

16

CAPÍTULO 2

Matrices Particionadas. Traza de una Matriz

Este capítulo consta de tres secciones. Las dos primeras versan sobre matrices particionadas. La tercerasección trata sobre la traza de una matriz. En este capítulo se consignarán los principales resultados sobrela traza de una matriz. Existen razones para querer particionar una matriz A, algunas de ellas son: (i)La partición puede simplificar la escritura de A. (ii) La partición puede exhibir detalles particulares einteresantes de A. (iii) La partición puede permitir simplificar cálculos que involucran la matriz A.

2.1. Submatrices. Operaciones con matrices particionadas

A veces es necesario considerar matrices que resultan de eliminar algunas filas y/o columnas de algunamatriz dada, como se hizo por ejemplo, al definir el menor correspondiente al elemento aij de una matrizA = [aij ]m×n (véase el apartado 1.1.3 del capítulo 1).

2.1. Definición. Sea A una matriz. Una submatriz de A es una matriz que se puede obtener al suprimiralgunas filas y/o columnas de la matriz A.

2.2. Ejemplo. Las matrices S1, S2 y S3 dadas a continuación, son submatrices de la matriz

A =

24 1 2 3 45 6 7 89 0 −1 −2

35 .S1 =

»1 2 49 0 −2

–(suprimiendo en A la fila 2 y la columna 3)

S2 =

»1 2 3 49 0 7 8

–(suprimiendo en A la fila 3)

S3 =

»2 36 7

–(suprimiendo en A la fila 3 y las columnas 1 y 4). �

Dada una matriz A = [aij ]m×n; mediante un sistema de rectas horizontales o verticales se puede "parti-cionarla" en submatrices de A (Matriz particionada), como se ilustra en el siguiente ejemplo:266664

a11 a12 a13 a14

a21 a22 a23 a24

a31 a32 a33 a34

a41 a42 a43 a44

a51 a52 a53 a54

37777517

2.1. Submatrices Matrices particionadas

Hecho esto, se puede escribir, usando una notación obvia:

A =

»A11 A12 A13

A21 A22 A23

–donde

A11 =

24 a11

a21

a31

35 , A12 =

24 a12 a13

a22 a23

a32 a33

35 , A13 =

24 a14

a24

a34

35 ,

A21 =

»a41

a51

–, A22 =

»a42 a43

a52 a53

–, A23 =

»a44

a55

–.

Debe ser claro para el lector, que una matriz puede ser particionada de diferentes maneras, por ejemplo:

A =

24 1 2 3 4 52 0 3 0 1−1 2 3 1 1

35 =

24 1 2 3 4 52 0 3 0 1

−1 2 3 1 1

35=

24 1 2 3 4 52 0 3 0 1

−1 2 3 1 1

35

Tal vez, la principal conveniencia de particionar matrices, es que se puede operar con matrices particionadascomo si las submatrices fuesen elementos ordinarios, tal como se establece en el teorema siguiente.

2.3. Teorema.

1. Si las matrices A y B están particionadas así:

A =

26664A11 A12 · · · A1n

A21 A22 · · · A2n

......

. . ....

Am1 Am2 · · · Amn

37775 , B =

26664B11 B12 · · · B1n

B21 B22 · · · B2n

......

. . ....

Bm1 Bm2 · · · Bmn

37775y si las sumas Aij +Bij están definidas para i = 1, 2, . . . ,m, j = 1, 2, . . . , n, entonces

A+B =

26664A11 +B11 A12 +B12 · · · A1n +B1n

A21 +B21 A22 +B22 · · · A2n +B2n

......

. . ....

Am1 +Bm1 Am2 +Bm2 · · · Amn +Bmn

37775 .2. Si las matrices A y B están particionadas así:

A =

26664A11 A12 · · · A1n

A21 A22 · · · A2n

......

. . ....

Am1 Am2 · · · Amn

37775 y B =

26664B11 B12 · · · B1s

B21 B22 · · · B2s

......

. . ....

Bn1 Bn2 · · · Bns

3777518

Matrices particionadas 2.1. Submatrices

y si el número de columnas de cada bloque Aik es igual al número de filas de cada bloque Bkj;i = 1, 2, . . . ,m, k = 1, 2, . . . , n, j = 1, 2, . . . , s, entonces

AB =

26664C11 C12 · · · C1s

C21 C22 · · · C2s

......

. . ....

Cm1 Cm2 · · · Cms

37775 ,

donde Cij =

nXk=1

AikBkj.

3. Si la matriz A está particionada como en (1) y si α es un escalar, entonces

αA =

26664αA11 αA12 · · · αA1n

αA21 αA22 · · · αA2n

......

. . ....

αAm1 αAm2 · · · αAmn

37775 .4. Si la matriz A está particionada como en (1) , entonces

AT =

266664AT11 AT21 · · · ATm1

AT12 AT22 · · · ATm2

......

. . ....

AT1n AT2n · · · ATmn

377775 .

Los incisos (1), (3) y (4) del teorema anterior son fáciles de verificar. La demostración del inciso (2)es laboriosa y no se haran. Sin embargo, el lector interesado puede consultar una indicación de dichademostración en [12] página 19.

A continuación se ilustrará el inciso (2) de dicho teorema.

Si

A =

24 1 0 0 0 32 0 0 3 −4

1 2 1 0 0

35 =

24 A11 A12 A13

A21 A22 A23

35y

B =

2666641 2

0 01 3

0 11 2

377775 =

266664B11

B21

B31

377775entonces

AB =

24 A11B11 +A12B21 +A13B31

A21B11 +A22B21 +A23B31

35 =

24 4 8−2 −7

2 5

3519

2.1. Submatrices Matrices particionadas

pues

A11B11 =

»12

– ˆ1 2

˜=

»1 22 4

–,

A12B21 =

»0 00 0

– »0 01 3

–=

»0 00 0

–,

A13B31 =

»0 33 −4

– »0 −11 2

–=

»3 6−4 −1

–,

A21B11 = [1]ˆ

1 2˜

1 2˜

A22B21 =ˆ

2 1˜ » 0 0

1 3

–=ˆ

1 3˜,

A23B31 =ˆ

0 0˜ » 0 −1

1 2

–=ˆ

0 0˜.

2.1 Ejercicios

1. Dadas A ∈ Mm×n y B ∈ Mn×k, muestre que:a) La fila i de AB es igual a la fila i de A por la matriz B; en símbolos (AB)i = AiB (Sug.:

Particione la matriz A por filas).b) La columna j de AB es igual a la matriz A por la columna j de B; en símbolos (AB)j = ABj

(Sugerencia: Particione la matriz B por columnas).c) Si A tiene una fila nula, entonces AB tiene una fila nula.d) Si B tiene una columna nula, entonces AB tiene una columna nula.

2. Si A,B ∈ Mn×n son matrices triangulares superiores (inferiores), muestre que:a) AB es una matriz triangular superior (inferior).b) 〈AB〉ii = 〈A〉ii〈B〉ii.

3. Considere las matrices triangulares superiores por bloques

M =

»X Y0 Z

–y N =

»U V0 W

–.

Muestre que si el producto MN está definido, entonces MN es una matriz triangular superior porbloques.

4. Sean A, B ∈ Mn×n (R), X,Y ∈ Mn×1 (R) y α, β ∈ R. Suponga que

(A+B)X = αX y (A−B)Y = βY.

Si M =

»A BB A

–, demuestre

a) M»XX

–= α

»XX

–b) M

»Y−Y

–= β

»Y−Y

–5. Si A, B ∈ Mn×n (R) y A es simétrica, muestre que la matriz M =

»A BBT A

–es simétrica.

6. Suponga que las matrices que abajo aparecen son de tamaño apropiado, donde I es la matrizidentica y que A11 es una matriz invertible. Encuentre matrices X y Y tales que el producto que

20

Matrices particionadas 2.2. Determinantes

sigue tiene la forma indicada. Encuentre además B22.24 I 0 0X I 0Y 0 I

3524 A11 A12

A21 A22

A32 A33

35 =

24 B11 B12

0 B22

0 B32

35

2.2. Determinantes e inversas de algunas matrices especiales

En algunas situaciones es conveniente utilizar matrices particionadas para describir determinantes e inversasde ciertas matrices en términos de las submatrices. En particular, los teoremas 2.6 y 2.11, son usados en ladeducción de las distribuciones condicionales de un vector aleatorio con distribución normal multivariante(véase el Teorema 3.6.1 de [4])

Es bien conocido, que el determinante de una matriz triangular (superior o inferior) es justamente elproducto de los elementos de la diagonal principal. La siguiente proposición enuncia un resultado análogopara matrices particionadas.

2.4. Proposición. Sean A y C matrices cuadradas,

1. Si M =

»A B0 C

–, entonces |M | = |A||C|.

2. Si M =

»A 0B C

–, entonces |M | = |A||C|.

Demostración. Para la demostración del literal (1) usamos inducción sobre el orden n de la matrizM.

Si n = 2 se tiene que |M | = ac = |A| |C| donde

M =

»A B0 C

–=

»a b0 c

–.

Suponga ahora que (1) es válida para n = k y se demostrará que es válida para n = k + 1.

SeaM una matriz cuadrada de orden n = k+1 particionada como en (1). Suponga además que B = [bij ]r×sy C = [cij ]s×s. Si se denota por Bj a la submatriz de B que se obtiene suprimiendo en B la columna j ypor Cj a la submatriz de C que se obtiene suprimiendo en C la columna j y la fila s, j = 1, 2, . . . , s.

Ahora, desarrollando el determinante de C por los cofactores de la fila s (véase el Teorema 1.3(1)), seobtiene:

|C | = cs1(−1)s+1|C1|+ cs2(−1)s+2|C2|+ . . .+ css(−1)s+s|Cs|.

Así mismo, desarrollando el determinante de M por los cofactores de la fila k + 1 se obtiene:

|M | = cs1(−1)2(k+1)−s+1

˛A B1

0 C1

˛+

+cs2(−1)2(k+1)−s+2

˛A B2

0 C2

˛+ . . .+ css(−1)2(k+1)−s+s

˛A Bs

0 Cs

˛21

2.2. Determinantes Matrices particionadas

Utilizando la hipótesis de inducción se obtiene:

|M | = (−1)2(k+1)−2s“cs1(−1)s+1 |A| |C1|+ cs2(−1)s+2 |A| |C2|

+ . . .+ css(−1)s+s |A| |Cs|”

= |A|“cs1(−1)s+1|C1|+ cs2(−1)s+2|C2|+ . . .+

+css(−1)s+s|Cs|”

= |A| |C| .

Lo que completa la demostración de (1).

La demostración de (2) se sigue del hecho de que |M | = |MT | (teorema 1.4(1)) y del inciso (1). Enefecto, se tiene:

det(M) = det(MT )

= det

»AT BT

0 CT

–= det(AT ) det(CT )

= det(A) det(C)

2.5. Ejemplo. Use partición de matrices y los resultados de la proposición anterior para calcular el deter-minante de cada una de las matrices siguientes:

M =

24 7 0 04 5 63 7 9

35 y N =

26641 2 4 51 3 6 70 0 2 30 0 3 5

3775 ,las cuales se pueden particionar respectivamente como sigue:

M =

24 7 0 0

4 5 63 7 9

35 =

24 A 0

B C

35y

N =

26641 2 4 51 3 6 7

0 0 2 30 0 3 5

3775 =

24 A B

0 C

35Entonces

|M | = |7|˛

5 67 9

˛= 21 y |N | =

˛1 21 3

˛ ˛2 33 5

˛= 1. �

22

Matrices particionadas 2.2. Determinantes

El siguiente teorema brinda una alternativa para calcular determinantes de matrices más generales parti-cionadas por bloques.

2.6. Teorema. Sean A y D matrices cuadradas y sea M =

»A BC D

–.

1. Si D es invertible, entonces |M | = |D|˛A−BD−1C

˛.

2. Si A es invertible, entonces |M | = |A|˛D − CA−1B

˛.

Demostración. Se hará sólo la demostración del literal (1), el segundo resultado se verifica de maneraanáloga y se deja como ejercicio al lector.

Sea S =

»I 0

−D−1C I

–. Entonces MS =

»A−BD−1C B

0 D

–. Ahora por el teorema 1.4(9) y por la

proposición anterior, se tiene:

|M | = |M | |I| |I| = |M | |S| = |MS| = |D|˛A−BD−1C

˛.

Los siguientes resultados son consecuencia inmediata de este teorema y sus verificaciones se dejan comoejercicio.

2.7. Corolario. Sean A, B, C y D matrices cuadradas de orden n y sea M la matriz dada por

M =

»A BC D

–.

1. Si D es invertible y si DB = BD, entonces |M | = |DA−BC|.2. Si A es invertible y si AC = CA, entonces |M | = |AD − CB|.3. Si D = 0 y A es invertible, entonces |M | = (−1)n |B| |C|.4. Si A = 0 y D es invertible, entonces |M | = (−1)n |B| |C|.

2.8. Ejemplo. Utilizando los resultados del corolario anterior se encuentran los determinantes para lasmatrices M y N dadas por:

M =

24 1 2 41 3 51 1 1

35 y N =

26641 2 2 11 3 2 34 5 0 03 3 0 0

3775 .Se particiona ahora las matrices M y N de froma adecuada.

Para M tomamos

24 1 2 41 3 5

1 1 1

35 =

24 A B

C D

35 , siendo D = [1]. Puesto que D es una matriz invertible

entonces,

|M | = |D| |A−BD−1C| = |1|˛−3 −2−4 −2

˛= −2 .

Similarmente para N =

26641 2 2 11 3 2 3

4 5 0 03 3 0 0

3775 =

24 A B

C 0

35 , siendo A =

»1 21 3

–. Dado que A es invertible

se tiene que|M | = (−1)2 |B| |C| = −12 .

23

2.2. Determinantes Matrices particionadas

2.9. Proposición. Sean A y C matrices cuadradas.

1. La matriz M =

»A B0 C

–es invertible sii las matrices A y C son invertibles. Además, si M es

invertible entonces

M−1 =

»A−1 −A−1BC−1

0 C−1

–.

2. La matriz M =

»A 0B C

–es invertible sii las matrices A y C son invertibles. Además, si M es

invertible entonces

M−1 =

»A−1 0

−C−1BA−1 C−1

–.

La prueba de este resultado se propone como ejercicio. El ejemplo siguiente, ilustra el inciso (1) de laproposición anterior.

2.10. Ejemplo. Verifique que la matriz

M =

26641 2 1 11 3 1 10 0 2 10 0 5 3

3775es invertible y calcule su matriz inversa.

Observando la estructura de la matrizM se puede ver que una buena partición es:M =

26641 2 1 11 3 1 1

0 0 2 10 0 5 3

3775 =

24 A B

0 C

35 . Puesto que las matrices A y C son invertibles, entonces M también lo es y además,

M−1 =

»A−1 −A−1BC−1

0 C−1

–=

26643 −2 2 −11 3 0 00 0 3 −10 0 −5 2

3775 .�El siguiente teorema presenta una fórmula para calcular inversas de matrices más generales

2.11. Teorema. Sea B una matriz invertible particionada así:

B =

»B11 B12

B21 B22

–, con B11 y B22 matrices invertibles.

Si B−1 está particionada así:

B−1 =

»A11 A12

A21 A22

–,

donde Aii (i = 1, 2), son matrices cuadradas de igual orden que la matriz Bii respectivamente entonces:

1. Las matrices A11 y A22 son invertibles y sus inversas son las matrices B11,2 = B11 − B12B−122 B21

y B22,1 = B22 −B21B−111 B12, respectivamente.

24

Matrices particionadas 2.2. Determinantes

2. La matriz B−1 se puede expresar en términos de B−111,2 y B−1

22,1 como sigue

B−1 =

24 B−111,2 −B−1

11 B12B−122,1

−B−122 B21B

−111,,2 B−1

22,1

35 , óB−1 =

24 B−111,2 −B−1

11,2B12B−122

−B−122,1B21B

−111 B−1

22,1

35 .3. La matriz B−1 también se puede expresar así:

B−1 =

24 0 0

0 B−122

35+

24 −Ik

B−122 B21

35 B−111,2

ˆ−Ik B12B

−122

˜,

donde k es el tamaño de B11.

Demostración. Partiendo de la definición de matrices inversas

BB−1 =

»B11 B12

B21 B22

– »A11 A12

A21 A22

–=

»I 00 I

–= I

se obtienen las igualdades

(2.1)

(a) B11A11 +B12A21 = I(b) B21A11 +B22A21 = 0(c) B11A12 +B12A22 = 0(d) B21A12 +B22A22 = I

Premultiplicando ambos miembros de (2.1(b)) por B−122 , se sigue:

B−122 B21A11 +A21 = 0, o sea, A21 = −B−1

22 B21A11.

Sustituyendo A21 en (2.1(a)) y factorizando A11, por la derecha, se obtiene`B11 −B12B

−122 B21

´A11 = I .

Es decir, las matrices B11,2 = B11 −B12B−122 B21 y A11 son inversas entre si.

Por otro lado, si se premultiplica ambos miembros de (2.1(c)) por B−111 , se sigue:

A12 +B−111 B12A22 = 0, o sea, A12 = −B−1

11 B12A22.

Sustituyendo A12 en (2.1(d)) y factorizando A22, por la derecha, se obtiene:`B22 −B21B

−111 B12

´A22 = I .

Es decir, las matrices B22,1 = B22 −B21B−111 B12 y A22 son inversas una de la otra.

Por lo anterior,A11 = B−1

11,2 A12 = −B−111 B12B

−122,1

A21 = −B−122 B21B

−111,2 A22 = B−1

22,1 .

La segunda expresión para B−1 del literal 2 se obtiene procediendo de forma análoga, pero partiendo de laigualdad

B−1B =

»A11 A12

A21 A22

– »B11 B12

B21 B22

–=

»I 00 I

–= I .

La demostración del literal 3 se deja como ejercicio. �

25

2.2. Determinantes Matrices particionadas

A continuación enunciamos y demostramos un teorema que involucra matrices particionadas y el rango deuna matriz.

2.12. Teorema. Sea A =

»A11 A12

A21 A22

–, donde A11 es una matriz invertible r × r. Si ρ(A) = ρ(A11),

entonces A22 = A21A−111 A12.

Demostración. Puesto que A11 es una matriz invertible, entonces ρ(A11) = r (ver teorema 1.56).

Ahora, las matrices P =

24 I 0

−A21A−111 I

35 y Q =

24 I −A−111 A12

0 I

35 son invertibles, puesto que |P | =

|Q| = 1 6= 0. En consecuencia, por el teorema 1.53, la matriz A y la matriz

PAQ =

»A11 00 A22 −A21A

−111 A12

–tienen rango r. Puesto que el número máximo de filas linealmente independientes de las matrices PAQ y A11

es r (véase el teorema 1.53(2)), entonces necesariamente A22 − A21A−111 A12 = 0, o sea A22 = A21A

−111 A12.

2.2 Ejercicios

1. Utilice matrices particionadas para calcular el determinante y la matriz inversa (si existe) de cadauna de las matrices siguientes:

M1 =

26645 3 0 03 2 0 03 −2 2 12 1 5 3

3775 M2 =

26643 1 1 −12 1 −1 10 0 1 10 0 4 5

37752. Demuestre el inciso (2) del teorema 2.6.3. Demuestre el corolario 2.7.4. Demuestre la proposición 2.9.5. Sean a, b, c y d escalares no nulos y sea n ∈ N. Calcule el determinante y la matriz inversa, cuando

exista, de la matriz

M =

»aIn bIncIn dIn

–.

6. Sean A una matriz cuadrada de orden n y B una matriz cuadrada de orden k. Demuestre que si

M =

»0 AB C

–o si M =

»C AB 0

–, entonces |M | = (−1)nk|A| |B|. (Sug.: Efectúe operaciones

elementales por columnas y use la proposición 2.4).7. Sean A y B matrices cuadradas.

a) Dar condiciones necesarias y suficientes para que la matriz

M =

»0 AB C

–sea invertible. Si M es invertible, exprese M−1 en términos de las matrices A, B y C.

b) Dar condiciones necesarias y suficientes para que la matriz

M =

»C AB 0

–sea invertible. Si M es invertible, exprese M−1 en términos de las matrices A, B y C.

26

Matrices particionadas 2.2. Determinantes

c) Si A ∈ Mn×n y M =

»A InIn 0

–, P =

»In 0In In

–, dar una expresión para M−1.

8. Utilice los resultados que obtuvo en el problema anterior para calcular la matriz inversa de cadauna de las matrices siguientes:

M1 =

26640 0 2 10 0 5 35 3 3 −23 2 2 1

3775 M2 =

26641 −1 1 1−1 1 4 5

3 1 0 02 1 0 0

3775 .9. Sean A11, A22 y A33 matrices cuadradas. Demuestre que si

M =

24 A11 A12 A13

0 A22 A23

0 0 A33

35 ó M =

24 A11 0 0A21 A22 0A31 A32 A33

35entonces |M | = |A11||A22||A33|.

10. Demuestre que siA11, A22 yA33 son matrices invertibles, entonces la matrizM = diag(A11, A22, A33)es invertible y

M−1 =

24 A−111 0 00 A−1

22 00 0 A−1

33

3511. Sean a ∈ R y An×n una matriz invertible, entonces

det

»a xy A

–= |A| (a− xA−1y).

(Sugerencia: Use el teorema 2.6)12. Verifique que

det

»I AB C

–= det(C −BA).

(Sugerencia: Use el corolario 2.7)13. Muestre que

det

»In BA Im

–= det

»Im AB In

–y concluya que |Im −AB| = |In −BA|.

14. Sean A, B ∈ Mn×n; M =

»A BA B

–; P =

»In 0In In

–; Q =

»In 0−In In

–.

a) Calcule PMQ y muestre que detM = det(A−B) det(A+B).b) Use (a) para calcular detM, donde

M =

26641− x 2 1 1

1 6− x 1 1

1 1 1− x 21 1 1 6− x

3775 ; x ∈ R.

c) En (b), ¿para qué valores de x se cumple que detM = 0?

15. Sean A ∈ Mn×n; D ∈ Mm×m yM =

»A BC D

–matrices invertibles, con B ∈ Mn×m y C ∈ Mm×n.

a) Muestre que (A−BD−1C) y (D−CA−1B) son matrices invertibles (Sugerencia: Use el teorema2.6).

b) Muestre que:

(A−BD−1C)−1 = A−1 +A−1B(D − CA−1B)−1CA−1.

(Sugerencia: Multiplique A−BD−1C por la matriz que aparece a la derecha).

27

2.3. Traza de una matriz Matrices particionadas

c) Muestre que cuando m = n, B = In y C = −In en (b) se obtiene:

(A−D−1)−1 = A−1 +A−1(D −A−1)−1A−1.

d) Muestre que cuando D = Im en (b) se obtiene:

(A−BC)−1 = A−1 +A−1B(I − CA−1B)−1CA−1.

2.3. Traza de una matriz

En ciertos contextos, la suma de los elementos de la diagonal de una matriz juega un papel importante.Por ejemplo, la traza de una matriz aparece en la evaluación de las integrales requeridas en el estudio de ladistribución normal multivariante (véase el teorema 1.10.1 de [3]) y el valor esperado de formas cuadráticas(véase el teorema 4.6.1 de [4]).

2.13. Definición. Sea A una matriz cuadrada. La traza de A se denota por Tr(A) y se define como la sumade los elementos de la diagonal principal de A. ésto es,

Tr(A) =

nXs=1

〈A〉ss .

2.14. Nota. Puesto que los elementos de la diagonal principal de A son los mismos que los elementos de ladiagonal principal de AT , entonces

Tr(A) = Tr(AT ) .

2.15. Teorema. Sean A y B son matrices cuadradas del mismo orden. Si α y β son escalares, entonces

Tr(αA+ βB) = αTr(A) + β Tr(B) .

Demostración. Usando la estructura de espacio vectorial de las matrices, así como la definición detraza se tiene:

Tr(αA+ βB) =

nXs=1

〈αA+ βB〉ss

=

nXs=1

`α 〈A〉ss + β 〈B〉ss

´= α

nXs=1

〈A〉ss + β

nXs=1

〈B〉ss

= αTr(A) + β Tr(B) .

2.16. Teorema. Si A es una matriz m× n y B es una matriz n×m , entonces

Tr(AB) = Tr(BA) .

28

Matrices particionadas 2.3. Traza de una matriz

Demostración. Usando la definición de traza y la definición de producto de matrices obtenemos,

Tr(AB) =

nXs=1

〈AB〉ss

=

nXs=1

mXk=1

〈A〉sk 〈B〉ks

=

mXk=1

nXs=1

〈B〉ks 〈A〉sk

=

mXk=1

〈BA〉kk = Tr(BA) .

2.17. Corolario. Sea A una matriz cuadrada de orden n. Si P es una matriz invertible n× n, entonces

Tr(A) = Tr(P−1AP ) = Tr(PAP−1).

Demostración. Por el teorema anterior,

Tr(A) = Tr(AI) = Tr(APP−1) = Tr(P−1AP )

= Tr(PP−1A) = Tr(P−1PA) = Tr(PAP−1).

2.18. Corolario. Si A es una matriz m× n, entonces

Tr(AAT ) = Tr(ATA) =

mXs=1

nXk=1

〈A〉2sk .

Además, Tr(AAT ) = 0 sii A = 0.

Demostración. Por definición de traza y por el teorema 2.16,

Tr(AAT ) =

mXs=1

˙AAT

¸ss

=

mXs=1

nXk=1

˙A¸sk

˙AT¸ks

=

mXs=1

nXk=1

˙A¸2sk

;

Esto es, Tr(AAT ) es la suma de los cuadrados de los elementos de A. De esto se sigue entonces que,Tr(AAT ) = Tr(ATA) y además que Tr(AAT ) = 0 si y sólo si A = 0. �

2.3 Ejercicios

1. Demuestre que si A es una matriz invertible 2× 2, entonces Tr(A) = det(A) · Tr(A−1).

2. Si Sean A, B, C ∈ M2×2 son tales que Tr(A) = 2; B es invertible y C =

»3 21 −5

–, ; P =»

In 0In In

–; calcule Tr(2BATB−1 +B−1CB − 3CCT ).

29

2.3. Traza de una matriz Matrices particionadas

3. Sea V = Mn×n el espacio vectorial de las matrices n×n. Demuestre que la función 〈 ; 〉 : V ×V → Rdefinida por 〈A;B〉 = Tr(ABT ) es un producto interno en V . (Vea el apartado 1.2.3 del capítulo1).

4. Sean A y B matrices cuadradas de orden n. Demuestre que

Tr(ABT ) ≤ (Tr(AAT ) Tr(BBT ))1/2.

(Sugerencia: use el teorema 1.30)5. Si A, B ∈ Mn×n, muestre que AB −BA 6= I. (Sugerencia: Utilice la función traza)6. Si T : Mn×n → R es una transformación lineal, entonces existe una matriz A tal que T (M) =

Tr(AM). (Escriba T (M) en términos de T (Eij), siendo Eij los elementos de la base estándar delas matrices)

7. Calcule dimW , donde W = {A : Tr(A) = 0}.8. Sean A y B matrices cuadradas del mismo orden

a) Muestre que Tr((AB)k) = Tr((BA)k).b) Muestre con un ejemplo que Tr((AB)k) 6= Tr(AkBk).

30

CAPÍTULO 3

Valores propios y vectores propios. Diagonalización

Este capítulo consta de cuatro secciones. Con el fin de dar una idea de lo que se hará en las dos primerassecciones, se considerará un espacio vectorial U y una transformación lineal T : U → U. Ahora; si existeuna base ordenada B = {u1,u2, . . . ,un} de U tal que [T ]BB es una matriz diagonal, es decir,

[T ]BB = D =

26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

37775 ,entonces

T (ui) = λiui; i = 1, 2, . . . , n ,

esto es, T (ui) es un múltiplo escalar de ui. Este hecho da información inmediata acerca de la transformaciónlineal T . Por ejemplo, la imagen de T es el espacio generado por los vectores ui para los cuales λi 6= 0,y el núcleo de T es el espacio generado por los restantes vectores ui. En la sección 3.2 se responderán laspreguntas: ¿Para qué transformaciones lineales T existe una tal base B? y si existe, ¿Cómo encontrarla?.Las respuestas a estas preguntas están directamente ligadas a los conceptos de valor propio y vector propio,los cuales serán abordados en la sección 3.1. Se verá en esta sección, de que el cálculo de los valores propios ylos vectores propios de una transformación lineal T se reduce al cálculo de los valores propios y los vectorespropios de una cierta matriz A. Por otro lado, en las secciones 3.3 y 3.4 se consideraran los conceptos de valorpropio, vector propio y diagonalización de matrices simétricas, los cuales son particularmente importantesen la teoría y en aplicaciones del álgebra lineal.

3.1. Valores propios y vectores propios

Un problema que se presenta con frecuencia en el álgebra lineal y sus aplicaciones es el siguiente: Dado unespacio vectorial U y dada una transformación lineal T : U → U , encontrar valores de un escalar λ paralos cuales existan vectores u 6= 0 tales que T (u) = λu. Tal problema se denomina un problema de valorespropios (la figura 3.1 ilustra las posibles situaciones). En esta sección se verá cómo resolver dicho problema.

3.1. Definición. Sean U un espacio vectorial y T : U → U una transformación lineal. Se dice que el escalarλ es un valor propio de T , si existe un vector u 6= 0 de U tal que T (u) = λu. A dicho vector no nulo u sele llama un vector propio de T correspondiente al valor propio λ, o se dice que es λ-vector de T .

Nota. Los valores propios se denominan también eigenvalores o valores característicos y los vectores propiosse denominan también eigenvectores.

31

3.1. Valores propios y vectores propios Diagonalización de matrices

u

0<λ<1

T(u)= 0

λ<0 λ=0λ>1

uT(u)= u

T(u)= u

T(u)= u

λ

λ

λ

u u

Figura 3.1. Interpretación geométrica de vector propio

3.2. Ejemplo. Calcule los valores propios de la transformación lineal T : R2 → R2, dada por T (x, y) =(2x, x+ 3y).

De acuerdo con la definición anterior; el escalar λ es un vector propio T sii existe un vector u = (x, y) 6= 0de R2 tal que T [(x, y)] = (2x, x + 3y) = λ(x, y), lo que equivale a que exista un vector u = (x, y) 6= 0 deR2 que satisfaga el sistema

2x = λx

x+ 3y = λy .

Ahora, si x 6= 0, entonces se tiene que λ = 2 y por lo tanto y = −x. Esto quiere decir que todos los vectoresde la forma

u = (x, y) = (x,−x); x ∈ R, x 6= 0

son 2-vectores propios de T. En efecto:

T [(x,−x)] = (2x, −2x) = 2(x,−x) .

De otro lado, si x = 0 y y 6= 0 entonces λ = 3. Esto quiere decir que todos los vectores de la forma

u = (x, y) = (0, y); y ∈ R, y 6= 0

son 3-vectores propios de T. En efecto:

T [(0, y)] = (0, 3y) = 3(0, y) . �

La figura 3.2 ilustra el ejemplo anterior.

En el ejemplo anterior observamos que a cada vector propio de T le corresponde un número infinito devectores propios (todo un subespacio de U ⊂ R2, sin el vector nulo). Esto es válido en general, tal como seestablece en la proposición siguiente.

3.3. Proposición. Sean U un espacio vectorial, T : U → U una transformación lineal y λ un valor propiode T . El conjunto S(λ) de todos los λ-vectores propios de T junto con el vector 0, es un subespacio de U.

Demostración. De acuerdo con la definición de transformación lineal, así como de vector y valorpropio se tiene:

1. Si u1 ∈ S(λ) y u2 ∈ S(λ) entonces

T (u1 + u2) = T (u1) + T (u2) = λ(u1 + u2) .

Esto es, u1 + u2 ∈ S(λ).

32

Diagonalización de matrices 3.1. Valores propios y vectores propios

y

T(u ) =3 (0, y)

u = (x, −x)

T(u) =2 (x, −x)

x

,

,

u = (0, y)

Figura 3.2. Vectores propios de T (x, y) = (2x, x+ 3y)

2. Si u ∈ S(λ) y α ∈ R entonces

T (αu) = αT (u) = λ(α · u) .

Esto es, αu ∈ S(λ).

De acuerdo con el teorema 1.15, S(λ) es un subespacio vectorial de U. �

3.4. Definición. Sean U un espacio vectorial, T : U → U una transformación lineal y λ un valor propio deT .

1. El subespacio de U, S(λ), mencionado en el teorema anterior, se denomina espacio propio asociadoal valor propio λ.

2. La dimensión de S(λ) se denomina multiplicidad geométrica del valor propio λ.

3.5. Nota. Sean U un espacio vectorial, T : U → U una transformación lineal, B una base ordenadapara U y A = [T ]BB , la matriz de la transformación T referida a la base B. Entonces para cada u ∈ Use tiene [T (u)]B = A [u]B (ver teorema 1.42). En particular, u es un λ-vector propio de T si y sólo siu 6= 0 y A [u]B = [T (u)]B = [λu]B = λ [u]B . Esto es, u es un λ-vector propio de T si y sólo si u 6= 0y A [u]B = λ [u]B . Por esta razón, y porque resulta en otros contextos, consideramos a continuación losconceptos particulares de valor propio y vector propio de una matriz cuadrada A.

3.6. Definición. Sea A una matriz cuadrada de orden n.

1. Se dice que el escalar λ es un valor propio de A, si existe un vector n× 1, x 6= 0 tal que Ax = λx.2. Si λ es un valor propio de A y si el vector n× 1, x 6= 0 es tal que Ax = λx. Entonces se dice que

x es un vector propio de A correspondiente al valor propio λ, o que x es un λ-vector de A.

En el caso especial de la transformación lineal; A : Rn → Rn; x → y = Ax, esta la definición anteriorconcuerda con la definición 3.1 (véase la sección 1.3). De otro lado, según la definición anterior y la nota3.5, se puede entonces enunciar el siguiente teorema.

3.7. Teorema. Sean U un espacio vectorial, T : U → U una transformación lineal, B una base ordenadapara U y A = [T ]BB .

1. λ es un valor propio de T sii λ es un valor propio de A.

33

3.1. Valores propios y vectores propios Diagonalización de matrices

2. u ∈ U es un λ-vector propio de T sii x = [u]BB es un λ-vector propio de A.

Dicho teorema garatiza entonces, que el cálculo de los valores y vectores propios de una transformaciónlineal se reduce al cálculo de los valores y vectores propios de una cierta matriz A. En lo que sigue, se verácómo calcular los valores y vectores propios de una matriz.

Sea A una matriz n×n. Por definición, el escalar λ es un valor propio de A sii existe un vector n×1, x 6= 0tal que Ax = λx, lo cual equivale a que el sistema homogéneo de ecuaciones lineales (A− λI)x = 0 tengauna solución no trivial x 6= 0. Ahora por el teorema 1.56 del capítulo 1, el sistema de ecuaciones lineales(A − λI)x = 0 tiene una solución x 6= 0 sii |A− λI| = 0. En consecuencia, el escalar λ es un valor propiode A sii

pA(λ) = |A− λI| =

˛˛˛a11 − λ a12 a13 · · · a1n

a21 a22 − λ a23 · · · a2n

a31 a32 a33 − λ · · · a3n

......

.... . .

...an1 an2 an3 · · · ann − λ

˛˛˛ = 0

La expresión pA(λ) = |A− λI| es un polinomio en λ de grado n (ejercicio 15), el cual se puede escribir enla forma:

pA(λ) = |A− λI| = a0 + a1λ+ a2λ2 + · · ·+ an−1λ

n−1 + (−1)nλn.

En el caso particular de matrices 3 × 3 se tiene además (ejercicio 16), de que el polinomio característicoestá dado por

pA(λ) = |A− λI| = −λ3 + Tr(A)λ2 − (m11 +m22 +m33)λ+ det(A),

siendo mii, (i = 1, 2, 3) los menores principales de la matriz A (definición ??).

3.8. Definición. Sea A una matriz cuadrada

1. El polinomio característico de A está dado por pA(λ) = |A− λI|.2. La ecuación característica de A está dada por pA(λ) = |A− λI| = 0.

El siguiente teorema resume buena parte de la discusión anterior.

3.9. Teorema. Sea A una matriz cuadrada de orden n

1. El escalar λ es un valor propio de A sii λ es una solución (real)1 de la ecuación característica deA.

2. A tiene a lo más n valores propios (reales)2.[?]

3.10. Definición. Sea A una matriz cuadrada y λ un valor propio de A. La multiplicidad algebraica de λes k, si λ es una raíz del polinomio característico de A de multiplicidad k.

El siguiente algoritmo, recoge entonces un esquema para calcular los valores propios y los vectores propiosde una matriz A.

Paso 1 Se determina el polinomio característico pA(λ) = |A− λI| .Paso 2 Se resuelve la ecuación característica pA(λ) = |A− λI| = 0. Las soluciones (reales) de ésta, son

los valores propios de A.

1Aunque uno puede estudiar espacios vectoriales donde los escalares son números complejos, en estas notas sólo consid-eramos los valores propios de A como escalares reales, salvo que se exprese lo contrario. No sobra mencionar, que en cursosavanzados de espacios vectoriales, la única restricción para los escalares es que sean elementos de un sistema matemáticollamado cuerpo o campo.

2El teorema fundamental del álgebra establece que toda ecuación polinómica de grado n, con coeficientes complejos,tiene exactamente n raí ces complejas, contadas con sus multiplicidades.

34

Diagonalización de matrices 3.1. Valores propios y vectores propios

Paso 3 Para cada valor propio λ∗ de la matriz A, se resuelve el sistema de ecuaciones (A− λ∗I)x = 0.Las soluciones no nulas de este sistema son los λ∗−vectores propios de A.

3.11. Ejemplo. Determine los valores propios y vectores propios de la matriz

A =

24 1 1 −1−1 3 −1−1 2 0

35 .Se determina inicialmente, el polinomio característico de A, pA(λ) = |A− λI| . Para ello se desarrolla eldeterminante |A− λI| por cofactores por la primera fila (véase el teorema 1.3)

pA(λ) = |A− λI| =

˛˛ 1− λ 1 −1−1 3− λ −1−1 2 −λ

˛˛

= (1− λ)

˛3− λ −1

2 −λ

˛− 1

˛−1 −1−1 −λ

˛− 1

˛−1 3− λ−1 2

˛= (1− λ)(λ2 − 3λ+ 2)− (1− λ)− (−λ+ 1)

= (1− λ)(λ2 − 3λ+ 2) = −(1− λ)2(λ− 2).

De aquí se tiene, que λ = 1 ó λ = 2 son las soluciones de la ecuación característica pA(λ) = |A− λI| = 0. λ =1 y λ = 2 so pues los valores propios de A, con multiplicidades algebraicas k = 2 y k = 1 respectivamente.

Ahora se calculan los vectores propios de A. Los 1−vectores propios de A son las soluciones no nulas delsistema de ecuaciones lineales (A− 1 · I)x = 0. Dicho sistema se resuelve usando el método de eliminaciónde Gauss-Jordan (véase el teorema 1.55 ).

A− 1 · I =

24 0 1 −1−1 2 −1−1 2 −1

35 ≈24 1 0 −1

0 1 −10 0 0

35 = R

Donde R es la forma escalonada reducida de la matriz A− 1 · I (Teorema 1.8).

Las soluciones del sistema (A− 1 · I)x = 0 son, por lo tanto, los vectores de la forma:

x =

24 x1

x2

x3

35 =

24 x3

x3

x3

35 = x3

24 111

35 , x3 ∈ R.

En consecuencia,

Uλ1 = U1 =

8<:24 1

11

359=;es una base para S(λ1) = S(1) y la multiplicidad geométrica del valor propio λ1 = 1 es 1.

De otro lado, los 2−vectores propios de A son las soluciones no nulas del sistema de ecuaciones lineales(A− 2 · I)x = 0. Procediendo como en el cálculo anterior, se tiene:

A− 2 · I =

24 −1 1 −1−1 1 −1−1 2 −2

35 ≈24 1 0 0

0 1 −10 0 0

35 = R

Donde R es la forma escalonada reducida de la matriz A− 2 · I. Las soluciones del sistema (A− 2 · I)x = 0

35

3.1. Valores propios y vectores propios Diagonalización de matrices

son los vectores de la forma:

x =

24 x1

x2

x3

35 =

24 0x3

x3

35 = x3

24 011

35 , x3 ∈ R.

En consecuencia,

Uλ2 = U2 =

8<:24 0

11

359=;es una base para S(λ2) = S(2) y la multiplicidad geométrica del valor propio λ2 = 2 es 1.

En el ejemplo anterior, la multiplicidad geométrica del valor propio λ1 = 1 es menor que su correspondientemultiplicidad algebraica y la multiplicidad geométrica del valor propio λ2 = 2 es igual que su correspondientemultiplicidad algebraica (ver el ejercicio 3.3 de la sección de ejercicios 3.3).

3.12. Ejemplo. Calcule los valores y vectores propios de la matriz

A =

»0 1−1 0

–.

Para ello se encuentra el polinomio característico de A, pA(λ) = |A− λI| .

pA(λ) = |A− λI| =˛−λ 1−1 −λ

˛= λ2 + 1 ,

y se resuelve la ecuación característica de A, pA(λ) = |A− λI| = 0

pA(λ) = λ2 + 1 = (λ+ i)(λ− i) sii λ = i ó λ = −i.

Puesto que las soluciones de la ecuación característica de A no son reales, entonces A no tiene valorespropios y por lo tanto no tiene vectores propios, en el sentido considerado en este texto.

3.13. Ejemplo. Sea T : P2 → P2 la transformación lineal definida por:

Tˆa+ bx+ cx2˜ = (a+ b− c) + (−a+ 3b− c)x+ (−a+ 2b)x2

Determine los valores y los vectores propios de la transformación.

Sea B =˘

1, x, x2¯la base canónica de P2, se tiene entonces que:

[T ]BB = A =

24 1 1 −1−1 3 −1−1 2 0

35 .De acuerdo con el teorema 3.7(1); los valores propios de la transformación lineal T son los valores propiosde la matriz A, los cuales son, según el ejemplo 3.11 λ1 = 1 y λ2 = 2.

De otro lado, del ejemplo 3.11 se sabe que Uλ1 = {x1} es una base de S(λ1) y que Uλ2 = {x2} esuna base de S(λ2), donde

x1 =

24 111

35 y x2 =

24 011

35 .

Como se estableció en el teorema 3.7(2), estos son respectivamente, los vectores de coordenadas respecto ala base B (véase apartado 1.2.2) de los vectores de P2;

u1 = 1 + x+ x2 y u2 = x+ x2 .

36

Diagonalización de matrices 3.1. Valores propios y vectores propios

En consecuencia; U ′λ1= {u1} =

˘1 + x+ x2

¯es una base del espacio de vectores propios de T correspon-

dientes al valor propio λ1 = 1 y U ′λ2= {u2} =

˘x+ x2

¯es una base del espacio de vectores propios de T

correspondientes al valor propio λ2 = 2.

Terminamos esta sección con dos resultados que involucran matrices semejantes. El primero de ellos relacionalos polimomios característicos de matrices semenjantes y el segundo relaciona los vectores propios de dichasmatrices.

3.14. Teorema. Si A y B son matrices semejantes, entonces los polinomios caracterí sticos de A y B soniguales, y por consiguiente, las matrices A y B tienen los mismos valores propios.

Demostración. Si A y B son matrices semejantes, entonces existe una matriz invertible P tal queB = P−1AP. De aquí:

pB(λ) = |B − λI|=

˛P−1AP − λP−1P

˛=

˛P−1(A− λI)P

˛= |P−1| |A− λI| |P |= |P−1| |P | |A− λI|= |A− λI|= pA(λ).

3.15. Nota. El converso del teorema anterior no es cierto; o sea, si A y B son matrices con el mismo poli-nomio característico, no necesariamente A y B son matrices semejantes. Para mostrar esto, basta considerarel siguiente ejemplo.

3.16. Ejemplo. Las matrices

A =

»1 00 1

–y B =

»1 03 1

–tienen el mismo polinomio característico; explí citamente se tiene que pA(λ) = pB(λ) = (λ − 1)2. Sinembargo, A y B no son matrices semejantes, pues para cualquier matriz invertible P de orden 2 se tieneque:

P−1AP = P−1IP = P−1P = I 6= B.

3.17. Proposición. Si A y B = P−1AP son matrices semejantes, entonces x es un λ−vector propio de Asii P−1x es un λ−vector propio de B.

Demostración. Por definición se tiene

Ax = λx ⇐⇒ AIx = λx

⇐⇒ APP−1x = λx

⇐⇒ P−1APP−1x = λP−1x

Tomando B = P−1AP se tiene entonces que: x 6= 0 es un λ-vector propio de A si y sólo si P−1x 6= 0 es unλ-vector propio de B = P−1AP. �

37

3.1. Valores propios y vectores propios Diagonalización de matrices

3.1 Ejercicios

En los ejercicios 1 al 1, responda verdadero o falso, justificando su respuesta:

1. El Polinomio p(λ) = 3+2λ−λ2+4λ3 puede ser el polinomio característico de una matriz A ∈ M3×3.2. Si p(λ) = −λ3 + 4λ2 − 5λ + 2 es el polinomio característico de una matriz A ∈ M3×3, entonces|A| = 2.

3. x =

24 110

35 es un vector propio de M =

24 −3 1 −1−7 5 −1−6 6 −2

354. λ = 1 es un valor propio de la matriz M anterior.5. Sea A una matriz cuadrada de orden n. Si C es una matriz cuadrada de orden n invertible, entonces

las matrices A, C−1AC y CAC−1, tienen el mismo polinomio característico.6. Si la matriz A satisface la igualdad: A2 = 3A− 2I, entonces los posibles valores propios de A son

λ1 = 1, λ2 = 2.

En los ejercicios 7 al 15 demuestre la afirmación correspondiente.

7. Si λ es un valor propio de A, entonces λn es un valor propio de An, n = 1, 2, 3, . . ..8. Si x es un vector propio de A, entonces x es un vector propio de An, n = 1, 2, 3, . . ..9. λ = 0 es un valor propio de una matriz A sii |A| = 0.

10. Si A es una matriz invertible y λ es un valor propio de A, entonces λ−1 es un valor propio de A−1.11. SiA y C son matrices cuadradas de orden n y si C es invertible entonces las matricesA, AT , C−1AC,

CAC−1, C−1ATC y CATC−1 tienen el mismo polinomio característico.12. Si T es una matriz triangular superior, entonces los valores propios de T son los elementos de la

diagonal principal de T.13. Si A y B son matrices cuadradas del mismo orden, entonces AB y BA tienen los mismos valores

propios (sugerencia: Analice los casos λ = 0 es un valor propio de AB y λ 6= 0 es un valor propiode AB).

14. Sean λ1, λ2, . . . , λn los diferentes valores propios de una matriz A y sean β1, β2, . . . , βm son losdiferentes valores propios de una matriz B, entonces los diferentes valores propios de una matrizde la forma

M =

»A C0 B

–son λ1, λ2, . . . , λn, β1, β2, . . . , βm.

15. Si A es una matriz cuadrada de orden n, entonces pA(λ) = |A− λI| es un polinomio de grado nen la variable λ que tiene la forma:

pA(λ) = a0 + a1λ+ a2λ2 + · · ·+ (−1)nλn.

(Sugerencia: usar inducción sobre n).16. SiA es una matriz cuadrada de orden 3, entonces el polinomio característico deA, pA(λ) = |A− λI|,

tiene la forma

pA(λ) = |A− λI|= −λ3 + Tr(A)λ2 − (m11 +m22 +m33)λ+ det(A),

siendo mii (i = 1, 2, 3) los menores principales de la matriz A. (Sugerencia: plantee una matrizgeneral A = (aij)3×3 y use las definiciones correspondientes).

17. Para cada una de las siguientes matrices: encuentre el polinomio característico, los varolres propiosy los correspondientes espacios propios asociados.

38

Diagonalización de matrices 3.2. Diagonalización

(i) M =

»1 22 1

–(ii) M =

»1 02 2

(iii) M =

»1 10 1

–(iv) M =

»0 2−2 0

(v) M =

24 1 −3 33 −5 36 −6 4

35 (vi) M =

24 −3 1 −1−7 5 −1−6 6 −2

35

(vii) M =

24 3 1 −11 3 −13 1 −1

35 (viii) M =

24 2 1 00 1 −10 2 4

35

(ix) M =

26642 4 0 05 3 0 00 0 1 20 0 2 −2

3775 (x) M =

26640 2 0 02 1 0 00 0 1 10 0 −2 4

3775

3.2. Diagonalización

En esta sección se responderan las preguntas siguientes: Dado un espacio vectorial U y dada una transfor-mación lineal T : U → U ¿Existe una base B de U tal que [T ]BB es una matriz diagonal? y si existe ¿cómoencontrar una tal base?

Como se estableció en el teorema 1.48(2), si T : U → U es una transformación lineal, B1 y B2 son basesordenadas de U, A = [T ]B1B1

y P = [I]B2B1, entonces D = [T ]B2B2

= P−1AP, esto es, las matrices A y Dson semejantes.

Esta consideración permite formular las preguntas anteriores en términos de matrices, así: Dada una matrizcuadrada A, ¿Existe una matriz diagonal D semejante a la matriz?, en otros términos, ¿existirá una matrizinvertible P tal que P−1AP = D sea una matriz diagonal? y si existe ¿cómo encontrar una tal matriz P ?

3.18. Definición. Sea A una matriz cuadrada. Se dice que A es diagonalizable si A es semejante a unamatriz diagonal.

3.19. Teorema. Sea A una matriz cuadrada de orden n. Si existen n vectores propios de A linealmenteindependientes, entonces A es diagonalizable; esto es, existe una matriz invertible P tal que P−1AP = Des una matriz diagonal. Además, los vectores columna de P son los vectores propios de A y los elementosde la diagonal de D son los correspondientes valores propios de A.

Demostración. Sean λ1, λ2, . . . ,λn, los n valores propios de A, los cuales no son necesariamentediferentes y sean x1, x2, . . . ,xn, vectores propios de A linealmente independientes, correspondientes respec-tivamente a cada uno de dichos valores propios.

Sea ahora P la matriz cuya j−ésima columna es el vector propio xj , j = 1, 2, . . . , n, la cual particionamoscomo sigue:

P =ˆ

x1 x2 · · · xn˜.

Puesto que las columnas de P son linealmente independientes, entonces P es invertible (teorema 1.56).

39

3.2. Diagonalización Diagonalización de matrices

Ahora,

AP = Aˆ

x1 x2 · · · xn˜

=ˆAx1 Ax2 · · · Axn

˜=ˆλ1x1 λ2x2 · · · λnxn

˜

x1 x2 · · · xn˜26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λ3

37775= PD

Donde D es la matriz diagonal indicada arriba. Por lo tanto, P−1AP = D, y el teorema queda demostrado.�

El recí proco de este resultado también es válido y está dado por el siguiente teorema. La demostración sedeja como ejercicio.

3.20. Teorema. Sea A una matriz cuadrada de orden n. Si A es diagonalizable, es decir, si existe unamatriz invertible P tal que P−1AP = D es una matriz diagonal, entonces existen n vectores propios de Alinealmente independientes. Además, los vectores columna de P son vectores propios de A y los elementosde la diagonal de D son los correspondientes valores propios de A.

3.21. Ejemplo. Verifique que la matriz A =

24 4 −1 2−6 5 −6−6 3 −4

35 es diagonalizable y encuentre una matriz

invertible P tal que P−1AP = D sea una matriz diagonal. Para tal fin, veamos que A tiene 3 vectorespropios linealmente independientes. En efecto:

El polinomio característico de A, está dado por

pA(λ) = |A− λI| =

˛˛ 4− λ −1 2−6 5− λ −6−6 3 −4− λ

˛˛ = −(λ− 2)2(λ− 1).

La ecuación característica de A, pA(λ) = |A− λI| = 0 tiene entonces como solución a λ = 2 (de multiplici-dad 2) y a λ = 1 (de multiplicidad 1). Estos escalares son pues, los valores propios de A.

El paso siguiente es determinar los vectores propios asociados:

Los 2-vectores propios de A son las soluciones no nulas del sistema de ecuaciones (A − 2I)x = 0, y los1-vectores propios de A son las soluciones no nulas del sistema de ecuaciones (A − 1I)x = 0. Es decir, sedebe resolver sistemas homogéneos de ecuaciones cuyas matrices de coeficientes son respectivamente:

A− 2I =

24 2 −1 2−6 3 −6−6 3 −6

35 y A− 1I =

24 3 −1 2−6 4 −6−6 3 −5

35 .Es fácil verificar que las soluciones del sistema homogéneo (A− 2I)x = 0 son los vectores de la forma

x =

24 x1

x2

x3

35 =

24 12x2 − x3

x2

x3

35

=1

2x2

24 120

35+ x3

24 −101

35 , x2, x3 ∈ R,

40

Diagonalización de matrices 3.2. Diagonalización

en consecuencia,

Uλ1 = U2 =

8<:24 1

20

35 ,24 −1

01

359=;es una base para S(λ1) = S(2).

De otra parte, se encuentra que las soluciones del sistema (A− 1I)x = 0 son los vectores de la forma

x =

24 x1

x2

x3

35 =

24 − 13x3

x3

x3

35 =1

3x3

24 −133

35 , x3 ∈ R.

En consecuencia,

Uλ2 = U1 =

8<:24 −1

33

359=;es una base para S(λ2) = S(1).

Ahora, los vectores

x1 =

24 120

35 , x2 =

24 −101

35 y x3 =

24 −133

35son vectores propios de A correspondientes a los valores propios 2, 2 y 1, respectivamente, y son linealmenteindependientes como se comprueba fácilmente.

De acuerdo con el teorema 3.19, la matriz A es diagonalizable. Por otro lado, según la demostración delteorema, la matriz

P =ˆ

x1 x2 x3

˜=

24 1 −1 −12 0 30 1 3

35es invertible y es tal que:

P−1AP = D =

24 2 0 00 2 00 0 1

35 .3.22. Ejemplo. La matriz del ejemplo 3.11,

A =

24 1 1 −1−1 3 −1−1 2 0

35no es diagonalizable, pues vimos en dicho ejemplo, que la matriz A tiene dos valores propios: λ1 = 1 yλ2 = 2, y que

U1 =

8<:24 1

11

359=; y U2 =

8<:24 0

11

359=;son bases para los espacios propios asociados, respectivamente. Así que A sólo tiene dos vectores propioslinealmente independientes.

3.23. Teorema. Si λ1, λ2, . . . , λk son los valores propios diferentes de una matriz A y si x1, x2, . . . , xkson vectores propios de A correspondientes a los valores propios λ1, λ2, . . . , λk, respectivamente, entoncesC = {x1, ,x2, . . . , xk} es un conjunto linealmente independiente.

41

3.2. Diagonalización Diagonalización de matrices

Demostración. La demostración se hará utilizando inducción sobre el número k de vectores del con-junto C.

Si C = {x1}, entonces C es linealmente independiente, pues x1 6= 0.

El teorema es cierto para cuando k = 2. En efecto: Si

(3.1) α1x1 + α2x2 = 0,

premultiplicando (3.1) por el escalar λ2 se obtiene:

(3.2) λ2α1x1 + λ2α2x2 = 0.

De otra parte; premultiplicando (3.1) por la matriz A se llega a:

(3.3) λ1α1x1 + λ2α2x2 = 0.

Restando (3.3) de (3.2) se obtiene:(λ2 − λ1)α1x1 = 0.

Puesto que x1 6= 0, entonces (λ2−λ1)α1 = 0. Dado que λ1 6= λ2 se tiene entonces que α1 = 0. Reemplazan-do este valor de α1 en (3.1) se llega a que α2x2 = 0, pero x2 6= 0, entonces α2 = 0.

Suponga ahora que el teorema es cierto para cuando k = j y verifique que el teorema es cierto paracuando k = j+1. Si

(3.4) α1x1 + α2x2 + . . .+ αjxj + αj+1xj+1 = 0,

premultiplicando (3.4) por el escalar λj+1 se obtiene:

(3.5) λj+1α1x1 + λj+1α2x2 + . . .+ λj+1αjxj + λj+1αj+1xj+1 = 0,

De otra parte; premultiplicando (3.4) por la matriz A se llega a:

(3.6) λ1α1x1 + λ2α2x2 + . . .+ λjαjxj + λj+1αj+1xj+1 = 0.

Restando (3.6) de (3.5) se obtiene:

(λj+1 − λ1)α1x1 + (λj+1 − λ2)α2x2 + . . .+ (λj+1 − λj)αjxj = 0.

Por hipótesis de inducción se tiene

(λj+1 − λ1)α1 = (λj+1 − λ2)α2 = . . . = (λj+1 − λj)αj = 0 .

De otro lado, por hipótesis del teorema los escalares λ1, . . . , λj , λj+1 son diferentes, entonces se obtiene queα1 = α2 = . . . = αj = 0. Reemplazando estos valores en 3.4 se llega a que αj+1xj+1 = 0, pero xj+1 6= 0,entonces αj+1 = 0. El teorema queda entonces demostrado. �

La prueba del siguiente corolario es consecuencia inmediata de los teoremas 3.23 y 3.19.

3.24. Corolario. Sea A una matriz cuadrada de orden n. Si A posee n valores propios distintos, entoncesA es diagonalizable.

3.25. Ejemplo. La matriz

A =

24 1 2 30 4 50 0 6

353×3

es diagonalizable. En efecto, la ecuación característica de A es:

pA(λ) = |A− λI| = (−1)3(λ− 1)(λ− 4)(λ− 6) = 0.

De esto se sigue que A tiene tres valores propios distintos, a saber: λ1 = 1, λ2 = 4 y λ3 = 6.

42

Diagonalización de matrices 3.2. Diagonalización

De acuerdo con los teoremas 3.19 y 3.20, dada la matriz cuadrada A de orden n; existe una matriz invertibleP tal que P−1AP = D es una matriz diagonal sii A tiene n vectores propios linealmente independientes.Además, si existe una tal matriz P , los vectores columna de P son vectores propios de A y los elementos dela diagonal de D son los valores propios de A. Quedan así contestadas las preguntas propuestas al comienzode esta sección sobre la diagonalización de matrices. El siguiente teorema responde a las preguntas sobrediagonalización pero formuladas en el contexto de las transformaciones lineales.

3.26. Teorema. Sea U un espacio de dimensión n y sea T : U → U una transformación lineal. Existeuna base ordenada B2 de U tal que [T ]B2B2

= D es una matriz diagonal sii T tiene n vectores propioslinealmente independientes. Además, si B2 = {u1, u2, . . . ,un} es una base ordenada de U tal que

[T ]B2B2= D =

26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

37775es una matriz diagonal, entonces ui es un λi-vector propio de T, o sea T (ui) = λiui, i = 1, 2, . . . , n.

Demostración. Puesto que las matrices asociadas a transformaciones lineales y referidas a basesarbitrarias son semejantes, y puesto que el polinomio característico de matrices semejantes es el mismo (verteorema 3.14), se puede considerar una base arbitraria B1 para U .

Sea pues A = [T ]B1B1, la matriz de la transformación T referida a dicha base B1, Existe una base ordenada

B2 de U tal que D = [T ]B2B2= [I]−1

B2B1A [I]B2B1

es una matriz diagonal sii A es semejante a una matrizdiagonal. Ahora por los teoremas 3.19 y 3.20; A es semejante a una matriz diagonal si y sólo si A tiene nvectores propios linealmente independientes, lo cual equivale a que T tenga n vectores propios linealmenteindependientes (ver el apartado 1.2.2)

Además, si B2 = {u1, u2, . . . ,un} es una base ordenada de U tal que

[T ]B2B2= D =

26664λ1 0 · · · 00 λ1 · · · 0...

.... . .

...0 0 · · · λ1

37775es una matriz diagonal, entonces, de acuerdo con la definición de la matriz [T ]B2B2

, T (ui) = λiui ; o sea,ui es un λi-vector propio de T , i = 1, 2, . . . , n. �

3.27. Ejemplo. Considere la transformación lineal T : P3 → P3 definida por:

Tˆa+ bx+ cx2˜ = (4a− b+ 2c) + (−6a+ 5b− 6c)x+ (−6a+ 3b− 4c)x2.

Encuentre una base ordenada B2 de U = P2 tal que [T ]B2B2= D es una matriz diagonal.

Sea B1 = {1, x, x²} la llamada base canónica de P2 entonces:

A = [T ]B1B1=

24 4 −1 2−6 5 −6−6 3 −4

35 ,que es la matriz del ejemplo 3.21. De dicho ejemplo se sabe que

x1 =

24 120

35 , x2 =

24 −101

35 y x3 =

24 −133

35 ,43

3.2. Diagonalización Diagonalización de matrices

son vectores propios linealmente independientes de A, correspondientes respectivamente a los valores propios2, 2 y 1. Tales vectores x1, x2 y x3 son los correspondientes vectores de coordenadas, respecto a la base B1,de los vectores u1, u2 y u3 de P2 para

u1 = 1 + 2x; u2 = −1 + x2 y u3 = −1 + 3x+ 3x2.

Ahora, los valores propios de T son los valores propios de A (ver teorema 3.7), esto es, los diferentesvalores propios de T son λ1 = 2 y λ2 = 1. De otro lado, por lo establecido en el apartado 1.2.2, u1, u2 yu3 son vectores propios de T linealmente independientes, correspondientes a los valores propios 2, 2 y 1,respectivamente. En consecuencia, de acuerdo con el teorema anterior, B2 = {u1, u2,u3} es una base paraP2 tal que:

[T ]B2B2= D =

24 2 0 00 2 00 0 1

35 .Como se ha visto, dada una matriz cuadrada A de orden n, existe una matriz invertible P tal que P−1AP =D es una matriz diagonal sii existen n vectores propios de A linealmente independientes. En el caso enque A no posea n vectores propios linealmente independientes, es posible, bajo cierta condición, que A seasemejante a una matriz triangular superior T ; es decir, que A sea semejante a una matriz T = [tij ]n×n parala cual tij = 0 si i > j. El siguiente teorema explicita esta afirmación.

3.28. Teorema. Sea A una matriz cuadrada (real) de orden n. Todas las soluciones de la ecuación car-acterística de A son reales sii existe una matriz invertible P (real) tal que P−1AP = T es una matriztriangular superior. Además, si existe una tal matriz P , entonces los elementos de la diagonal de T son losvalores propios de A.

Demostración. (=⇒) La demostración en este sentido se hará, utilizando inducción sobre el ordenn de la matriz A. Para cuando n = 2, la implicación es verdadera. En efecto, de la hipótesis se sigue queA tiene dos valores propios (reales) los cuales no son necesariamente distintos. Sea λ1 un valor propio deA. Existe por lo tanto un vector 2× 1, x1 6= 0 tal que Ax1 = λ1x1. Por el teorema1.21(3), existe un vector2× 1, x2 6= 0 tal que B = {x1, x2} es una base para M2×1. Ahora, la matriz P = [ x1 x2 ] es invertible;escribamos a P−1 particionada por filas así:

P−1 =

»y1

y2

–, y1, y2 ∈ M1×2 ,

entonces se tiene que

P−1AP =

»y1

y2

–Aˆ

x1 x2

˜=

»λ y1Ax2

0 y2Ax2

–= T

es una matriz triangular superior.

Supongamos ahora que la implicación es verdadera para cuando n = j − 1 y demostremos que ésta esverdadera cuando n = j, j ≥ 3. Sea A una matriz cuadrada de orden j para la cual todas las solucionesde su ecuación característica son reales. De ésto se sigue que A tiene j valores propios (reales) los cualesno son necesariamente distintos. Sea λ1 un valor propio de A. Existe por lo tanto un vector j × 1, x1 6= 0tal que Ax1 = λ1x1. Por el teorema 1.21(3), existen j − 1 vectores x2, x3, . . . ,xj de Mj×1 tales queB = {x1, x2, x3, . . . ,xj} es una base para Mj×1. Ahora por el teorema 1.56, la matriz

P1 =ˆ

x1 x2 · · · xj˜

x1 M˜

es invertible. Escribamos la inversa P−1 así:

P−11 =

»y1

N

–, y1 ∈ M1×j , y N ∈ M(j−1)×j .

44

Diagonalización de matrices 3.2. Diagonalización

Entonces se tiene

P−11 AP1 =

»y1

N

–Aˆ

x1 M˜

=

»λ1 y1AM0 NAM

–=

»λ1 B0 C

–= T1

es una matriz triangular superior por bloques.

Ahora, las matrices A y T1 tienen el mismo polinomio característico (teorema 3.14):

pA(λ) = pT1(λ) = (λ1 − λ) |C − λI| .

De ésto se sigue, que todas las soluciones de la ecuación característica de la matriz cuadrada de orden j−1,C, son reales. Por hipótesis de inducción, existe una matriz invertible Q tal que Q−1CQ = T2 es una matriztriangular superior. Sea ahora:

P2 =

»1 00 Q

–,

entonces se tiene que la matriz invertible P = P1P2 es tal que

P−1AP = P−12 P−1

1 AP1P2 =

»1 00 Q−1

– »λ1 B0 C

– »1 00 Q

=

»λ1 BQ0 Q−1CQ

–=

»λ1 BQ0 T2

–= T

es una matriz triangular superior.

La demostración de la otra implicación y de la segunda afirmación del teorema quedan como ejerciciopara el lector. �

3.29. Ejemplo. Todas las soluciones de la ecuación característica de la matriz del ejemplo 3.22

A =

24 1 1 −1−1 3 −1−1 2 0

353×3

son reales, pues:pA(λ) = −(λ− 1)2(λ− 2) = 0 sii λ1 = 1 ó λ2 = 2 .

De otro lado, como lo establecimos en el ejemplo 3.22, la matriz A no es diagonalizable, pues A sólo poseedos vectores propios linealmente independientes. En particular:

x1 =

24 111

35 y x2 =

24 011

35son vectores propios linealmente independientes correspondientes a los valores propios λ1 = 1 y λ2 = 2,respectivamente.

Por el teorema anterior, existe una matriz invertible P tal que P−1AP = T es una matriz triangularsuperior. Para encontrar una tal matriz P , basta proporcionar un vector x3 tal que B = {x1, x2, x3} seauna base para M3×1; el vector

x3 =

24 023

35sirve para tal efecto. Ahora bien, la matriz

P =ˆ

x1 x2 x3

˜=

24 1 0 01 1 21 1 3

3545

3.2. Diagonalización Diagonalización de matrices

es invertible y es tal que

P−1AP = T =

24 1 0 −10 2 20 0 1

35es una matriz triangular superior.

De acuerdo con el teorema anterior, si A es una matriz cuadrada (real) cuyos valores propios no son todosreales entonces, no puede existir una matriz invertible P (real) tal que P−1AP = T sea una matriz triangularsuperior. Ahora bien, como se ha mencionado se pueden estudiar espacios vectoriales donde los escalaressean números complejos (ver piés de página de la página 34) y se pueden obtener resultados más generales.En particular, se tiene que para toda matriz cuadrada A (real o compleja) existe una matriz invertible P(real o compleja) tal que P−1AP = T sea una matriz triangular superior. Este resultado se tiene, graciasa la propiedad importante del sistema de los números complejos que establece, que todo polinomio degrado n con coeficientes reales o complejos tiene exactamente n raíces reales o complejas, contadas susmultiplicidades. En el teorema siguiente se establece este resultado sin demostración. Quien desee estudiarsobre éste, puede consultar las secciones 5.5 y 5.6 de [1].

3.30. Teorema. Para toda matriz cuadrada A (real o compleja) existe una matriz invertible P (real ocompleja) tal que P−1AP = T es una matriz triangular superior. Además, los elementos de la diagonal deT son las soluciones de la ecuación característica de A.

3.31. Ejemplo. Considere la matriz (real)

A =

24 1 0 00 0 10 −1 0

35 .La ecuación característica de A es

pA(λ) = |A− λI| = −(λ− 1)(λ2 + 1)

= −(λ− 1)(λ− i)(λ+ i) = 0 .

De esto se sigue que A sólo tiene un valor propio real, a saber, λ1 = 1.

En este caso no es posible que exista una matriz invertible P (real) tal que P−1AP = T sea una ma-triz triangular superior. Sin embargo, en el contexto de los espacios vectoriales donde los escalares sonnúmeros complejos, se puede decir, que A tiene tres valores propios complejos λ1 = 1, λ2 = i y λ3 = −i .Efectuando, en este contexto, los cálculos pertinentes, se encuentra que

x1 =

24 100

35 , x2 =

24 0−i

1

35 y x3 =

24 0i1

35son tres vectores propios complejos de A linealmente independientes correspondientes a los valores propioscomplejos λ1 = 1, λ2 = i y λ3 = −i respectivamente. Así que la matriz compleja:

P =ˆ

x1 x2 x3

˜=

24 1 0 00 −i i0 1 1

3546

Diagonalización de matrices 3.2. Diagonalización

es invertible y es tal que

P−1AP =

24 1 0 00 i/2 i/20 −i/2 i/2

3524 1 0 00 0 10 −1 0

3524 1 0 00 −i i0 1 1

35=

24 1 0 00 i 00 0 −i

35 = D

es una matriz diagonal, y por lo tanto, es una matriz triangular superior.

3.2 Ejercicios

En los ejercicios 1 al 1 responda verdadero o falso, justificando su respuesta:

1. Si una matriz cuadrada A es diagonalizable, entonces existen infinitas matrices invertibles P talesque P−1AP = D es una matriz diagonal.

2. Si A es una matriz 3×3con valores propios λ1 = −1, λ2 = 2 y λ3 = 3 entonces A es diagonalizable,detA = −6 y Tr(A) = 4.

3. Si A es una matriz invertible y λ es un valor propio de A entonces λ 6= 0 y (1/λ)es un valor propiode A−1.

En los ejercicios 4 al 7 demuestre la afirmación correspondiente

4. Sea A ∈ Mn×n tal que pA(λ) = (−1)n(λ − λ1)(λ − λ2) · · · (λ − λn), Demuestre que: (i) |A| =λ1λ2 · · ·λn y (ii) TrA = λ1 + λ2 + · · ·+ λn.

5. Sea A una matriz cuadrada n× n tal que

|aii| >nX

j 6=i,j=1

|aij |,

para todo i = 1, 2, . . . n, entonces A es invertible. (Sugerencia: suponga que existe un vector x =[ x1 x2 · · · xn ]T 6= 0 tal que Ax = 0 y que |xi| = max{|x1|, |x2|, . . . |xn|}. Despeje aiixi enla i-ésima ecuación del sistema Ax = 0, tome valor absoluto y llegue a una contradicción).

6. Sean A ∈ Mn×n; B ∈ Mm×m; C ∈ Mn×m y M =

»A C0 B

–.

a) Describa el conjunto de valores propios de M en términos de los valores propios de A y de B.(Sugerencia: calcule pA(λ) = det(M − λI)).

b) Demuestre que si x1 es un λ-vector propio de A entonces x =

»x1

0

–es un λ-vector propio

de M.7. Si A es una matriz n× n tal que A2 = mA, entonces

TrA = mρ(A).

(Sug.: considere (i) ρ(A) = 0, (ii) ρ(A) = n y (ii) 0 < ρ(A) < n, use el teorema 3.28)8. Considere cada una de las matrices M del problema 17 de la sección de ejercicios 3.1. Encuentre,

si es posible, una matriz invertible P tal que P−1MP sea una matriz diagonal

9. Sea T : P2 → P2 la transformación lineal definida por

T [a+ bx+ cx2] = (a− b+ 4c) + (3a+ 2b− c)x+ (2a+ b− c)x2.

a) Calcule los valores propios y los vectores propios.b) Dé, si existe, una base ordenada C de P2 tal que [T ]CC sea una matriz diagonal.

47

3.3. Matrices simétricas Diagonalización de matrices

3.3. Diagonalización de matrices simétricas

En esta sección se limitará el estudio de los conceptos de valor propio, vector propio y diagonalización amatrices simétricas. Dos resultados importantes que se verán en esta sección son los siguientes: (i) Todaslas soluciones de la ecuación característica de toda matriz simétrica (real) son reales, y (ii) Toda matrizsimétrica (real) es diagonalizable, y más aún, diagonalizable en una forma especial.

Como se verá en el capítulo 4, los valores propios de una matriz simétrica se utilizan como criterio paradecidir cuándo una forma cuadrática es positivamente (negativamente) definida (semidefinida) o indefinida.

Como se estableció al final de la sección anterior, uno puede estudiar espacios vectoriales donde los es-calares son números complejos. únicamente en la demostración del teorema 3.32, se utilizarán los hechossiguientes que involucran números complejos.

1. El conjugado del número complejo z = a+ bi, a, b ∈ R, se denota por z y se define así: z = a− bi.2. Un número complejo z es real sii z = z.3. La matriz conjugada de la matriz compleja n × n, A, se de nota por A y cuyos componentes son〈Aij〉 = 〈A〉ij , i, j = 1, 2, . . . , n.

4. Para todo vector complejo n× 1, x, se tiene: x Tx = xTx y x Tx = 0 sii x = 0.5. Para toda matriz cuadrada A con componentes complejas; |A| = 0 sii existe un vector x 6= 0, con

componentes complejas, tal que Ax = 0.

3.32. Teorema. Sea A una matriz (real) cuadrada de orden n. Si A es una matriz simétrica, entoncestodas las soluciones de la ecuación característica de A: pA(λ) = |A− λI| = 0, son reales. Esto es, A tienen valores propios (reales) los cuales no son necesariamente diferentes.

Demostración. Si pA(λ) = |A− λI| = 0, entonces por (5), existe un vector x 6= 0 tal que:

(3.1) Ax = λx

de esto se sigue que, (ver (3) y (2)):

(3.2) Ax = λx .

Ahora, premultiplicando (3.1) por x T y (3.2) por xT se tiene

(3.3) x TAx = λx Tx y xTAx = λxTx ,

puesto que x TAx = (x TAx)T = xTATx = xTAx, de (3.3) se sigue que:

(3.4) λx Tx = λxTx .

De (4) se tiene que x Tx = xTx, por lo tanto, de (3.4) se concluye que :

(λ− λ)x Tx = 0.

Ya que x 6= 0, de (4) se tiene que(λ− λ) = 0 o sea, λ = λ.

en consecuencia, por (2), λ es un número real. �

En lo que resta de estas notas, no se hará más referencia al sistema de números complejos.

El teorema 3.23 establece que, para cada matriz cuadrada A, los vectores propios correspondientes a valorespropios diferentes son linealmente independientes. Para matrices simétricas se tiene un resultado más fuerte.Este resultado se establece en el teorema siguiente.

48

Diagonalización de matrices 3.3. Matrices simétricas

3.33.Teorema. Si λ1, λ2, . . . , λk son los valores propios diferentes de una matriz simétrica A y si x1, x2, . . . ,xkson vectores propios de A correspondientes a los valores propios λ1, λ2, . . . , λk, respectivamente, entoncesel conjunto de vectores C = {x1, x2, . . . ,xk} es ortogonal.

Demostración. Se debe demostrar que 〈xi; xj〉 = xTi xj = 0 si i 6= j, para i, j = 1, 2, . . . k

Por la hipótesis se tiene que:

Axi = λixi , y(3.5)Axj = λjxj .(3.6)

Ahora, premultiplicando (3.5) por xTj y a (3.6) por xTi , se obtiene

(3.7) xTj Axi = λixTj xi y xTi Axj = λjx

Ti xj ,

puesto que xTj Axi = (xTj Axi)T = xTi A

Txj = xTi Axj , de (3.7) se sigue que:

(3.8) λxTj xi = λjxTi xj .

Ya que xTj xi = xTi xj de (3.8) se concluye que:

(λi − λj)xTi xj = 0.

Ahora bien, los valores propios son distintos, entonces xTi xj = 0, si i 6= j, i, j = 1, 2, . . . k. �

3.34. Definición. Se dice que una matriz cuadrada P es ortogonal, si P es invertible y P−1 = PT .

3.35. Ejemplo. La matriz

P =1

3

24 1 −2 22 2 12 −1 −2

35es ortogonal, pues:

PPT = P =1

3

24 1 −2 22 2 12 −1 −2

35 1

3

24 1 2 2−2 2 −1

2 1 −2

35 =

24 1 0 00 1 00 0 1

35 = I.

3.36.Proposición. Una matriz P =ˆ

x1 x2 · · · xn˜es ortogonal sii el conjunto B = {x1, x2, . . . ,xn}

constituye una base ortonormal de Mn×1.

Demostración. La matriz P =ˆ

x1 x2 · · · xn˜es ortogonal sii PTP = I. Ahora bien,

PTP =

266666664

xT1

xT2...

xTn

377777775[x1 x2 · · · xn] =

266666664

xT1 x1 xT1 x2 · · · xT1 xn

xT2 x1 xT2 x2 · · · xT2 xn...

.... . .

...

xTnx1 xTnx2 · · · xTnxn

377777775Es fácil entonces observar, que PTP = I si y sólo si se cumple que:

xTi xj =

(1 si i 6= j

0 si i = j; i, j = 1, 2, . . . , n ,

lo cual equivale a que B = {x1, x2, . . . ,xn} es una base ortonormal de Mn×1 (ver sección 1.2.3). �

49

3.3. Matrices simétricas Diagonalización de matrices

3.37. Teorema. Si λ∗ es un valor propio de una matriz simétrica, entonces las multiplicidades algebraicay geométrica de λ∗ son iguales.

Demostración. Sea A una matriz simétrica de orden n y sea λ∗ un valor propio de A. Supongamos quela multiplicidad geométrica de λ∗ es r. Por el teorema 1.33, existe una base ortonormal B = {x1, x2, . . . ,xr}del espacio de vectores propios asociados a λ∗, S(λ∗). Si r = n, la matriz P = [ x1 x2 · · · xn] esortogonal (proposición 3.36), y de acuerdo con el teorema 3.19,

PTAP = P−1AP = D = λ∗I .

Ahora, las matrices A y D tienen igual polinomio característico:

pA(λ) = pD(λ) = |λ∗I − λI| = (λ∗ − λ)n.

De esto se sigue que λ∗ es un valor propio de A con multiplicidad algebraica r = n.

De otra parte, si r < n, existen n−r vectores y1, y2, . . . ,yn−r de Mn×1 tales que B = {x1, . . . ,xr,y1, . . . ,yn−r}es una base ortonormal de Mn×1 (teorema 1.34). Por la proposición 3.36, la matriz

P =ˆ

x1 x2 · · · xr y1 y2 · · · yn−r˜

=ˆX Y

˜es ortogonal. Considere ahora la matriz T = PTAP = P−1AP, es decir, la matriz:

T =

»XT

Y T

–AˆX Y

˜=

»λ∗I XTAY0 Y TAY

–=

»λ∗I B0 C

–.

Puesto que A es simétrica, TT = (PTAP )T = PTATP = PTAP = T, o sea»λ∗I B0 C

–=

»λ∗I 0B CT

–,

por lo tanto B = 0 y

T =

»λ∗I 00 C

–.

Puesto que las matrices A y T son semejantes, entonces tienen el mismo polinomio característico:

pA(λ) = pT (λ) = |T − λI| = (λ∗ − λ)r |C − λI| .

De esto se sigue, que λ∗ es un valor propio de A con multiplicidad algebraica k ≥ r. Veamos que k = r. Sik > r, entonces se debe tener que |C − λ∗I| = 0, y por lo tanto existe un vector (n− r)× 1, w 6= 0 tal queCw = λ∗w.

50

Diagonalización de matrices 3.3. Matrices simétricas

Considere ahora el vector no nulo u ∈ Mn×1 dado por u = P

»0w

–. Es decir,

u = P

»0w

–= [x1 x2 · · · xr y1 y2 · · · yn−r]

266666666666664

00...0w1

w2

...wn−r

377777777777775= w1y1 + w2y2 + · · ·wn−ryn−r .

Esto es, el vector u ∈ 〈y1, y2, . . . ,yn−r〉 y u /∈ 〈x1, x2, . . . ,xr〉

De otro lado, el vector u, es un λ∗-vector propio de A. En efecto,

Au = P

»λ∗I 00 C

–PTP

»0w

–= P

»λ∗I 00 C

– »0w

–= P

»0Cw

–= P

»0

λ∗w

–= λ∗P

»0w

–= λ∗u .

Esto indica, que B = {x1, x2, . . . , xr,ur+1} es un conjunto de r + 1 vectores propios linealmente indepen-dientes correspondientes al valor propio λ∗, lo cual contradice el hecho de que la multiplicidad geométricade λ∗ sea r. �

3.38. Teorema. Si A es una matriz simétrica de orden n, entonces A tiene n vectores propios ortogonales,y por tanto, linealmente independientes.

Demostración. Sean λ1, λ2, . . . , λk los diferentes valores propios de A. Supongamos que la multipli-cidad algebraica de λi es mi, mi = 1, 2, . . . , k; esto es, supongamos que

pA(λ) = (−1)n(λ− λ1)m1(λ− λ2)m2 · · · (λ− λk)mk ,

donde m1 +m2 + · · ·+mk = n.

Por el teorema anterior, la multiplicidad geométrica de λi es mi, i = 1, . . . , k. Sean ahora:

U1 = {x11, . . . ,x

1m1}, · · · , Uk = {xk1 , . . . ,xkmk

}bases ortogonales de S(λ1), · · · , S(λk) respectivamente. Entonces por el teorema 3.33, el conjunto de nvectores propios de A:

U = U1 ∪ U2 ∪ · · · ∪ Uk= {x1

1, . . . , x1m1 , x

21, . . . , x

2m2 , . . . , x

k1 , . . . , x

kmk}

es ortogonal. �

La demostración del siguiente corolario es consecuencia inmediata del teorema 3.38 y del teorema 3.19.

3.39. Corolario. Toda matriz simétrica es diagonalizable.

3.40. Definición. Sea A una matriz cuadrada. Se dice que A es ortogonalmente diagonalizable si existe unmatriz ortogonal P tal que PTAP = D es una matriz diagonal.

51

3.3. Matrices simétricas Diagonalización de matrices

3.41. Teorema. Si A es una matriz simétrica, entonces A es ortogonalmente diagonalizable; esto es, existeuna matriz ortogonal P tal que PTAP = D es una matriz diagonal. Más aún, las columnas de la matriz Pson los vectores propios de A y los elementos de la diagonal de D son los valores propios de A.

Demostración. Sea A es una matriz simétrica de orden n, entonces A tiene n vectores propiosortonormales x1, x2, . . . , xn (teorema 3.38). Supongamos que éstos corresponden a los valores propiosλ1, λ2, . . . , λn, respectivamente. La matriz P = [ x1 x2 · · · xn] es ortogonal (proposición 3.36), y deacuerdo con la demostración del teorema 3.19, se tiene que

PTAP = P−1AP = D =

26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

37775 .�

El recíproco del teorema 3.41 también es válido y está dado por el siguiente

3.42. Teorema. Si una matriz A es ortogonalmente diagonalizable, entonces A es simétrica.

Demostración. Por hipótesis, existe una matriz ortogonal P que diagonaliza a la matriz A, esto es,se tiene que PTAP = D, siendo D una matriz diagonal. De aquí que:

A = PDPT = (PDTPT )T = (PDPT )T = AT ,

o sea, A es una matriz simétrica. �

3.43. Ejemplo. Para la matriz simétrica:

A =

24 5 2 22 2 −42 −4 2

353×3

encontre una matriz ortogonal P tal que PTAP = D sea una matriz diagonal.

Para ello se debe encontrar tres vectores propios de A ortonormales. El polinomio característico de A,pA(λ) = |A− λI| está dado por:

pA(λ) = |A− λI| =

˛˛ 5− λ 2 2

2 2− λ −42 −4 2− λ

˛˛ = −(λ+ 3)(λ− 6)2.

Se requiere ahora resolver la ecuación característica de A, pA(λ) = |A− λI| = 0. Pero dado que

pA(λ) = −(λ+ 3)(λ− 6)2 = 0 sii λ = −3 ó λ = 6

se tiene entonces, que los diferentes valores propios de A son λ1 = −3 y λ2 = 6.

Por definición, los (−3)-vectores propios de A son las soluciones no nulas del sistema de ecuaciones lineales(A+ 3I) x = 0 y los 6-vectores propios de A son las soluciones no nulas del sistema de ecuaciones lineales(A− 6I)x = 0. Se tiene entonces:

A+ 3I =

24 8 2 22 5 −42 −4 5

35 y A− 6I =

24 −1 2 22 −4 −42 −4 −4

35 .52

Diagonalización de matrices 3.3. Matrices simétricas

Es fácil verificar, que las soluciones del sistema homogéneo (A+ 3I)x = 0 son los vectores de la forma:

x =

24 x1

x2

x3

35 =

24 − 12x3

x3

x3

35 =1

2x3

24 −122

35 ; x3 ∈ R.

En consecuencia,

bUλ1 = bU−3 =

8<:24 −1

22

359=; ,

es una base para S(λ1) = S(−3). Aplicando el proceso de ortogonalización de Gram-Scmidt a esta base(vea el teorema 1.33), se llega a que:

bUλ1 = bU−3 =

8<:1

3

24 −122

359=; ,

es una base ortonormal de S(λ1) = S(−3).

De otra parte, se encuentra que las soluciones del sistema homogéneo (A− 6I)x = 0 son los vectores de laforma:

x =

24 x1

x2

x3

35 =

24 2x2 + 2x3

x2

x3

35= x2

24 210

35+x3

24 201

35 ; x2, x3 ∈ R.

En consecuencia,

bUλ2 = bU6 =

8<:24 2

10

35 ,24 2

01

359=; ,

es una base para S(λ2) = S(6). Aplicando el proceso de ortogonalización de Gram-Schmidt a esta base sellega a que:

bUλ2 = bU6 =

8<: 1√5

24 210

35 , 1

3√

5

24 2−4

5

359=; ,

es una base ortonormal de S(λ2) = S(6).

Según la demostración del teorema 3.38,

U = bUλ1 ∪ bUλ2 =

8<:1

3

24 −122

35 , 1√5

24 210

35 , 1

3√

5

24 2−4

5

359=; ,

es un conjunto ortonormal de vectores propios de A. Ahora, según la demostración del teorema 3.41, lamatriz,

P =

26666664−1

3

2√5

2

3√

52

3

1√5− 4

3√

52

30

2

3√

5

3777777553

3.3. Matrices simétricas Diagonalización de matrices

es ortogonal tal que

PTAP = P−1AP = D =

24 −3 0 00 6 00 0 6

35 .3.44. Teorema. Sea A una matriz simétrica de orden n. Supongamos que A que tiene p (0 ≤ p ≤ n)valores propios, no necesariamente diferentes, estrictamente positivos y η (0 ≤ η ≤ n) valores propios, nonecesariamente diferentes, estrictamente negativos. Entonces existe una matriz invertible P tal que:

PTAP =

24 Ip 0 00 −Iη 00 0 0

35 .Si además existe otra matriz invertible Q tal que

QTAQ =

24 Ip′ 0 00 −Iη′ 00 0 0

35 ,entonces p = p′ y η = η′.

Demostración. Sean λ1, λ2, . . . , λρ los valores propios de A estrictamente positivos (no necesaria-mente distintos) y sean x1, x2, . . . , xp vectores propios ortonormales de A asociados respectivamente atales valores propios. Sean además β1, β2, . . . , βη los valores propios de A estrictamente negativos (no nece-sariamente distintos) y y1, y2, . . . ,yη vectores propios ortonormales de A asociados a dichos valores propiosnegativos y sean z1, z2, . . . , zγ , γ = n−(p+η), vectores propios ortonormales de A asociados al valor propionulo (0). Según la demostración del teorema 3.41, la matriz M , cuyas columnas son los correspondientesvectores propios organizados adecuadamente, es ortogonal. Es decir, la matriz

M = [ x1 x2 · · · xp y1 y2 · · · yη z1 z2 · · · zγ ]

es ortogonal. De otro lado, se tiene que MTAM = D es una matriz diagonal con los valores propios en sudiagonal y dispuestos así:

MTAM = D =

24 Dp 0 00 Dη 00 0 0

35donde:

Dρ =

26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λp

37775 y Dη =

26664β1 0 · · · 00 β2 · · · 0...

.... . .

...0 0 · · · βη

37775 .Sea ahora D∗ la matriz diagonal:

D∗ =

24 D∗p 0 00 D∗η 00 0 Iγ

35donde

D∗ρ =

2666666664

1√λ1

0 · · · 0

01√λ2

· · · 0

......

. . ....

0 0 · · · 1pλp

3777777775y.

54

Diagonalización de matrices 3.3. Matrices simétricas

D∗η =

2666666664

1√−β1

0 · · · 0

01√−β2

· · · 0

......

. . ....

0 0 · · · 1p−βη

3777777775La matriz D∗ es invertible y es tal que:

D∗DD∗ = D∗TMTAMD∗ =

24 D∗pDpD∗p 0 0

0 D∗ηDηD∗η 0

0 0 Iγ0 Iγ

35=

24 Ip 0 00 −Iη 00 0 0

35 .En consecuencia, la matriz invertible P = MD∗ es tal que:

PTAP =

24 Ip 0 00 −Iη 00 0 0

35 .Para la unicidad suponga ahora que las matrices invertibles P y Q son tales que:

PTAP =

24 Ip 0 00 −Iη 00 0 0

35 y QTAQ =

24 Ip′ 0 00 −Iη′ 00 0 0

35 .Lo que se quiere probar ahora es que ρ = ρ′ y η = η′.

Para ello se escribe las matrices P y Q particionadas por columnas así:

P = [ x1 x2 · · · xp xp+1 · · · xn ] y

Q = [ y1 y2 · · · yp′ yp′+1 · · · yn ]

Por hipótesis se tiene que: 8>>>>>>>>>>><>>>>>>>>>>>:

xTi Axi = 1 si i = 1, 2 . . . , p

xTi Axj = 0 si i 6= j, (i, j = 1, 2 . . . , n)

yTi Ayi ≤ 0 si i = p′ + 1, p′ + 2 . . . , n

yTi Ayj = 0 si i 6= j, (i, j = 1, 2 . . . , n).

Ahora, el conjunto de vectores de Mn×1:

C = {x1, x2, . . . , xp, yp′+1, yp′+2, . . . , yn}

es linealmente independiente. En efecto, si

λ1x1 + . . .+ λpxp + β1yp′+1 + . . .+ βn−p′yn = 0

entonces el vector

U = λ1x1 + λ2x2 + . . .+ λpxp

= −β1yp′+1 − β2yp′+2 − . . .− βn−p′yn

55

3.3. Matrices simétricas Diagonalización de matrices

es tal que:

UTAU = (λ1x1 + . . .+ λpxp)TA(λ1x1 + . . .+ λpxp)

= λ21 + λ2

2 + . . .+ λ2p ≥ 0

y

UTAU = (β1yp′+1 + . . .+ βn−p′yn)TA(β1yp′+1 + . . .+ βn−p′yn)

= β21y

Tp′+1Ayp′+1 + β2

2yTp′+2Ayp′+2 + . . .+ β2

n−p′yTnAyn ≤ 0

Por lo tanto UTAU = 0. De esto se sigue que λ1 = λ2 = . . . = λp = 0. En consecuencia,

β1yp′+1 + β2yp′+2 + . . .+ βn−p′yn = 0 .

Puesto que la matriz Q es invertible, los vectores yp′+1, yp′+2, . . . , yn son linealmente independientes, ypor lo tanto, β1 = β2 = . . . = βn−p′ = 0.

Ahora bien, como la dimensión del espacio vectorial Mn×1 es n y C es un conjunto linealmente inde-pendiente de p+ (n− p′) vectores en Mn×1, entonces por el teorema 1.42(2):

p+ (n− p′) ≤ n ,

o sea, p ≤ p′. Argumentando en forma similar se demuestra que p′ ≤ p, de donde p = p′.

De otro lado, de la hipótesis, se tiene que

ρ(A) = p+ η = p′ + η′

por lo tanto η = η′. �

Nota. En la parte (1) del teorema anterior se tiene que PTAP es igual a:

(i) In, si p = n.(ii) −In, si η = n.

(iii)»Ip 00 0

–, si 0 < p < n y η = 0.

(iv)»−Iη 00 0

–, si 0 < η < n y p = 0.

(v)»Ip 00 −Iη

–, si 0 < p < n y 0 < η < n y p+ η = n.

(vi)

24 Ip 0 00 −Iη 00 0 0

35 , si 0 < p < n y 0 < η < n y p+ η < n.

(vii) 0, sii A = 0.

3.45. Ejemplo. Para la matriz simétrica

A =

24 1 −2 0−2 0 −2

0 −2 −1

35encuentre una matriz invertible P tal que PTAP sea una matriz diagonal con las características que seestablecen en el teorema anterior.

56

Diagonalización de matrices 3.3. Matrices simétricas

Efectuando los cálculos pertinentes se encuentra que los valores propios de A son: λ1 = 3, λ2 = −3 yλ3 = 0, y que la matriz ortogonal:

M =1

3

24 2 1 −2−2 2 −1

1 2 2

35es tal que

MTAM = D =

24 3 0 00 −3 00 0 0

35 .Ahora, la matriz diagonal

D∗ =

266641√3

0 0

01√3

0

0 0 1

37775es invertible y es tal que:

D∗DD∗ = D∗TMTAMD∗

=

266641√3

0 0

01√3

0

0 0 1

37775266664

3 0 0

0 −3 0

0 0 0

37777526664

1√3

0 0

01√3

0

0 0 1

37775=

24 1 0 00 −1 00 0 0

35 ,o sea, la matriz invertible P = MD∗ es tal que

PTAP =

24 I1 0 00 −I1 00 0 0

35 .En relación con la primera parte del teorema 3.44 (ver su demostración) y tal como aparece en el ejemploanterior, un método para calcular una de tales matrices P consiste en encontrar una matriz ortogonal Mque diagonalice a la matriz A, y después postmultiplicar a M por una matriz diagonal conveniente D∗.A continuación damos otro método para calcular, simultáneamente, una de tales matrices P y la matrizPTAP. El método se basa en el hecho de que la matriz P es invertible y por ende se puede expresar comoproducto de un número finito de matrices elementales (véase teorema 1.9(2)); esto es, P = E1E2 · · ·Ek,donde E1, E2, · · · , Ek, son matrices elementales. Así que una forma de calcular la matriz

PTAP = ETk · · ·ET2 ET1 AE1E2 · · ·Ek,consiste en efectuar una sucesión de operaciones elementales en las filas de A y la "misma" sucesión deoperaciones elementales en las columnas de A (véase teorema 1.6), hasta lograr lo deseado. Esta mismasucesión de operaciones elementales en las filas de la matriz identidad I da PT . El siguiente ejemplo ilustrael método para encontrar una tal matriz P .

3.46. Ejemplo. Para la matriz simétrica

A =

24 1 2 −32 5 −4−3 −4 9

3557

3.3. Matrices simétricas Diagonalización de matrices

encontre una matriz invertible P tal que PTAP sea una matriz diagonal con las características que seestablecen en el teorema 3.44.

Se forma entonces la matriz

[ A | I ] =

24 1 2 −3 1 0 02 5 −4 0 1 0−3 −4 9 0 0 1

35 .Se efectua entonces, en las filas de la matriz

ˆA | I

˜, las operaciones elementales; ET1 ; multiplicar

los elementos de la primera fila por α = −2 y sumar los resultados con los correspondientes elementos dela segunda fila, ET2 ; multiplicar los elementos de la primera fila por α = 3 y sumar los resultados con loscorrespondientes elementos de la tercera fila. Así se obtiene la matriz

[ ET2 ET1 A | ET2 E

T1 I ] = [ A1 | B1 ] ,

luego se efectuan las "mismas" operaciones elementales en las columnas de la matriz A1, para obtener:

[ ET2 ET1 A E1E2| ET2 E

T1 I ] = [ A

′1 | B1 ] .

Se tiene:

[ A1 | B1 ] =

24 1 2 −3 1 0 00 1 2 −2 1 00 2 0 3 0 1

35y

[ A′1 | B1 ] =

24 1 0 0 1 0 00 1 2 −2 1 00 2 0 3 0 1

35 .Se efectua ahora, en las filas de la matriz [ A

′1 | B1] , la operación elemental; ET3 ; multiplicar los

elementos de la segunda fila por α = −2 y sumar los resultados con los correspondientes elementos de latercera fila. Así se obtiene la matriz

[ ET3 ET2 E

T1 AE1E2 | ET3 E

T2 E

T1 I ] = [ A2 | B2] ,

luego se realiza la "misma" operación elemental en las columnas de la matriz A2, para obtener:

[ ET3 ET2 E

T1 AE1E2E3| ET3 E

T2 E

T1 I ] = [ A

′2 | B2] .

Se tiene entonces:

[ A2 | B2 ] =

24 1 0 0 1 0 00 1 2 −2 1 00 0 −4 7 −2 1

35y

[ A′2 | B2 ] =

24 1 0 0 1 0 00 1 0 −2 1 00 0 −4 7 −2 1

35 .Finalmente, se efectua en las filas de la matriz [ A

′2 | B2 ] la operación elemental; ET4 ; multiplicar los

elementos de la tercera fila por α = 1/2. Así se obtiene la matriz

[ ET4 ET3 E

T2 E

T1 AE1E2E3 | ET4 E

T3 E

T2 E

T1 I ] = [ A3 | B3 ] ,

luego se realiza la "misma" operación elemental en las columnas de la matriz A3, para obtener:

[ ET4 ET3 E

T2 E

T1 AE1E2E3E4| ET4 E

T3 E

T2 E

T1 I ] =

hA′3 | B3

i.

Se tiene:

[ A3 | B3 ] =

264 1 0 0 1 0 00 1 0 −2 1 0

0 0 −27

2−1

1

2

37558

Diagonalización de matrices 3.3. Matrices simétricas

y

[ A′3 | B3 ] =

264 1 0 0 1 0 00 1 0 −2 1 0

0 0 −17

2−1

1

2

375.

Así que la matriz invertible

PT = B3 = ET4 ET3 E

T2 E

T1 =

264 1 0 0−2 1 0

7

2−1

1

2

375es tal que

PTAP = D = A′3 =

24 1 0 00 1 00 0 −1

35 .Se puede decir entonces, que la matriz A tiene dos valores estrictamente positivos y un valor propio estric-tamente negativo.

3.47.Nota. En relación con el método ilustrado en el ejemplo anterior, si todos los elementos de la diagonalprincipal de la matriz simétrica A = [aij ]n×n son nulos y si aij 6= 0, i 6= j, entonces sumando la fila j a la filai y la columna j a la columna i, se obtiene una matriz simétrica A′ = MTAM con 2aij en el lugar i−ésimode la diagonal principal de A′. Una vez hecho esto, se sigue el proceso descrito en el ejemplo anterior.

3.48. Ejemplo. Para la matriz simétrica

A =

»0 11 0

–,

encuentre una matriz invertible P tal que PTAP sea una matriz diagonal con las características que seestablecen en el teorema 3.44.

Se forma ahora la matriz:

[ A | I ] =

»0 1 1 01 0 0 1

–.

Se efectua, en las filas de la matriz, [ A | I ] la operación elemental MT ; sumar los elementos de lasegunda fila con los correspondientes elementos de la primera fila. Así se obtiene la matriz

[ MTA | MT I ] ,

luego se efectua la "misma" operación elemental en las columnas de la matrizMTA, para obtener la matriz:ˆMTAM | MT I

˜=ˆA′ | MT

˜,

Se tiene:

[ MTA | MT I ] =

»1 1 1 11 0 0 1

–y

[ A′ | MT ] =

»2 1 1 11 0 0 1

–59

3.3. Matrices simétricas Diagonalización de matrices

Ahora se realiza, en las filas de la matriz [ A′ | MT ], la operación elemental; ET1 ; multiplicar loselementos de la primera fila por α = − 1

2y sumar los resultados con los correspondientes elementos de la

segunda fila. Así se obtiene la matriz

[ ET1 A′ | ET1 M

T ] = [ A1 | B1 ] ,

luego se realiza la "misma" operación elemental en las columnas de la matriz A1, para obtener:

[ ET1 A′E1 | ET1 M

T ] = [ A′1 | B1 ] .

Se tiene:

[ A1 | B1 ] =

"2 1 1 1

0 −1

2−1

2

1

2

#y

[ A′1 | B1 ] =

"2 0 1 1

0 −1

2−1

2

1

2

#

Se efectua ahora en las filas de la matrizhA′1 | B1

ilas operaciones elementales; ET2 ; multiplicar los

elementos de la primera fila por α = 1√2, y, ET3 ; multiplicar los elementos de la segunda fila por β =

√2 .

Así se obtiene la matrizˆET3 E

T2 E

T1 A′E1 | ET3 E

T2 E

T1 M

=ˆA2 | B2

˜,

luego se realizan las "mismas" operaciones elementales en las columnas de la matriz A2, para obtener:

[ ET3 ET2 E

T1 A′E1E2E3 | ET3 E

T2 E

T1 M

T ] = [ A′2 | B2 ] .

Se tiene:

[ A2 | B2 ] =

26664√

2 01√2

1√2

0 − 1√2− 1√

2

1√2

37775 y

[ A′2 | B2 ] =

266641 0

1√2

1√2

0 −1 − 1√2

1√2

37775Así que la matriz invertible

PT = B2 = ET3 ET2 E

T1 M

T =

266641√2

1√2

− 1√2

1√2

37775es tal que

PTAP = D = A′3 =

24 1 0

0 −1

35 .Se puede decir, que la matriz A tiene un valor estrictamente positivo y un valor propio estrictamentenegativo.

60

Diagonalización de matrices 3.3. Matrices simétricas

3.3 Ejercicios

Para los ejercicios 1 al 7 responda verdadero o falso, justificando su respuesta:

1. Si A y B son matrices simétricas de orden n, entonces la matriz AB es simétrica.2. Sean A y B matrices simétricas de orden n. AB es simétrica sii AB = BA.3. Si P es una matriz ortogonal, entonces P−1 también es ortogonal.4. Si P es una matriz ortogonal, entonces PT también es ortogonal.5. Si P es una matriz ortogonal, entonces |P | = ±1.6. Una matriz P de tamaño n×n es ortogonal sii los vectores fila de P conforman una base ortonormal

de Rn.7. La matriz P =

»1 1−1 1

–es ortogonal.

En los ejercicios 8 al 1 demuestre la afirmación da correspondiente

8. Si λ es un valor propio de una matriz A, entonces la multiplicidad geométrica de λ es menor oigual que la multiplicidad algebraica de λ. (sugerencia: vea la demostración del teorema 3.37).

9. Sean A, B ∈ Mn×n, M =

»A BB A

–y P =

»In InIn −In

–a) Verifique que P−1 =

1

2P .

b) Calcule P−1MP y concluya que detM = det(A+B) · det(A−B).c) Use (b) para mostrar que

pM (λ) = det(M − λI) = det((A+B)− λI) · det((A−B)− λI) .

10. Si P y Q son matrices ortogonales, entonces PQ es una matriz ortogonal.11. Si Q1, Q2, . . . , Qm son matrices ortogonales, entonces la matriz

Q =

26664Q1 0 · · · 00 Q2 · · · 0...

.... . .

...0 0 · · · · · · Qm

37775 .es también ortogonal .

12. Sea x un λ-vector propio de A y sea y un β-vector propio de AT , donde λ 6= β, entonces x, y sonvectores ortogonales (sugerencia: vea la demostración del teorema 3.33).

13. Si A es una matriz simétrica idempotente n× n entonces:

ρ(A) = TrA =

nXi=1

nXj=1

(aij)2 .

(Sugerencia: Utilice el teorema 3.44 y el corolario 2.17)14. Sea a ∈ Mn×1 un vector no nulo. Entonces A = (aTa)−1aaT es una matriz simétrica de rango 1 y

es tal que A2 = A.15. Si A es una matriz simétrica tal que todos los valores propios son positivos, entonces existe una

matriz invertible M tal que A = MTM. (Sugerencia: utilice el teorema 3.44(1))16. Si A es una matriz simétrica tal que todos los valores propios son positivos, entonces existe una

matriz triangular superior e invertible, T , tal que A = TTT. (Sugerencia: utilice inducción sobre elorden n de la matriz A).

17. Si A es una matriz simétrica de orden n que tiene p valores propios positivos (p < n) y n−p valorespropios nulos, entonces existe una matriz no invertible M tal que A = MTM. (Sugerencia: utiliceel teorema 3.44(1)).

61

3.3. Matrices simétricas Diagonalización de matrices

18. Sean A, B matrices simétricas de igual orden. Suponga además que A2 = A y que los valorespropios de B son positivos, entonces:

ρ(ABA) = ρ(A) = TrA

(sugerencia: Utilice los ejercicios (15) y (13) y el Teorema 1.53(4)).19. Si A = [aij ]n×n es una matriz simétrica tal que

aii >

nX,j=1, j 6=i

|aij |

para todo i = 1, 2, . . . n, entonces todos los valores propios de A son positivos. (Sugerencia: supon-ga λ ≤ 0 es un valor propio de A y utilice el ejercicio (5) de la sección 3.2 para llegar a unacontradicción).

20. Para cada una de las siguientes matrices encuentre una matriz ortogonal P , tal que PTMP seauna matriz diagonal. Dé en cada caso TrM y ρ(A).

(i) M =

»1 −2−2 5

–(ii) M =

24 1 −1 0−1 0 0

0 0 1

35

(iii) M =

24 2 1 11 2 11 1 2

35 (iv) M =

24 1 −1 −1−1 1 −1−1 −1 1

35(v) M =

24 4 2 22 3 02 0 5

35 (vi) M =

24 4 4 24 4 22 2 1

3521. Para cada una de las siguientes matrices encuentre una matriz invertible Q, tal que QTMQ sea de

la forma 24 Ip 0 00 −Iη 00 0 0

35 .

(i) M =

24 1 −1 0−1 1 0

0 0 1

35 (ii) M =

24 0 1 11 −2 21 2 −1

35

(iii) M =

24 1 2 02 0 00 0 1

35 (iv) M =

24 1 0 −10 2 1−1 1 1

35

(v) M =

24 2 1 11 1 −11 −1 5

35 (vi) M =

24 1 2 −12 4 −2−1 −2 8

3522. Considere las matrices del ejercicio anterior:

a) Si QTMQ = I, encuentre una matriz invertible P, tal que M = PTP.

b) Si QTMQ =

»Ip 00 0

–, encuentre una matriz no invertible P, tal que M = PTP.

62

Diagonalización de matrices 3.4. Diagonalización simultánea

3.4. Diagonalización simultánea de matrices simétricas

En esta sección se verá un par de teoremas sobre diagonalización simultánea de matrices simétricas, los cualesson útiles en estadística. En particular el teorema 3.51 se utiliza en la demostración de la independencia dedos ciertas formas cuadráticas (ver teorema 4.5.3 de [4]).

3.49. Teorema (Diagonalización simultánea). Sean A y B matrices simétricas de orden n. Si todos losvalores propios de A son estrictamente positivos, entonces existe una matriz invertible Q tal que QTAQ = Iny QTBQ = D es una matriz diagonal. Además, los elementos de la diagonal de D, son las soluciones de laecuación |B − λA| = 0, las cuales son reales.

Demostración. Puesto que todos los valores propios de A son estrictamente positivos, se sigue delteorema 3.41, que existe una matriz invertible P tal que PTAP = In. Sea ahora C = PTBP. La matrizC es simétrica pues, CT = (PTBP )T = PTBTP= PTBP = C. Ahora bien, en virtud del teorema 3.32,existe una matriz ortogonal M tal que MTCM = D es una matriz diagonal con los valores propios de Cen su diagonal principal. En consecuencia:

MTPTAPM = MT InM = MTM = In

y

MTPTBPM = MTCM = D ;

esto es, la matriz Q = PM es tal que QTAQ = In y QTBQ = D es una matriz diagonal. De otro lado, comose ha expresado, los elementos de la diagonal de D son los valores propios de C, los cuales según el teorema3.32 son reales. Esto es, los elementos de la diagonal de D son la soluciones de la ecuación |C − λI| = 0.En vista de que la matriz P es invertible se tiene:

|C − λI| = |PTBP − λPTAP |

= |PT | |B − λA| |P | = 0

9=; sii |B − λA| = 0,

lo cual termina la demostración del teorema. �

3.50. Ejemplo. Considere las matrices simétricas

A =

24 1 0 00 4 20 2 2

35 y B =

24 5 4 44 8 −44 −4 −4

35 .Efectuando los cálculos correspondientes se encuentra que los valores propios de A son: λ1 = 1, λ2 = 3+

√5

y λ3 = 3−√

5, los cuales son estrictamente positivos y que la matriz invertible

P =

266641 0 0

01

2−1

20 0 1

37775es tal que

PTAP = I3 y C = PTBP =

24 5 2 22 2 −42 −4 2

35 .63

3.4. Diagonalización simultánea Diagonalización de matrices

Por el ejemplo 3.43 se sabe que

M =

26666666664

−1

3

2√5

2

3√

5

2

3

1√5− 4

3√

5

2

30

2

3√

5

37777777775es ortogonal y es tal que

MTCM = D =

24 −3 0 00 6 00 0 6

35 .En consecuencia, la matriz invertible

Q = PM =

26666666664

−1

3

2√5

2

3√

5

01

2√

5− 3

3√

5

2

30

5

3√

5

37777777775es tal que

QTAQ =

24 1 0 00 1 00 0 1

35 y QTBQ = D =

24 −3 0 00 6 00 0 6

35 .El siguiente teorema indica, que cuando dos matrices simétricas del mismo orden conmutan entre si, sepuede incluso encontrar una diagonalización simultánea ortogonal, en forma más precisa tenemos.

3.51. Teorema (Diagonalización ortogonal simultánea). Sean A y B matrices simétricas de orden n. AB =BA sii existe una matriz ortogonal P tal que PTAP y PTBP son matrices diagonales, cuyos elementos dela diagonal son respectivamente los valores propios de A y B.

Demostración. (=⇒) En virtud del teorema 3.41, existe una matriz ortogonal R tal que:

RTAR = D =

26664λ1Ik1 0 · · · 0

0 λ2Ik2 · · · 0...

.... . .

...0 0 . . . λmIkm

37775 ,donde los λi son los diferentes valores propios de A y ki es la multiplicidad geométrica (algebraica) del valorpropio λi, i = 1, 2, . . . ,m.

Sea ahora C = RTBR. Puesto que por hipótesis AB = BA, entonces

DC = RTARRTBR = RTBAR = RTBRRTAR = CD.

Particionando la matriz C convenientemente se puede escribir:

64

Diagonalización de matrices 3.4. Diagonalización simultánea

DC =

26664λ1Ik1 0 · · · 0

0 λ2Ik2 · · · 0...

.... . .

...0 0 · · · λmIkm

3777526664C11 C12 · · · C1m

C21 C22 · · · C2m

......

. . ....

Cm1 Cm2 · · · Cmm

37775

=

26664λ1C11 λ1C12 · · · λ1C1m

λ2C21 λ2C22 · · · λ2C2m

......

. . ....

λmCm1 λmCm2 · · · λmCmm

37775 ,

CD =

26664C11 C12 · · · C1m

C21 C22 · · · C2m

......

. . ....

Cm1 Cm2 · · · Cmm

3777526664λ1Ik1 0 · · · 0

0 λ2Ik2 · · · 0...

.... . .

...0 0 · · · λmIkm

37775

=

26664λ1C11 λ2C12 · · · λmC1m

λ1C21 λ2C22 · · · λmC2m

......

. . ....

λ1Cm1 λ2Cm2 · · · λmCmm

37775 .Ya que DC = CD y λi 6= λj , si i 6= j, entonces se tiene que Cij = 0, si i 6= j y por tanto

C =

26664C11 0 · · · 00 C22 · · · 0...

.... . .

...0 0 · · · · · · Cmm

37775 .Como la matriz C es simétrica, cada una de las matrices Cii, i = 1, 2 . . . ,m, es simétrica, por tanto existeuna matriz ortogonal Qi tal que QTi CiiQi = Di es una matriz diagonal. Sea a hora:

Q =

26664Q1 0 · · · 00 Q2 · · · · · · 0...

.... . .

...0 0 · · · · · · Qm

37775 .La matriz Q es ortogonal (véase ejercicio 11) y es tal que QTCQ = D∗ es una matriz diagonal. También setiene que QTDQ = D; es decir,

QTRTARQ = D y QTRTBRQ = D∗ .

Ya que las matrices R y Q son ortogonales, entonces la matriz P = RQ es ortogonal (vea el ejercicio 10) yes tal que PTAP y PTBP son matrices diagonales semejantes a A y a B respectivamente.

(⇐=) Supongamos que existe una matriz ortogonal P tal que PTAP = D1 y PTBP = D2 son matri-ces diagonales. Puesto que D1D2 = D2D1, entonces:

PTAPPTBP = PTBPPTAP ,

de donde AB = BA. �

3.52. Ejemplo. En este ejemplo se siguen los pasos hechos en la demostración del teorema anterior en elsentido (=⇒). La verificación de los cálculos numéricos queda a cargo del lector.

65

3.4. Diagonalización simultánea Diagonalización de matrices

Las matrices simétricas:

A =

26641 −1 0 0−1 1 0 0

0 0 1 00 0 0 1

3775 y B =

26641 0 0 00 1 0 00 0 2 −20 0 −2 5

3775son tales que AB = BA. Los valores propios de la matriz A son λ1 = 0 de multiplicidad algebraica k1 = 1,λ2 = 1 de multiplicidad algebraica k2 = 2 y λ3 = 2 de multiplicidad algebraica k3 = 1. La matriz ortogonal

R =

266666641/√

2 0 0 −1/√

2

1/√

2 0 0 1/√

2

0 1 0 0

0 0 1 0

37777775es tal que:

RTAR = D =

26640 0 0 0

0 1 0 00 0 1 0

0 0 0 2

3775 =

2664λ1I 0 0

0 λ2I 0

0 0 λ3I

3775y

RTBR = C =

26641 0 0 0

0 2 −2 00 −2 5 0

0 0 0 1

3775 =

2664C11 0 0

0 C22 0

0 0 C33

3775 .La matriz ortogonal

Q =

266666641 0 0 0

0 2/√

5 −1/√

5 0

0 1/√

5 2/√

5 0

0 0 0 1

37777775 =

2664Q1 0 0

0 Q2 0

0 0 Q3

3775 ,es tal que

QTCQ =

26641 0 0 00 1 0 00 0 6 00 0 0 1

3775 = QTRTBRQ = D∗

y

QTDQ =

26641 0 0 00 1 0 00 0 1 00 0 0 2

3775 = QTRTARQ = D .

En consecuencia, la matriz ortogonal

P = RQ =

266666641/√

2 0 0 −1/√

2

1/√

2 0 0 1/√

2

0 2/√

5 −1/√

5 0

0 1/√

5 2/√

5 0

3777777566

Diagonalización de matrices 3.4. Diagonalización simultánea

es tal que PTAP = D y PTBP = D∗ son matrices diagonales.

3.53. Corolario. Sean A1, A2, . . . , Ak matrices simétricas de orden n. Una condición necesaria y suficientepara que exista una matriz ortogonal P tal que PTAiP sea una matriz diagonal para cada i = 1, 2, . . . , k esque AiAj = AjAi para cada i y j; i, j = 1, 2, . . . , k.

Demostración. (=⇒) La demostración de esta parte del teorema se hará utilizando inducción sobreel número de matrices k. Para cuando k = 2 el corolario es cierto por el teorema anterior. Suponga ahoraque el corolario es cierto para cuando k = s; se quiere demostrar que el corolario es cierto para cuandok = s+ 1. Sean pues A1, A2, . . . , As+1 matrices simétricas de orden n tales que AiAj = AjAi para cada iy j; i, j = 1, 2, . . . , s+ 1. Por el teorema 3.41 existe una matriz ortogonal R tal que

RTA1R = D =

26664λ1Ik1 0 · · · 0

0 λ2Ik2 · · · 0...

.... . .

...0 0 · · · λmIkm

37775 ,donde los λτ , τ = 1, 2, . . . ,m, son los diferentes valores propios de A1 y kτ es la multiplicidad geométrica(algebraica) del valor propio λτ .

Ahora, para cada i (i = 2, 3, . . . , s + 1), se toma la matriz Ci = RTAiR. Puesto que por hipótesisA1Ai = AiA1, entonces

CiD = RTAiRRTA1R = RTAiA1R = RTA1AiR

= RTA1RRTAiR = DCi ,

para i = 2, 3, . . . , s+ 1. De esto se sigue que:

Ci =

26664Ci1 0 · · · 00 Ci2 · · · 0...

.... . .

...0 0 · · · · · · Cim

37775 , i = 2, 3, . . . , s+ 1 .

Ahora, como AiAj = AjAi para todo i y todo j; i, j = 2, 3, . . . , s+ 1, entonces:

CiCj = RTAiRRTAjR = RTAiAjR

= RTAjAiR = RTAjRRTAiR = CjCi .

De esto se sigue que para cada τ, τ = 1, 2, . . . ,m.

CiτCjτ = CjτCiτ .

De otra parte, como la matriz Ci es simétrica, entonces la matriz Ciτ es simétrica para cada i = 2, 3 . . . , s+1y cada τ = 1, 2, . . . ,m. Por lo anterior y por la hipótesis de inducción; para cada τ , existe una matrizortogonal Qτ tal que

QTi CiτQi = Dτ

es una matriz diagonal. Sea ahora:

Q =

26664Q1 0 · · · 00 Q2 · · · 0...

.... . .

...0 0 · · · Qm

37775 .La matriz Q es ortogonal y es tal que QTCiQ = D∗i es una matriz diagonal. También se tiene que QTDQ =D. Así que:

QTRTAiRQ = D∗i , i = 2, 3 . . . , s+ 1, y QTRTA1RQ = D∗ .

67

3.4. Diagonalización simultánea Diagonalización de matrices

Puesto que R y Q son matrices ortogonales, entonces la matriz P = RQ es ortogonal. En consecuencia, lamatriz ortogonal P es tal que PTAiP es una matriz diagonal para i = 2, 3 . . . , s+ 1.

(Necesidad:) Supongamos ahora que existe una matriz ortogonal P tal que PTAiP = Di es una ma-triz diagonal para cada i = 1, 2, . . . , k. Puesto que DiDj = DjDi, para todo i y todo j, i, j = 1, 2, . . . , k,entonces

PTAiPPTAjP = PTAjPP

TAiP,

de donde se tiene que AiAj = AjAi para todo i y todo j; i, j = 1, 2, . . . , k. �

3.54. Ejemplo. Las matrices simétricas

A1 =

»2 11 2

–, A2 =

»3 44 3

–y A3 =

»5 66 5

–son tales que AiAj = AjAi, i = 1, 2.

La matriz ortogonal

R =1√2

24 1 1

−1 1

35es tal que

RTA1R = D1 =

»1 00 3

RTA2R = D2 =

»−1 0

0 7

RTA3R = D3 =

»−1

11

–,

es decir, la matriz ortogonal R diagonaliza de manera simultánea a las matrices A1, A2 y A3.

3.4 Ejercicios

1. Si A y B son dos matrices simétricas invertibles de igual orden tales que AB = BA, demuestreentonces existe una matriz ortogonal P tal que PTAP, PTBP, PTABP, PTAB−1P, PTA−1BP yPTA−1B−1P son matrices diagonales.

2. Sean A =

24 1 −2 −3−2 5 5−3 5 11

35 y B =

24 1 −4 −1−4 14 4−1 4 6

35a) Verifique que todos los valores propios de A son positivos, encontrando una matriz invertible

P tal que PTAP = I.b) En una matriz invertible M tal que MTAM = I y MTBM = D sea una matriz diagonal.

3. Considere la matrices

S1 =

24 1 −2 0−2 5 0

0 0 4

35 , S2 =

24 2 −3 0−3 6 0

0 0 −4

3568

Diagonalización de matrices 3.4. Diagonalización simultánea

S3 =

24 3 −2 0−2 −2 0

0 0 8

35a) Verifique que todos los valores propios de S1 son positivos, encontrando una matriz invertible

P tal que PTS1P = I.b) Haga A = PTS2P y B = PTS3P .. Verifique que AB = BA y encuentre una matriz ortogonal

Q tal que QTAQ = D1 y QTBQ = D2 son matrices diagonales.c) Concluya que la matriz invertible M = PQ, siendo P y Q como antes, es tal que MTS1M = I

y MTAM = D1 y MTBM = D2 son matrices diagonales.

69

CAPÍTULO 4

Formas cuadráticas

Este capítulo consta de tres secciones. En la primera sección se introduce el concepto de Forma cuadráticay sus respectivas clasificaciones (según el signo de los elementos del rango) en formas cuadráticas positiva-mente (negativamente) definidas, formas cuadráticas positivamente (negativamente) semidefinidas y formascuadráticas indefinidas. La segunda sección versa sobre cambio de variables y diagonalización de formascuadráticas. En esta sección se utilizan los resultados de las secciones 3.3 y 3.4. En la tercera sección damosalgunos criterios para clasificar las formas cuadráticas según el signo de los valores propios.

4.1. Clasificación de las formas cuadráticas.

Las formas cuadráticas juegan un papel importante en las aplicaciones del álgebra lineal, particularmente,en la teoría de modelos lineales (véase el capítulo 4 de [4]). Ellas se clasifican de acuerdo al signo que tomensus respectivas imágenes en: positivas, no negativas, negativas, no positivas e indefinidas como se verá másadelante.

4.1. Definición. Sean aij para i, j = 1, 2, . . . , n, números reales dados. Una forma cuadrática en Rn esuna función q : Rn → R de la forma

(4.1) q[(x1, x2, . . . , xn)] =

nXi=1

nXj=1

aijxixj .

En términos matriciales, dicha forma cuadrática se puede expresar mediante

(4.2) q (x) = xTAx, siendo x =

26664x1

x2

...xn

37775 ∈ Rn.

Ahora bien, puesto que para la matriz simétrica S, S = 12(A+AT ), se satisface

xTSx = xT1

2(A+AT )x =

1

2(xTAx + xTATx)

=1

2

hxTAx + (xTAx)T

i=

1

2(xTAx + xTAx)

= xTAx ,

en la definición anterior, (4.1) puede darse usando matrices simétricas así:

(4.3) q (x) = xTSx .

Observamos entonces, que una forma cuadrática se puede expresar matricialmente de varias maneras. Sinembargo, se puede demostrar (ejercicio 4.1), que existe una única representación en términos de matricessimétricas, S = 1

2(A+AT ), para cada forma cuadrática q(x) = xTAx.

71

4.1. Clasificación Formas cuadráticas

Nota. Con respecto a las formas cuadráticas se puede anotar que:1. En la definición 4.1 sólo aparecen términos cuadráticos (de orden 2) de la forma aijxixj. De aquí

el calificativo de cuadrática.2. Se pueden considerar sólo matrices simétricas. En este sentido, en lo que sigue, al hacer referencia

a una forma cuadrática xTSx, siempre S denotará una matriz simétrica. Dicha matriz simétricase denomina, matriz de la forma cuadrática.

4.2. Ejemplo. De las siguientes funciones definidas sobre R3 y con recorrido en R, solamente la primera,q1, representa a una forma cuadrática

q1 (x1, x2) = 3x1x1 + 4x1x2 + 2x2x1 + 5x2x2 ,

q2 (x1, x2) = 3x1x1 + 4x21x2 + 2x2x1 + 5x2x2 ,

q3 (x1, x2) = 3x1x1 + 4√x1x2 + 2x2x1 + 5x2x2 .

Dicha forma cuadrática se puede representar matricialmente como

q1 (x1, x2) = xTAx =ˆx1 x2

˜ » 3 42 5

– »x1

x2

–,

o en términos de matrices simétricas

q1 (x1, x2) = xTSx =ˆx1 x2

˜ » 3 33 5

– »x1

x2

–4.3. Definición. Sea xTSx una forma cuadrática en Rn. El conjunto

Img(S) =nxTSx : x ∈ Rn

o=

nr ∈ R : r = xTSx para algún x ∈ Rn

ose denomina recorrido o conjunto imagen de la forma cuadrática xTSx.

Una forma cuadrática xTSx se puede clasificar según su recorrido, Img(S), de acuerdo con la definiciónsiguiente.

4.4. Definición. Se dice que una forma cuadrática xTSx es:

1. Positivamente definida, si xTSx > 0 para todo x 6= 0.2. Negativamente definida, si xTSx < 0 para todo x 6= 0.3. Positivamente semidefinida, si xTSx ≥ 0 para todo x 6= 0, y existe un x∗ 6= 0 tal que x∗TSx = 0.4. Negativamente semidefinida, si xTSx ≤ 0 para todo x 6= 0, y existe un x∗ 6= 0 tal que x∗TSx = 0.5. Indefinida, si existen vectores no nulos x1 y x2 tales que xT1 Sx1 > 0 y xT2 Sx2 < 0, respectivamente.6. No negativa, si es positivamente definida o positivamente semidefinida.7. No positiva, si es negativamente definida o negativamente semidefinida.

4.5. Observación. La forma cuadrática q1(x) = xTSx es negativamente definida (semidefinida) sii laforma cuadrática q2(x) = xT (−S)x es positivamente definida (semidefinida).

4.6.Definición. Se dice que una matriz simétrica S es positivamente (negativamente) definida (semidefini-da), indefinida o no negativa, si la forma cuadrática q(x) = xTSx lo es.

4.7. Ejemplo. Considere las siguientes tres formas cuadráticas en R3

q1 (x1, x2, x3) = x21 + 2x2

2 + 3x23

q2 (x1, x2, x3) = x21 + 2x1x2 + x2

2 + x23

q3 (x1, x2, x3) = x21 − 2x2

2 + 3x23

72

Formas cuadráticas 4.1. Clasificación

Para la forma cuadrática q1 : R3 → R se tiene:

q1 (x1, x2, x3) = x21 + 2x2

2 + 3x23

=ˆx1 x2 x3

˜ 24 1 0 00 2 00 0 3

3524 x1

x2

x3

35= xTS1x.

Puesto que xTS1x > 0 para todo x 6= 0, entonces q1 es positivamente definida.

Para la forma cuadrática q2 : R3 → R se tiene:

q2 (x1, x2, x3) = x21 + 2x1x2 + x2

2 + x23 = (x1 + x2)2 + x2

3

=ˆx1 x2 x3

˜ 24 1 1 01 1 00 0 1

3524 x1

x2

x3

35= xTS2x.

Puesto que xTS2x ≥ 0 para todo x 6= 0, y dado que para x∗ =ˆ

1 −1 0˜T se tiene que x∗TS2x = 0,

entonces q2 es positivamente semidefinida.

Para la forma cuadrática q3 : R3 → R se tiene:

q3 (x1, x2, x3) = x21 − 2x2

2 + 3x23

=ˆx1 x2 x3

˜ 24 1 0 00 −2 00 0 3

3524 x1

x2

x3

35= xTS3x.

Dado que x1 =ˆ

1 0 1˜T y x2 =

ˆ0 2 1

˜T son vectores tales que xT1 S3x1 = 4 > 0 y xT2 S3x2 =−5 < 0, entonces q3 es una forma cuadrática indefinida.

4.1 Ejercicios

En los ejercicios 1 al 8 responda verdadero o falso justificando su respuesta.

1. Sea M una matriz cuadrada de orden n. Si xTMx = 0 para todo x ∈ Rn entonces M = 0.2. Si la matriz S es indefinida, entonces la matriz −S es indefinida.3. Si S es una matriz simétrica tal que S2 = S, entonces S es no negativa.4. Si S1 y S2 son matrices positivamente definidas (semidefinidas) entonces la matriz

S =

»S1 00 S2

–es positivamente definidas (semidefinidas).

5. Si S1 y S2 son matrices positivamente definidas de igual orden tales que S1S2 = S2S1, entonces lamatriz S = S1S2 es positivamente definida.

6. Sea S =

»a bb c

–. Si a > 0 y c > 0, entonces S es positivamente semidefinida.

7. Si S1 y S2 son matrices positivamente definidas de igual orden, entonces la matriz S = S1 + S2 espositivamente definida.

73

4.2. Cambios de variable y diagonalización Formas cuadráticas

8. Si S1 y S2 son matrices indefinidas de igual orden, entonces la matriz S = S1 + S2 es indefinida.

En los ejercicios 9 al 16 demuestre la afirmación correspondiente

9. Para cada forma cuadrática q : Rn → R existe una única matriz simétrica S de orden n tal que:

q [x] = xTSx, con xT = [ x1 x2 · · · xn ].

10. Para cualquier matriz cuadrada A, las matrices S1 = ATA y S2 = AAT son no negativas.11. Para cualquier matriz cuadrada n×n, A, se tiene: ρ(A) = n sii la matriz S = ATA es positivamente

definida.12. Para cualquier matriz cuadrada n×n, A, se tiene: ρ(A) < n sii la matriz S = ATA es positivamente

semidefinida.13. Si la matriz S es positivamente definida entonces la matriz S−1 es positivamente definida.14. Si la matriz S es no negativa, entonces los elementos de la diagonal de S son no negativos.15. Si S1 y S2 son matrices simétricas de igual orden tales S2

1 + S22 = 0 entonces S1 = S2 = 0.

(sugerencia: considere xT (S21 + S2

2)x).16. Si S es una matriz positivamente definida, entonces existe una matriz invertible T triangular

superior tal que S = TTT (Sugerencia: utilice inducción sobre el orden n, de la matriz S).

4.2. Cambio de variable. Diagonalización de formas cuadráticas

El objetivo de esta sección es continuar la discusión sobre la clasificación de formas cuadráticas peromediante la introducción de cambios de variables adecuados. Se pretende con dichos cambios de variables,que la nueva representación de las formas cuadráticas tengan una estructura más sencilla, en algún sentido.Los resultados de esta sección, son corolarios de aquellos obtenidos en las secciones 3.3 y 3.4. En tal sentido,se omitirán sus demostraciones y se limitará a dar la referencia del resultado correspondiente en dichassecciones.

4.8. Definición (Cambio de variable). Sea q : Rn → R una forma cuadrática una definida por

(4.1) q(x) = xTSx. x ∈ Rn

y sea P una matriz invertible n× n. Se entiende como un cambio de variable para la forma cuadrática q, ala transformación x = Py o y = P−1x.

Observación. En la definición anterior, P es una matriz invertible, entonces la transformación y→ x =P y es biunívoca. Esto es, un y ∈ Rn determina un único x ∈ Rn y viceversa. Hecho un tal cambio devariables, se tiene:

(4.2) xTSx = yTPTSPy = yTBy donde B = PTSP .

Se puede interpretar el cambio de variable x = Py (P invertible) como la transformación lineal biyectiva:

P : Rn → Rn

y → x = Py .

así que (q ◦ P ) : Rn → R define una nueva forma cuadrática

q∗(y) = (q ◦ P )(y) = q(Py) = yTPTSPy = yTBy,

que se relaciona con la forma cuadrática q por medio de las igualdades (4.2).

74

Formas cuadráticas 4.2. Cambios de variable y diagonalización

4.9. Ejemplo. Sea q : R3 → R la forma cuadrática definida por

q[(x1, x2, x3)] = x21 + 4x1x2 − 6x1x3 + 5x2

2 − 8x2x3 + 8x23.

Para esta forma cuadrática se puede escribir

q[(x1, x2, x3)] = xTSx =ˆx1 x2 x3

˜ 24 1 2 −32 5 −4−3 −4 8

3524 x1

x2

x3

35 .Ahora, si se hace el cambio de variables:

y =

24 y1y2y3

35 = P−1x =

24 1 2 −30 1 20 0 1

3524 x1

x2

x3

35=

24 x1 + 2x2 − 3x3

x2 + 2x3

x3

35se encuentra que:

xTSx = yTPTSPy = yTBy donde

B = PTSP =

24 1 0 0−2 1 0

7 −2 1

3524 1 2 −32 5 −4−3 −4 8

3524 1 −2 70 1 −20 0 1

35=

24 1 0 00 1 00 0 −5

35 .Por lo tanto,

xTSx = yTBy =ˆy1 y2 y3

˜ 24 1 0 00 1 00 0 −5

35 24 y1y2y3

35= y2

1 + y22 − 5y2

3 ,

es decir,

xTSx = x21 + x1x2 − 6x1x3 + 5x2

2 − 8x2x3 + 8x23

= y21 + y2

2 − 5y23

dondey1 = x1 + 2x2 − 3x3, y2 = x2 + 2x3, y y3 = x3 .

Claramente es más fácil estudiar la expresión yTBy = y21 + y2

2 − 5y23 , que la expresión xTSx = x2

1 + x1x2−6x1x3 + 5x2

2 − 8x2x3 + 8x23. Por ejemplo, una simple inspección permite ver, que la expresión yTBy =

y21 +y2

2−5y23 toma valores tanto positivos como negativos, tomando respectivamente y1 6= 0, y2 6= 0, y3 = 0,

y y1 = 0, y2 = 0, y3 6= 0. Lo que no es claro para la expresión xTSx.

4.10. Definición. Dada una forma cuadrática xTSx, si el cambio de variables y = P−1x es tal quexTSx = yTPTSPy = yTDy, donde D es una matriz diagonal, entonces se dice que el cambio de variablesy = P−1x diagonaliza la forma cuadrática xTSx.

4.11. Observación. El problema de encontrar un cambio de variables y = P−1x que diagonalice la formacuadrática xTSx se reduce a encontrar una matriz invertible P tal que PTSP = D sea una matriz diagonal.

La demostración del siguiente resultado, es una consecuencia del teorema 3.41.

75

4.2. Cambios de variable y diagonalización Formas cuadráticas

4.12. Teorema. Para toda forma cuadrática xTSx existe una matriz ortogonal Q tal, que el cambio devariables y = Q−1x = QTx la diagonaliza. Además Q tiene como columnas un conjunto ortonormal devectores propios de la matriz S y

xTSx = yTQTSQy = yTDy

=ˆy1 y2 · · · yn

˜26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

3777526664y1y2...yn

37775= λ1y

21 + λ2y

22 + . . .+ λny

2n ,

donde los λi, i = 1, 2, . . . , n son los valores propios de la matriz S.

4.13. Ejemplo. Sea q : R3 → R la forma cuadrática definida por:

q [(x1, x2, x3)] = xTSx =ˆx1 x2 x3

˜ 24 1 1 11 1 11 1 1

3524 x1

x2

x3

35= x2

1 + 2x1x2 + 2x1x3 + x22 + 2x2x3 + x2

3 .

Según el teorema 3.41, existe una matriz ortogonal Q tal que QTSQ = D es una matriz diagonal con losvalores propios de S en la diagonal. Después de efectuar los cálculos pertinentes, se encuentra, que losvalores propios de S son 0 (con multiplicidad 2) y 3 (con multiplicidad 1), y que la matriz ortogonal:

Q =

24 −1/√

2 −1/√

5 1/√

3

1/√

2 −1/√

5 1/√

3

0 2/√

5 1/√

3

35es tal que

QTSQ = D =

24 0 0 00 0 00 0 3

35 .Por lo tanto, el cambio de variables y = Q−1x diagonaliza la forma cuadrática xTSx, obteniéndose:

xTSx = yTQTSQy = yTDy

=ˆy1 y2 y3

˜ 24 0 0 00 0 00 0 3

35 24 y1y2y3

35 = 3y23 .

El siguiente teorema está estrechamente relacionado con el literal (1) del teorema 3.44 y plantea la existenciade un cambio de variable ligado al signo de los valores propios de la matriz de la forma cuadrática.

4.14. Teorema. Sea xTSx una forma cuadrática sobre Rn. Si la matriz S tiene ρ (0 ≤ p ≤ n) val-ores propios, no necesariamente diferentes, estrictamente positivos y η (0 ≤ η ≤ n) valores propios, nonecesariamente diferentes, estrictamente negativos, entonces existe un cambio de variables y = P−1x quediagonaliza la forma cuadrática xTSx, obteniéndose:

xTSx = yTPTSPy = yTDy

=ˆy1 y2 · · · yn

˜ 24 Ip 0 00 −Iη 00 0 0

3526664y1y2...yn

37775= y2

1 + y22 + . . .+ y2

p − y2p+1 − y2

p+2 − . . .− y2p+η .

76

Formas cuadráticas 4.2. Cambios de variable y diagonalización

4.15. Ejemplo. Sea q : R3 → R la forma cuadrática definida por:

q (x) = xTSx

=ˆx1 x2 x3

˜ 24 1 1 11 0 21 2 0

3524 x1

x2

x3

35= x2

1 + 2x1x2 + 2x1x3 + 4x2x3 .

Los valores propios de S son λ1 = 3, λ2 = −2 y λ3 = 0. Por el teorema 3.44(1) , existe una matriz invertibleP tal que:

PTSP = D =

24 1 0 00 −1 00 0 0

35 .Efectuando los cálculos del caso se encuentra que la matriz invertible

P =

24 1 −1 −20 1 10 0 1

35sirve para tal efecto. Por lo tanto, el cambio de variables y = P−1x diagonaliza la forma cuadrática xTSx,obteniéndose:

xTSx = yTPTSPy

= yTDy

=ˆy1 y2 y3

˜ 24 1 0 00 −1 00 0 0

35 24 y1y2y3

35 = y21 − y2

2 .

El teorema siguiente, plantea un criterio para la existencia de un cambio de variables que diagonalicesimultáneamente a dos formas cuadráticas. Su demostración se obtiene de la diagonalización simultánea dematrices simétricas (teorema 3.49).

4.16. Teorema. Sean q1(x) = xTS1x y q2(x) = xTS2x dos formas cuadráticas en Rn. Si todos los valorespropios de S1 son estrictamente positivos, entonces existe un cambio de variables y = Q−1x que diagonalizasimultáneamente las formas cuadráticas q1(x) = xTS1x y q2(x) = xTS2x obteniéndose:

xTS1x = yTQTS1Qy = yT Iy = y21 + y2

2 + . . .+ y2n

y

xTS2x = yTQTS2Qy

= yTDy

=ˆy1 y2 · · · yn

˜26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

3777526664y1y2...yn

37775= λ1y

21 + λ2y

22 + . . .+ λny

2n ,

donde los λi, i = 1, 2, . . . , n son las soluciones de la ecuación |S2 − λS1| = 0, las cuales son reales.

El siguiente ejemplo ilustra dicho resultado.

77

4.2. Cambios de variable y diagonalización Formas cuadráticas

4.17. Ejemplo. Sean q1 : R3 → R y q2 : R3 → R las formas cuadráticas definidas por:

q1 (x) = xTS1x =ˆx1 x2 x3

˜ 24 1 0 00 4 20 2 2

3524 x1

x2

x3

35= x2

1 + 4x22 + 4x2x3 + 2x2

3 ,

q2 (x) = xTS2x =ˆx1 x2 x3

˜ 24 5 4 44 8 −44 −4 − 4

3524 x1

x2

x3

35= 5x2

1 + 8x1x2 + 8x1x3 + 8x22 − 8x2x3 − 4x2

3 .

Por el ejemplo 3.50 se sabe que los valores propios de S1 son: λ1 = 1, λ2 = 3 +√

5 y λ3 = 3−√

5, los cualesson estrictamente positivos y que la matriz invertible

Q =

26666666664

−1

3

2√5

2

3√

5

01

2√

5− 3

3√

5

2

30

5

3√

5

37777777775es tal que

QTS1Q = I3 y QTS2Q = D =

24 −3 0 00 6 00 0 6

35 .Por lo tanto, el cambio de variables y = Q−1x diagonaliza simultáneamente las formas cuadráticas xTS1xy xTS2x obteniéndose:

xTS1x = yTQTS1Qy = yT I3y = y21 + y2

2 + y23

y

xTS2x = yTQTS2Qy

= yTDy

=ˆy1 y2 y3

˜ 24 −3 0 00 6 00 0 6

3524 y1y2y3

35= −3y2

1 + 6y22 + 6y2

3 .

Los siguientes dos resultados están relacionados de manera muy cercana con el teorema 3.51 y el corolario3.53 respectivamente, ellos brindan condiciones necesarias y suficientes bajo las cuales se puede hablar dediagonalización ortogonal simultánea de dos o más formas cuadráticas. En forma más precisa se tiene:

4.18.Teorema (Diagonalización ortogonal simultánea). Considere en Rn las dos formas cuadráticas q1(x) =xTS1x y q2(x) = xTS2x. S1S2 = S2S1 sii existe una matriz ortogonal P tal que el cambio de variables

78

Formas cuadráticas 4.2. Cambios de variable y diagonalización

y = P−1x = PTx diagonaliza simultáneamente las formas cuadráticas xTS1x y xTS2x obteniéndose:

xTS1x = yTPTS1Py = yTD1y

=ˆy1 y2 · · · yn

˜26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

3777526664y1y2...yn

37775= λ1y

21 + λ2y

22 + . . .+ λny

2n ,

y

xTS2x = yTPTS2Py = yTD2y

=ˆy1 y2 · · · yn

˜26664β1 0 · · · 00 β2 · · · 0...

.... . .

...0 0 · · · βn

3777526664y1y2...yn

37775= β1y

21 + β2y

22 + . . .+ βny

2n ,

donde los λi, i = 1, 2, . . . , n son los valores propios de S1 y los βi, i = 1, 2, . . . , n son los valores propios deS2.

4.19. Corolario. Sean xTS1x, xTS2x, . . . , xTSkx formas cuadráticas en Rn. Una condición necesariay suficiente para que exista una matriz ortogonal P tal que el cambio de variables y = P−1x = PTxdiagonalice simultáneamente las formas cuadráticas xTS1x, xTS2x, . . . , xTSkx es que SiSj = SjSi paratodo i y todo j; i, j = 1, 2, . . . , k.

4.20. Ejemplo. Sean q1 : R4 → R y q2 : R4 → R las formas cuadráticas definidas por:

q1 (x) = xTS1x

=ˆx1 x2 x3 x4

˜ 26641 −1 0 0−1 1 0 0

0 0 1 00 0 0 1

37752664x1

x2

x3

x4

3775= x2

1 − 2x1x2 + x22 + x2

3 + x24 ,

q2 (x) = xTS2x

=ˆx1 x2 x3 x4

˜ 26641 0 0 00 1 0 00 0 2 −20 0 −2 5

37752664x1

x2

x3

x4

3775= x2

1 + x22 + 2x2

3 − 4x3x4 + 5x24 .

79

4.2. Cambios de variable y diagonalización Formas cuadráticas

Dado que las matrices S1 y S2 corresponden respectivamente a las matrices A y B del ejemplo 3.52 se sabeque, S1S2 = S2S1 y que la matriz ortogonal

P =

266666641/√

2 0 0 −1/√

2

1/√

2 0 0 1/√

2

0 2/√

5 −1/√

5 0

0 1/√

5 2/√

5 0

37777775es tal que

PTS1P = D1 =

26640 0 0 00 1 0 00 0 1 00 0 0 2

3775 y PTS2P = D2 =

26641 0 0 00 1 0 00 0 6 00 0 0 1

3775 .Por lo tanto, el cambio de variable y = P−1 x diagonaliza simultáneamente las formas cuadráticasxTS1x y xTS2x obteniéndose:

xTS1x = yTPTS1Py = yTD1y

= y22 + y2

3 + y24 ,

xTS2x = yTPTS2Py = yTD2y

= y21 + y2

2 + 6y23 + y2

4 .

4.21. Ejemplo. Considere las formas cuadráticas en R2 :

q1 (x) = xTS1x =ˆx1 x2

˜ » 2 11 2

– »x1

x2

–= 2x2

1 + 2x1x2 + 2x22

q2 (x) = xTS2x =ˆx1 x2

˜ » 3 44 3

– »x1

x2

–= 3x2

1 + 8x1x2 + 3x22

q3 (x) = xTS3x =ˆx1 x2

˜ » 5 66 5

– »x1

x2

–= 5x2

1 + 12x1x2 + 5x22

Del ejemplo 3.54 se tiene, que SiSj = SjSi, i = 1, 2, 3 y que la matriz ortogonal

P = 1√2

»1 1−1 1

–es tal que

PTS1P = D1 =

»1 00 3

–, PTS2P = D2 =

»−1 0

0 7

–y

PTS3P = D3 =

»−1 0

0 11

–.

Por lo tanto, el cambio de variable y = P−1x diagonaliza simultáneamente las formas cuadráticas xTS1x, xTS2x

y xTS3x, obteniéndose:

xTS1x = yTPTS1Py =ˆy1 y2

˜ » 1 00 3

– »y1y2

–= y2

1 + 3y22

xTS2x = yTPTS2Py =ˆy1 y2

˜ » −1 00 7

– »y1y2

–= −y2

1 + 7y22

xTS3x = yTPTS3Py =ˆy1 y2

˜ » −1 00 11

– »y1y2

–= −y2

1 + 11y22

80

Formas cuadráticas 4.2. Cambios de variable y diagonalización

4.2 Ejercicios

En los ejercicios 1 al 2 responda verdadero o falso justificando su respuesta.

1. Si S es una matriz simétrica tal que S3 = S, entonces S es no negativa.2. Si S1 y S2 son matrices positivamente definidas de igual orden tales que S1S2 = S2S1, entonces la

matriz S = S1S2 es positivamente definida .

En los ejercicios 3 al 4 demuestre cada afirmación.

3. Si la matriz S = [sij ]n×n es positivamente semidefinida y si sii = 0, entonces los elementos de lai-ésima fila y de la i-ésima columna de S son nulos.

4. Si S = [sij ]n×nes una matriz simétrica tal que:

sii >

nXj=1, j 6=i

|sij |, para i = 1, 2 . . . , n,

entonces S es positivamente definida (sugerencia: vea el problema 19 de la sección de ejercicios3.3).

5. Para cada una de las formas cuadráticas xTSx siguientes encuentre un cambio de variable que ladiagonalice:a) xTSx = x2

1 + 4x1x2 − 2x22

b) xTSx = x21 + 2

√2x1x2 + 4x2

2 + x23

c) xTSx = x21 + 4x1x2 − 2x1x3 + 4x2

2 − 4x2x3 + 8x23

d) xTSx = x21 + 4x1x2 + 6x1x3 − 2x2x3 + x2

3

e) xTSx =2

3x2

1 + 2

√2

3x1x3 + x2

2 +1

3x2

3

f ) xTSx = x21 − 2x1x3 + 2x2

2 + 2x2x3 + 2x23

6. Considere las dos formas cuadráticas:

xTS1x = x21 + 4x1x2 + 5x2

2 + 2x2x3 + 2x23, y

xTS2x = x21 + 2x1x2 − 2x1x3 + x2

2 − 2x2x3 + 2x23.

a) Encuentre, si existe, un cambio de variable y = M−1x que diagonalice simultáneamente.b) Encuentre, si existe, un cambio de variable y = Q−1x, (Q una matriz ortogonal), que diago-

nalice de manera ortogonal y simultánea.7. Resuelva el problema anterior para las formas cuadráticas:

xTS1x = x21 − 2x1x2 + 2x2

2, yxTS2x = 2x2

1 + 4x1x2.

8. Sea S =

»2 11 2

–.

a) Verifique que la matriz S es positivamente definida.b) Encuentre un vector a2×1 y un número α, tales que la matriz

S∗ =

»S aaT α

–sea positivamente definida.

81

4.3. Formas positivas definidas Formas cuadráticas

4.3. Formas cuadráticas positivas, negativas e indefinidas.

En esta sección se hará uso la discusión previa sobre cambios de variables con el objeto de introducir algunoscriterios de clasificación de formas cuadráticas. Tales criterios estarán dados en términos de los signos devalores propios de la matriz de la forma cuadrática.

Como se recordará de la sección anterior, toda matriz invertible P ∈ Mn×n, junto con el cambio de variablex = Py ó y = P−1x (x, y ∈ Rn), permite reescribir la forma cuadrática q(x) = xTSx en términos de lavariable y, mediante la expresión q∗(y) = yTBy, donde B = PTSP. Esto es, para dicho cambio de variablese tiene

q(x) = xTSx = yTBy = q∗(y), con x = Py, P invertible.De esto se sigue entonces, que q(·) y q∗(·) tienen la misma imagen, es decir,

{xTSx : x ∈ Rn} = {yTBy : y ∈ Rn} .El siguiente resultado relaciona las clasificaciones de dichas formas cuadráticas. La verificación de éste sedeja a cargo del lector.

4.22. Teorema. Sea q(x) = xTSx una forma cuadrática en Rn y sea P una matriz invertible n × n.Sea además q∗(y) = yTBy, donde B = PTSP , la forma cuadrática generada por el cambio de variabley = P−1x. Entonces se tiene:

1. q(x) = xTSx es positivamente (respectivamente, negativamente) definida sii q∗(y) = yTBy espositivamente (respectivamente, negativamente) definida.

2. q(x) = xTSx es positivamente (respectivamente, negativamente) semidefinida sii q∗(y) = yTByes positivamente (respectivamente, negativamente) semidefinida.

3. q(x) = xTSx es indefinida sii q∗(y) = yTBy es indefinida.

El siguiente teorema relaciona el signo de las formas cuadráticas con el signo de los valores propios de lamatriz simétrica que define dicha forma cuadrática.

4.23. Teorema. Sea xTSx una forma cuadrática en Rn, S 6= 0.

1. xTSx es positivamente definida sii todos los valores propios de S son estrictamente positivos.2. xTSx es positivamente semidefinida sii S tiene p (0 < p < n) valores propios estrictamente positivos

y el resto de valores propios de S son nulos.3. xTSx es indefinida sii S tiene valores propios estrictamente positivos y valores propios estricta-

mente negativos.

Demostración. De acuerdo con el teorema 4.12, una forma cuadrática q(x) = xTSx, con S unamatriz simétrica, es ortogonalmente diagonalizable. Es decir, existe una matriz ortogonal Q y un cambiode variable y = Q−1x = QTx, tal que

(4.1) xTSx = yTQTSQy = yTDy = λ1y21 + λ2y

22 + . . .+ λny

2n ,

donde los λi, i = 1, 2, . . . , n son los valores propios de la matriz S, y

D = QTSQ = diag( λ1, λ2, . . . , λn ) .

Supongamos ahora, que la forma cuadrática q(x) = xTSx es positivamente definida. Entonces por el teo-rema 4.22(1), q∗(y) = yTDy es también positivamente definida, esto es, q∗(y) = yTDy > 0 para todoy 6= 0. De (4.1) se tiene entonces que λ1 > 0, λ2 > 0, . . . , λ2 > 0. Es decir, todos los valores propios de Sson estrictamente positivos.

82

Formas cuadráticas 4.3. Formas positivas definidas

De otro lado, si todos los valores propios de S son estrictamente positivos, entonces existe un cambiode variable y = P−1x (teorema 4.14), tal que

xTSx = yTPTSPy = yTy = y21 + y2

2 + . . .+ y2n .

Puesto que yTy > 0 para todo y 6= 0, entonces xTSx > 0, para todo x 6= 0. Esto es, la forma cuadráticaxTSx, es positivamente definida, lo que demuestra el inciso (1) de nuestro teorema.

Supongamos ahora, que la forma cuadrática q(x) = xTSx es positivamente semidefinida. Por el inciso (2)del teorema 4.22, la forma cuadrática q∗(y) = yTDy es también positivamente semidefinida. Esto es, setiene que q∗(y) = yTDy ≥ 0 para todo y ∈ Mn×1 y existe un y∗ 6= 0 tal que y∗TDy∗ = 0. Usando (4.1) setiene entonces, que los valores propios de S son no negativos y que por lo menos uno de ellos es nulo. Es de-cir, S tiene p (0 < p < n) valores propios estrictamente positivos y el resto de valores propios de S son nulos.

Finalmente, supongamos que la matriz S de la forma cuadrática, xTSx, tiene p valores propios estric-tamente positivos, con 0 < p < n, y (n− p) valores propios nulos. Por el teorema 4.14 existe un cambio devariable y = P−1x tal que

xTSx = yTPTSPy = yTDy = y21 + y2

2 + . . .+ y2p .

por hipótesis, yTDy ≥ 0 para todo y ∈ Mn×1. No es difícil sin embargo ver, que para y∗ ∈ Mn×1 dado por

y∗ =

266640p×1

1...1

37775n×1

=

2666666664

0...01...1

3777777775n×1

,

se tiene y∗TDy∗ = 0. Esto quiere decir, que q∗(y) = yTDy es positivamente semidefinida y por consiguiente,q(x) = xTSx también lo es, lo que demuestra el inciso (2) de nuestro teorema. �

El resultado correspondiente a formas indefinidas se plantea como un ejercicio para el lector.

4.24. Ejemplo. El presente ejemplo pretende ilustrar el teorema 4.23 a través de tres formas cuadráticas,q(x) = xTSx, definidas en R3.

1. La forma cuadrática q(x) = xTSx definida por:

q(x) = 5x21 + 4x2

2 + 2√

3x2x3 + 6x23

=ˆx1 x2 x3

˜ 24 5 0 0

0 4√

3

0√

3 6

3524 x1

x2

x3

35= xTSx

es positivamente definida, pues los valores propios de la matriz S son: λ1 = 5, λ2 = 3 y λ3 = 7, loscuales son estrictamente positivos.

83

4.3. Formas positivas definidas Formas cuadráticas

2. La forma cuadrática q(x) = xTSx definida por:

q(x) = x21 + 2x1x2 − 4x1x3 + 2x2

2 − 4x2x3 + 4x23

=ˆx1 x2 x3

˜ 24 1 1 −21 2 −2−2 − 2 4

3524 x1

x2

x3

35= xTS x

es positivamente semidefinida, pues los valores propios de la matriz S son: λ1 = 7+√

232

, λ2 = 7−√

232

y λ3 = 0.

3. La forma cuadrática q(x) = xTSx definida por:

q(x) = x21 − 4x1x2 + 2x2

2 − 4x2x3 + 3x23

=ˆx1 x2 x3

˜ 24 1 − 2 0− 2 2 −2

0 − 2 3

3524 x1

x2

x3

35= xTSx

es indefinida, pues los valores propios de S son: λ1 = −1, λ2 = 2 y λ3 = 5.

4.25. Teorema. Sea xTSx una forma cuadrática en Rn.

1. xTSx es positivamente definida sii existe una matriz invertible Q tal que S = QTQ.2. xTSx es positivamente semidefinida sii existe una matriz no invertible Q tal que S = QTQ.

Demostración. La siguiente argumentación corresponde sólo a la demostración del inciso (1). El otrose verifica análogamente y se deja como ejercicio.

Suponga que la forma cuadrática xTSx es positivamente definida, entonces todos los valores propios de Sson estrictamente positivos (teorema 4.23(1)), además, existe una matriz invertible P tal que PTSP = I(teorema 3.44(1)). De ésto se sigue, que S = (PT )−1P−1 = QTQ, donde Q = P−1.

Suponga ahora que existe una matriz invertible Q tal que S = QTQ. Puesto que Q es invertible, en-tonces Qx 6= 0 para todo vector no nulo x. De esto se sigue, que xTSx = xTQTQx = (Qx)T (Qx) > 0, paratodo x 6= 0. ésto es, la forma cuadrática xTSx es positivamente definida. �

4.26. Ejemplo.

1. La forma cuadrática q : R3 → R definida por:

q(x) = 4x21 + x2

2 − 4x2x3 + 5x23

=ˆx1 x2 x3

˜ 24 4 0 00 1 −20 − 2 5

3524 x1

x2

x3

35= xTSx

es positivamente definida, pues los valores propios de la matriz S son λ1 = 4, λ2 = 3 +√

5 yλ3 = 3−

√5, los cuales son estrictamente positivos.

84

Formas cuadráticas 4.3. Formas positivas definidas

Efectuando los cálculos pertinentes se encuentra que la matriz invertible

Q =

24 2 0 00 1 −20 0 1

35 , es tal queS =

24 4 0 00 1 −20 −2 5

35 = QTQ.

2. La forma cuadrática q : R3 → R definida por:

q(x) = x21 + 2x1x2 + 2x1x3 + x2

2 + 2x2x3 + x23

=ˆx1 x2 x3

˜ 24 1 1 11 1 11 1 1

3524 x1

x2

x3

35= xTSx

es positivamente semidefinida, pues los valores propios de la matriz S son λ1 = 0, λ2 = 0 y λ3 = 3.

Efectuando los cálculos pertinentes se encuentra que la matriz no invertible

Q =

24 1 1 10 0 00 0 0

35 , es tal que S =

24 1 1 11 1 11 1 1

35 = QTQ.

El siguiente teorema da un criterio para clasificar matrices simétricas como positivamente definidas o nega-tivamente definidas, en términos de los determinantes de la propia matriz y de algunas de sus submatrices.Cuando haya peligro de confusión con la función valor absoluto en el caso de matrices de tamaño 1× 1, esdecir escalares, se escribirá det(·) en lugar de |·|.

4.27. Teorema. Considere una matriz simétrica S de orden n.

S =

26664s11 s12 · · · s1ns21 s22 · · · s2n...

.... . .

...sn1 sn2 · · · snn

37775 .Defina ahora la secuencia de matrices

Sn = S, Sn−1 =

26664s11 s12 · · · s1(n−1)

s21 s22 · · · s2(n−1)

......

. . ....

sn1 sn2 · · · sn(n−1)

37775 , . . .

S2 =

»s11 s12s21 s22

–y S1 = [s11] .

Entonces:

1. La forma cuadrática q(x) = xTSx es positivamente definida si y sólo si |S1| > 0, |S2| > 0, |S3| >0, . . .|Sn| > 0.

2. La forma cuadrática q(x) = xTSx es negativamente definida si y sólo si |S1| < 0, |S2| > 0, |S3| <0, . . .(−1)n|Sn| > 0.

85

4.3. Formas positivas definidas Formas cuadráticas

Demostración. Se presenta aquí sólo la demostración de la parte (1), la otra se deja como ejercicio.Para efectos de dicha demostración se toma la convención de que xk representará un vector abitrario en Rkpara todo índice k.

(⇐=). En primer lugar se demuestra; que si la forma cuadrática xTj Sjxj definida sobre Rj , para 2 ≤ j ≤ n, espositivamente definida, entonces la forma cuadrática xTj−1Sj−1xj−1, es positivamente definida sobre Rj−1.En efecto, para todo xj−1 6= 0 se tiene que:

xTj Sjxj =ˆ

xTj−1 0˜ » Sj−1 s

sT sjj

– »xj−1

0

–= xTj−1Sj−1xj−1 > 0.

En segundo lugar, si la forma cuadrática xTj Sjxj , definida sobre Rj (2 ≤ j ≤ n), es positivamente definida,entonces existe una matriz invertible Qj tal que Sj = QTj Qj , de donde |Sj | = |QTj | |Qj | = |Qj |2 > 0 (teore-ma 4.25(1))

Estas dos observaciones permiten concluir que si la forma cuadrática xTSx es positivamente definida en-tonces |S1| > 0, |S2| > 0, |S3| > 0, . . .|Sn| > 0.

(=⇒) La demostración de esta implicación se hará usando inducción sobre n.

Cuando n = 1, S1 = [s11]. Ahora, por hipótesis det(S1) = s11 > 0 y xT1 S1x1 = s11x21 > 0 para todo

x1 6= 0. Esto es, la forma cuadrática xT1 S1x1 es positivamente definida.

Suponga ahora que la implicación es válida para cuando n = k; se necesita entonces verificar, que laimplicación es válida para n = k + 1. Sea pues S = Sn una matriz simétrica de orden n = k + 1 tal que|Sn| = |Sk+1| > 0, |Sn−1| = |Sk| > 0, . . . |S2| > 0 y |S1| > 0. Por hipótesis de inducción, la forma cuadráti-ca xTk Skxk en Rk es positivamente definida. Existe entonces una matriz invertible Qk tal que Sk = QTkQk(teorema 4.25(1)). Ahora, por el teorema 2.6(2) se tiene que:

|Sk+1| =

˛Sk ssT s(k+1)(k+1)

˛= |Sk| · det

`s(k+1)(k+1) − sTS−1

k s´

= |Sk| · det(αk).

Aquí se ha introducido la sustitución αk = s(k+1)(k+1) − sTS−1k s para simplificar un poco la escritura,

además se tiene que det(αk) = αk > 0 puesto que |Sk+1| > 0 y |Sk| > 0. Sea ahora

Qk+1 =

24 Qk (QTk )−1s

0√αk

35La matriz Qk+1 es invertible y es tal que:

Sk+1 =

»Sk ssT s(k+1)(k+1)

=

24 QTk 0

sT (Qk)−1√αk

35×24 Qk (QTk )−1s

0√αk

35= QTk+1 ·Qk+1 .

Por lo tanto, en virtud del literal (1) del teorema 4.25 la forma cuadrática xTk+1Sk+1xk+1, definida sobreRk+1 es positivamente definida. �

86

Formas cuadráticas 4.3. Formas positivas definidas

4.28. Ejemplo.

1. La forma cuadrática xTSx, donde:

S =

24 4 2 22 5 12 1 4

35es positivamente definida, pues:

det(S1) = 4 > 0, |S2| =˛

4 22 5

˛= 16 > 0 y

|S3| =

˛˛ 4 2 2

2 5 12 1 4

˛˛ = 20 > 0.

2. La forma cuadrática xTSx, donde:

S =

24 −3 2 02 −4 20 2 −5

35es negativamente definida, pues:

det(S1) = −3 < 0, |S2| =˛−3 2

2 −4

˛= 8 > 0 y

|S3| =

˛˛ −3 2 0

2 −4 20 2 −5

˛˛ = −28 < 0.

4.29. Nota. Sea S = [aij ]n×n una matriz simétrica y sean S1, S2, . . . , Sn las matrices que aparecen en elenunciado del teorema anterior. Las condiciones |S1| ≥ 0, |S2| ≥ 0, |S3| ≥ 0, . . .|Sn| ≥ 0 no implican que laforma cuadrática xTSx sea positivamente semidefinida. Por ejemplo, la matriz

S =

24 1 1 21 1 22 2 1

35es tal que

det(S1) = 1, |S2| =˛

1 11 1

˛= 0

y

|S3| =

˛˛ 1 1 2

1 1 22 2 1

˛˛ = 0.

Sin embargo, la forma cuadrática xTSx no es positivamente definida, pues el vector x∗T =ˆ−2 0 1

˜es tal que x∗TSx∗ = −3 < 0.

4.3 Ejercicios

Para cada uno de los siguientes problemas haga una demostración de la afirmación correspondiente

1. La matriz S =

»a bb c

–es negativamente definida sii a < 0 y ac− b2 > 0.

87

4.3. Formas positivas definidas Formas cuadráticas

2. Si S es positivamente definida de orden n, a un vector n×1 y α un número real tal que α > aTSa,entonces la matriz

S∗ =

»S aaT α

es positivamente definida (Sugerencia: utilice el teorema 4.27(1)).3. Si S es una matriz positivamente definida, entonces existe una matriz invertible T triangular

superior tal que S = TTT (Sugerencia: utilice inducción sobre el orden n, de la matriz S).4. Si S es una matriz positivamente, entonces TrS > 0. (Sugerencia: utilice el teorema 4.25(1)).5. Si S es una matriz positivamente semidefinida, entonces TrS ≥ 0. (Sugerencia: utilice el teorema

4.25(2)).6. Si S1 y S2 son matrices positivamente definidas de igual orden, entonces Tr(S1S2) > 0 (Sugerencia:

utilice el teorema 4.25(1)).7. Si S1 y S2 son matrices positivamente semidefinidas de igual orden, entonces Tr(S1S2) > 0 (Sug-

erencia: utilice el teorema 4.25(2)).8. La matriz

Hn =

»1

i+ j + 1

–i = 0, . . . , n− 1j = 0, . . . , n− 1

=

266666666666666666664

11

2

1

3· · · 1

n

1

2

1

3

1

4· · · 1

n+ 1

1

3

1

4

1

5· · · 1

n+ 2

......

.... . .

...

1

n

1

n+ 1

1

n+ 2· · · 1

2n− 1

377777777777777777775

llamada usualmente matriz de Hilbert (de orden n), es positiva definida. Sugerencia: Muestre quepara cada vector x ∈ Rn, xT = [x0 x1 · · · xn−1] se tiene que

xTHnx =

0

(x0 + x1t+ · · ·+ xn−1tn−1)2 dt

=

0

(

n−1Xi,j=0

xixj ti+j) dt .

88

Formas cuadráticas 4.4. Anexo 1

9. Sean t1, t2, . . . , tn números reales tales que 0 < t1 < t2 < · · · < tn < 1. Entonces la matriz

W = [mın {ti, tj}] i = 1, . . . , nj = 1, . . . , n

=

266666664

t1 t1 t1 t1 · · · t1t1 t2 t2 t2 · · · t2t1 t2 t3 t3 · · · t3t1 t2 t3 t4 · · · t4...

......

.... . .

...t1 t2 t3 t4 · · · tn

377777775es positiva definida. Sugerencia: Muestre que para cada vector x ∈ Rn, xT = [x1 x2 · · · xn] se

tiene que xTWx =1

0

f2(s) ds, donde f(s) =nPi=1

xi 1[0,ti](s). Aquí 1[0,ti](·) representa la función

característica sobre el intervalo cerrado [0, ti], esto es,

1[0,ti](s) =

8><>:1 si s ∈ [0, ti]

0 si s /∈ [0, ti]

10. Para cada una de las formas cuadráticas xTSx del ejercicio 5 de la sección 4.2 haga:a) Clasifíquela como positivamente definida (semidefinida), negativamente definida (semidefinida)

o indefinida.b) Para aquellas que sean positivamente definidas, encuentre una matriz invertible Q tal que

S = QTQ.c) Para aquellas que sean positivamente semidefinidas, encuentre una matriz no invertible Q tal

que S = QTQ.

4.4. Anexo: Matrices no negativas. Matrices idempotentes

Las matrices no negativas, y, en particular, las matrices idempotentes, aparecen con frecuencia en la teoríay en las aplicaciones de los modelos lineales. El propósito de este anexo es el recopilar los aspectos másimportantes de este tipo de matrices.

No se presentarán las demostraciones de aquellos resultados que ya han sido demostrados en las seccionesanteriores o que fueron propuestos como ejercicios.

4.4.1. Matrices no negativas.

4.30. Definición. Sea S una matriz simétrica:

1. S es positivamente definida, si xTSx > 0 para todo x 6= 0.2. S es positivamente semidefinida, si xTSx ≥ 0 para todo x 6= 0, y existe un x∗ 6= 0 tal que

x∗TSx∗ = 0.3. S es no negativa, si S es positivamente definida o si S positivamente semidefinida.

4.31. Teorema. Sea S una matriz simétrica n× n. Las siguientes afirmaciones son equivalentes:

1. S es positivamente definida.2. Para cada matriz invertible P de orden n, la matriz PTSP es positivamente definida.3. Todos los valores propios de S son estrictamente positivos.

89

4.4. Anexo 1 Formas cuadráticas

4. Existe una matriz invertible P de orden n, tal que PTSP = In .5. Existe una matriz invertible Q de orden n, tal que S = QTQ.6. Existe una matriz invertible triangular superior n× n, T , tal que S = TTT.7. S es invertible y S−1 es positivamente definida.

8. |s11| > 0,

˛s11 s12s21 s22

˛> 0,

˛˛ s11 s12 s13s21 s22 s23s31 s32 s33

˛˛ > 0, . . . , |S| > 0.

4.32. Teorema. Sea S una matriz simétrica n× n. Si se cumple que

sii >

nXj=1, j 6=i

|sij |, para i = 1, 2 . . . , n,

entonces S es positivamente definida.

4.33. Teorema. Sea S una matriz simétrica n× n. Si S es positivamente definida, entonces,

1. ρ(S) = n.2. sii > 0 para i = 1, 2, . . . , n.

4.34. Teorema. Sean S1 y S2 matrices simétricas de igual orden y sean α1, α2 números reales positivos.Si S1 y S2 son positivamente definidas, entonces la matriz S = α1S1 + α2S2 es positivamente definida.

4.35. Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1 es positivamente definida, entoncesexiste una matriz invertible Q tal que QTS1Q = I y QTS2Q = D, donde D es una matriz diagonal real,cuyos elementos en la diagonal las soluciones de la ecuación |S2 − λS1| = 0.

4.36. Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1 y S2 son positivamente definidasy si S1S2 = S2S1, entonces la matriz S = S1S2 es positivamente definida.

4.37. Teorema. Sean S1 y S2 matrices simétricas de orden n. Si S1 es positivamente definida, entoncesexiste un α > 0 tal que S = S1 + αS2 es positivamente definida.

Demostración. Si S2 = 0 entonces para cualquier α > 0 se tiene que la matriz S = S1 + αS2 espositivamente definida. Supongamos entonces que S2 6= 0. Por el teorema 4.35, existe una matriz invertibleQ tal que QTS1Q = In y QTS2Q = D, donde D es una matriz diagonal. Digamos que

D =

26664d11 0 · · · 00 d22 · · · 0...

.... . .

...0 0 · · · dnn

37775 .Puesto que S2 6= 0, entonces al menos un elemento de la diagonal de D es diferente de cero. Sea ahora αun número tal que:

0 < α < mındii 6=0

{1/dii} .

De esto se sigue que: 1 + αdii > 0 para i = 1, 2, . . . , n y que la matriz I + αD es positiva definida. Enconsecuencia, por el teorema 4.31, la matriz

(Q−1)T [I + αD]Q−1 = S1 + αS2 = S

es positivamente definida. �

4.38. Teorema. Sea S una matriz simétrica de orden n. Si S es positivamente definida, entonces para cadapar de vectores x, y ∈ Mn×1 se tiene

(xTy)2 ≤ (xTSx)(yTS−1y) .

90

Formas cuadráticas 4.4. Anexo 1

Demostración. Puesto que S es positivamente definida, por el teorema 4.31, existe una matriz inver-tible Q tal que S = QTQ. De aquí que S−1 = Q−1(QT )−1. Ahora, por la desigualdad de Schwarz (ver elteorema 1.30) para cada par de vectores x, y ∈ Mn×1 se tiene˛˙

Qx, (QT )−1y¸˛2 ≤ ‚‚Q x

‚‚2‚‚(QT )−1y‚‚2,

o sea:

(xTQT (QT )−1y)2 ≤ (xTQTQx) (yTQ−1(Q−1)Ty) ,

esto es,(xTy)2 ≤ (xTSx) (yTS−1y).

4.39. Teorema. Sean S1 y S2 matrices simétricas de orden n. Sean además λ1 ≤ λ2 ≤ · · · ≤ λn, lassoluciones de la ecuación |S2 − λS1| = 0. Si S1 es positiva definida, entonces para cada x 6= 0 se tiene que

λ1 ≤xTS2x

xTS1x≤ λn.

Demostración. Puesto que S1 es positiva definida, existe una matriz invertible Q, tal que QTS1Q =In y QTS2Q = D es una matriz diagonal real, cuyos elementos en la diagonal son las soluciones de laecuación |S2 − λS1| = 0 (ver teorema 4.35). Más aún, se puede escoger Q tal que

QTS2Q = D =

26664λ1 0 · · · 00 λ2 · · · 0...

.... . .

...0 0 · · · λn

37775 ,donde λ1 ≤ λ2 ≤ · · · ≤ λn. Ahora, si se toma y = Q−1x, entonces:

xTS1x = yTQTS1Qy = yT Iny = y21 + y2

2 + · · ·+ y2n,

yxTS2x = yTQTS2Qy = yTDy = λ1y

21 + λ2y

22 + · · ·+ λny

2n.

Por lo tanto, para cada x 6= 0:

xTS2x

xTS1x=λ1y

21 + λ2y

22 + · · ·+ λny

2n

y21 + y2

2 + · · ·+ y2n

.

De esto se sigue que para cada x 6= 0 :

λ1 ≤xTS2x

xTS1x≤ λn .

4.40. Teorema. Sea S una matriz simétrica de orden n. Las afirmaciones siguientes son equivalentes:

1. S es positivamente semidefinida.2. Para cada matriz P , n× n, PTSP es positivamente semidefinida.3. S tiene p (0 ≤ p < n) valores propios positivos (estrictamente) y n− p valores propios nulos.4. Existe una matriz invertible P de orden n, tal que

PTSP =

»Ip 00 0

–; 0 ≤ p < n.

5. Existe una matriz n× n no invertible Q, tal que S = QTQ.

91

4.4. Anexo 1 Formas cuadráticas

4.41. Teorema. Sea S = [sij ]n×n una matriz simétrica de orden n. Si S es positivamente semidefinida,entonces

1. ρ(S) < n.2. sii ≥ 0 para i = 1, 2, . . . , n. Además, si sii = 0, entonces los elementos de la i-ésima fila y de la

i-ésima la columna de S son nulos.

4.42.Teorema. Sean S1 y S2 matrices simétricas de igual orden. Si S1 y S2 son positivamente semidefinidas,S2 es no negativa y S1S2 = S2S1, entonces la matriz S = S1S2 es positivamente semidefinida.

4.43. Teorema. Sean S1 y S2 matrices simétricas de igual orden y sean α1, α2 números reales positivos. SiS1 y S2 son positivamente semidefinidas, entonces la matriz S = α1S1+α2S2 es positivamente semidefinida.

4.44. Teorema. Sea A una matriz n× n de rango ρ(A) = r, entonces:

1. ATA y AAT son matrices no negativas.2. ATA es positivamente definida sii r = n.3. ATA es positivamente semidefinida sii r < n.

4.45. Teorema. Sean S1 y S2 matrices simétricas de orden n.

1. Si S1 y S2 son matrices no negativas, entonces:a) TrS1 ≥ 0b) TrS1 = 0 sii S1 = 0c) Tr(S1S2) ≥ 0d) Tr(S1S2) = 0 sii S1S2 = 0

2. Si S1 y S2 son matrices positivamente definidas, entonces:a) TrS1 > 0b) Tr(S1S2) > 0.

4.46. Teorema. Sean S1, S2, . . . , Sk matrices simétricas de orden n.

1. Si S1, S2, . . . , Sk son no negativas, entonces:a) Tr

“Pki=1 Si

”=Pki=1 Tr (Si) ≥ 0

b) Tr“Pk

i=1 Si”

= 0 sii S1 = S2 = . . . = Sk = 0.

c)kXj=1

kXi=1

Tr (SiSj) ≥ 0, ykXj=1

kXi=1, i 6=j

Tr (SiSj) ≥ 0.

d)kXj=1

kXi=1, i6=j

Tr (SiSj) = 0 sii SiSj = 0 para todo i 6= j.

2. Si S1, S2, . . . , Sk son matrices positivamente definidas, entonces:a) Tr

“Pki=1 Si

”=Pki=1 Tr (Si) ≥ 0

b)kXj=1

kXi=1

Tr (SiSj) > 0 ykXj=1

kXi=1, i6=j

Tr (SiSj) > 0.

4.47. Teorema. Sea S una matriz simétrica n×n tal que S2 = S. Sean además S1, S2, . . . , Sk son matricesno negativas de orden n. Si

In = S +

kXi=1

Si ,

entonces SSi = SiS = 0 para todo i = 1, 2, . . . , k.

92

Formas cuadráticas 4.4. Anexo 1

Demostración. Por el teorema 4.44(1) la matriz S = S2 = STS es no negativa, y por el teorema4.45(1) Tr (SSi) ≥ 0 para i = 1, 2, . . . , k. Ahora; premultiplicando los dos miembros de la igualdad:

In = S +

kXi=1

Si ,

por la matriz S, se obtiene

S = S2 +

kXi=1

S Si = S +

kXi=1

S Si .

De esto se sigue que:kXi=1

SSi = 0 y Tr

kXi=1

S Si

!=

kXi=1

Tr (S Si) = 0 .

En consecuencia, Tr (SSi) = 0 y por ende S · Si = 0, para i = 1, 2, . . . , k. (ver teorema 4.45(1)). Ademásse se tiene que Si · S = STi · ST = (S · Si)T = 0. �

4.48. Teorema. Sean S1 y S2 matrices simétricas de orden n. Si S1 es no negativa o S2 es no negativa,entonces las soluciones de la ecuación |S1S2 − λI| = 0 son reales.

Demostración. Supongamos que S1 es una matriz no negativa de rango r ≤ n. Entonces existe unamatriz invertible P tal que:

PTS1P =

»Ir 00 0

–.

Sea ahora C = P−1S2(PT )−1 =

»C11 C12

C21 C22

–, donde C11 es una matriz r×r. Puesto que C es una matriz

simétrica, entonces C11 es una matriz simétrica y por lo tanto las soluciones de la ecuación |C11 − λIr| = 0son reales.

Ahora; |S1S2 − λIn| = 0 sii˛PT˛˛S1S2 − λIn

˛˛(PT )−1

˛=˛PTS1S2(PT )−1 − λIn

˛= 0 .

Puesto que:

PTS1S2(PT )−1 = PTS1PP−1S2(PT )−1

=

»Ir 00 0

– »C11 C12

C21 C22

–=

»C11 C12

0 0

–,

entonces

˛PTS1S2(PT )−1 − λIn

˛=

˛˛ C11 − λIr C12

0 −λIn−r

˛˛

=˛C11 − λIr

˛˛−λIn−r

˛.

De aquí que las soluciones de la ecuación |S1S2 − λIn| = 0, son las soluciones de la ecuación |C11 − λIr| ·| − λIn−r| = 0, las cuales son reales . �

93

4.4. Anexo 1 Formas cuadráticas

4.4.2. Matrices idempotentes.

4.49. Definición. Una matriz A cuadrada de orden n es idempotente, si satisface que A2 = A.

4.50. Teorema. Sea A una matriz idempotente n× n de rango r:

1. Si r = n, entonces A = In.2. Si A es simétrica y r < n, entonces A es positiva semidefinida.

1. Si r = n, entonces A es invertible. Premultiplicando por A−1 los dos miembros de la igualdadA2 = A, se obtiene A = In.a) Si A es simétrica y r < n, entonces por el teorema 4.44(3), la matriz A = A2 = ATA es

positivamente semidefinida.

4.51. Teorema. Sea A una matriz idempotente n × n. Si λ es un valor propio de A, entonces λ = 0 óλ = 1.

4.52. Teorema. Si S es una matriz simétrica idempotente, entonces:

1. Para cada matriz ortogonal Q, la matriz S∗ = QTSQ es una matriz simétrica idempotente.2. La matriz S∗ = Sn, n = 1, 2, . . . , es simétrica idempotente.3. La matriz S∗ = I − 2S, es una matriz simétrica ortogonal.

4.53. Teorema. Si S es una matriz simétrica tal que Sn+1 = Sn para algún n ∈ N, entonces S es unamatriz idempotente.

Demostración. Sea P una matriz ortogonal tal que PTSP = D es una matriz diagonal con los val-ores propios de S en la diagonal.

Puesto que Sn+1 = Sn, entonces:

Dn+1 = (PTSP )n+1 = PTSn+1P

= PTSnP = Dn .

De esto se sigue, que cada elemento de la diagonal de D es 1 ó 0. Por lo tanto, D2 = D, a sea:

D2 = PTS2P = PTSP = D,

puesto que P es invertible, se tiene entones que S2 = S. �

4.54. Teorema. Si S una matriz simétrica idempotente n× n, entonces:

ρ(S) = TrS = Tr“STS

”=

nXi=1

nXj=1

s2ij .

4.55. Teorema. Si S es una matriz simétrica idempotente n × n. Si sii = 0 ó sii = 1, entonces cadaelemento de la fila i y cada elemento de la columna i de S es nulo.

Demostración. Puesto que S es una matriz simétrica idempotente, entonces:

sii =

nXk=1

sikski =

nXk=1

s2ik .

Por lo tanto, si sii = 0 o si sii = 1, se tienenX

k=1, k 6=i

s2ik = 0 ,

es decir, si1 = si2 = · · · = si(i−1) = si(i+1) = sin = 0. �

94

Formas cuadráticas 4.4. Anexo 1

4.56. Teorema. Sean S1, S2, . . . , Sk matrices simétricas de orden n, y sea además S =

kXi=1

Si. Entonces

dos de las condiciones siguientes implican la tercera:

a) S2 = S.b) Si = S2

i , i = 1, 2, . . . , k .c) SiSj = 0 si i 6= j; i, j = 1, 2, . . . , k.

Demostración. Supongamos que las condiciones a) y b) se satisfacen. Por la condición a) se tiene:

S2 = (

kXi=1

Si)2 =

kXi=1

S2i +

kXj=1

kXi=1, i 6=j

Si Sj

=

kXi=1

Si = S,

y por la condición b), se tiene:kXi=1

S2i =

kXi=1

Si,

y por lo tanto:kXj=1

kXi=1, i 6=j

Si Sj = 0.

De aquí que Tr` kXj=1

kXi=1, i 6=j

Si Sj´

= 0.

Puesto que cada Si es una matriz simétrica idempotente, entonces Si, para i = 1, 2, . . . , k, es no nega-tiva (teorema 4.50), además se tiene que que SiSj = 0 si i 6= j; i, j = 1, 2, . . . , k (ver teorema 4.46). Demanera que las condiciones a) y b) implican la condición c).

Supongamos ahora que las condiciones a) y c) se satisfacen. Se tiene entonces que:

S = S2 = (

kXi=1

Si)2 =

kXi=1

S2i ,

o sea,kXi=1

Si =kXi=1

S2i .

Premultiplicando cada miembro de la última igualdad por Sj , j = 1, 2, . . . , k, se tiene que:

SjSj = SjS2j ,

o sea:S2j = S3

j ,

pues SiSj = 0 si i 6= j; i, j = 1, 2, . . . , k. Por el teorema 4.53, se concluye que Sj es una matriz simétricaidempotente, j = 1, 2, . . . , k. Así, las condiciones a) y c) implican la condición b).

95

4.4. Anexo 1 Formas cuadráticas

Por último, si las condiciones b) y c) se satisfacen, entonces

S2 = (

kXi=1

Si)2 =

kXi=1

S2i +

kXj=1

kXi=1, i 6=j

SiSj

=

kXi=1

Si = S;

esto es, la condición a) se satisface. �

4.57. Teorema. Sean S1, S2, . . . , Sk matrices simétricas idempotentes de orden n, de rangos η1, η2, . . . , ηk.Sea Sk+1 una matriz no negativa de orden n. Si I =

Pk+1i=1 Si, entonces Sk+1 es una matriz simétrica

idempotente de orden n−Pki=1 ηi, y SiSj = 0 para i 6= j; i, j = 1, 2, . . . , k.

Demostración. Puesto que las matrices Si para i = 1, 2, . . . , k, son idempotentes, entonces:

S2k+1 = (I −

kXi=1

Si)2

= I − 2

kXi=1

Si +

kXi=1

S2i +

kXj=1

kXi=1, i 6=j

Si Sj

= I −kXi=1

Si +

kXj=1

kXi=1, i6=j

Si Sj

= Sk+1 +

kXj=1

kXi=1, i6=j

Si Sj .

De otro lado, como Sk+1 = I −Pki=1 Si, entonces:

S2k+1 = Sk+1 −

kXi=1

Si Sk+1.

En consecuencia:

Sk+1 +

kXj=1

kXi=1, i 6=j

Si Sj = Sk+1 −kXi=1

Si Sk+1.

De esto se sigue:

kXj=1

kXi=1, i6=j

Si Sj +

kXi=1

Si Sk+1 = 0,

por lo tanto,

Tr` kXj=1

kXi=1, i 6=j

Si Sj +

kXi=1

Si Sk+1

´= 0.

Puesto que las matrices S1, S2, . . . , Sk son simétricas idempotentes, entonces por el teorema 4.50, las ma-trices S1, S2, . . . , Sk son no negativas. Por hipótesis se tiene que también la matriz Sk+1 es no negativa. Asíque SiSj = 0 para i 6= j; i, j = 1, 2, . . . , k, k + 1 (teorema 4.46(1)).

96

Formas cuadráticas 4.4. Anexo 1

Ahora bien, puesto que I2 = I =Pk+1i=1 Si, se sigue del teorema anterior que, S2

i = Si para i = 1, 2, . . . , k+1y por lo tanto, Tr (Si) = ρ (Si) (ver teorema 4.54). Así:

ρ (Si) = Tr (Si) = Tr`I −

kXi=1

Si´

= Tr (I )−kXi=1

Tr (Si)

= n−kXi=1

ρ (Si)

= n−kXi=1

ηi.

que es lo que se quería demostrar. �

4.58. Teorema. Sean S1, S2, . . . , Sk matrices no negativas de orden n, y sea S =Pki=1 Si. Si S

2 = S yTrS ≤ Tr

`Pki=1 S

2i

´, entonces:

a) S2i = Si para i = 1, 2, . . . , k.

b) SiSj = 0 para i 6= j; i, j = 1, 2, . . . , k.

Demostración. Puesto que S = S2;

S =

kXi=1

S2i +

kXj=1

kXi=1, i 6=j

SiSj .

De aquí que:

Tr` kXj=1

kXi=1, i 6=j

SiSj´

= TrS − Tr` kXi=1

S2i

´≤ 0.

Ya que las matrices S1, S2, . . . , Sk son no negativas, entonces b) se satisface. Esta condición, junto con lahipótesis de que S2 = S implican entonces la validez de la condición a), (ver teorema 4.56). �

4.59. Teorema. Sea S una matriz simétrica de orden n. Si ρ(S) = r, entonces S puede escribirse en laforma:

S =

rXi=1

λiSi,

donde: STi = Si, S2i = Si, SiSj = 0 si i 6= j, ρ(Si) = 1 y los λi son los valores propios no nulos de la matriz

S; i, j = 1, 2, . . . , k.

Demostración. Existe una matriz ortogonal Q tal que:

QTSQ =

»D 00 0

–, ó S = Q

»D 00 0

–QT

Donde D es una matriz diagonal de orden r con los valores propios no nulos de la matriz S en su diagonal.De aquí que:

97

4.4. Anexo 1 Formas cuadráticas

S = [Q1 Q2 · · · Qn]

2666666666664

λ1 0 · · · 0 0 · · · 00 λ2 · · · 0 0 · · · 0...

.... . .

...... · · ·

...0 0 · · · λr 0 · · · 00 0 · · · 0 0 · · · 0...

......

......

. . .0 0 · · · 0 0 · · · 0

3777777777775

26666666664

QT1

QT2

...

QTn

37777777775=

rXi=1

λiQiQTi

=

rXi=1

λiSi ,

donde Si = QiQTi , i = 1, 2, . . . , r. Así:

STi = (QiQTi )T = (QTi )TQTi = QiQ

Ti = Si

STi = QiQTi QiQ

Ti = Qi · I ·QTi = QiQ

Ti = Si

SiSj = QiQTi QjQ

Tj = Qi · 0 ·QTj = 0, si i 6= j.

ρ(Si) = ρ(QiQTi ) = ρ(Qi) = 1.

El teorema queda entonces demostrado. �

98

CAPÍTULO 5

Inversa generalizada e inversa condicional de matrices.

Este capítulo consta de cuatro secciones. Las dos primeras versan sobre la definición, propiedades y cálculode la inversa generalizada de una matriz. La tercera sección trata sobre la definición y el cálculo de inversascondicionales de una matriz. En la última sección se verán algunas aplicaciones de la inversa generalizada yde la inversa condicional de una matriz a los sistemas de ecuaciones lineales y a los problemas de mínimoscuadrados.

5.1. Inversa generalizada de una matriz

La inversa generalizada de una matriz es una herramienta de gran utilidad en los cursos de modelos lineales(véase la sección 1.5 de [4]).

Antes de dar la definición de inversas generalizada de una matriz, veamos un par de teoremas que seránútiles en el desarrollo del resto del capítulo.

5.1. Teorema. Si A es una matriz m × n de rango r > 0, entonces existen matrices invertibles Pm×m yQn×n tales que PAQ es igual a:

1.»Ir 00 0

–si r < n y r < m.

2.»Ir0

–si r = n < m.

3.ˆIr 0

˜si r = m < n .

4. Ir si r = n = m.

Demostración. Se hará aquí sólo la demostración del inciso (1). Si R es la forma escalonada reducidade A, entonces R = PA, P es un producto de matrices elementales, (véase el apartado 1.7). Las últimasm− r filas de R son nulas y R tienen la estructura siguiente:

26666640 · · · 0 1 a1k · · · 0 a1k′ · · · a1k′′ 0 a1k′′′ · · ·0 · · · 0 0 0 · · · 1 a2k′ · · · a2k′′ 0 a2k′′′ · · ·0 · · · 0 0 0 · · · 0 0 · · · 0 1 a3k′′′ · · ·...

......

......

......

......

0 · · · 0 0 0 · · · 0 0 0 0 0 · · ·

3777775ahora bien, efectuando las operaciones elementales sobre las columnas de la matriz R se obtiene

99

5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

F =

»Ir 00 0

Así que F = RQ, donde Q es un producto de marices elementales (por columnas). Por lo tanto; F = RQ =PAQ, donde P y Q son matrices invertibles. �

5.2. Ejemplo. Considere la matriz

A =

24 1 2 1 3−1 −2 0 −2

2 4 2 6

35claramente las dos primeras filas son linealmente independientes, y la tercera es un múltiplo escalar de laprimera fila de A. por lo tanto, el número máximo de filas linealmente independientes de A es 2; o sea, Atiene rango 2. Por el teorema anterior existen matrices invertibles P y Q tales que

PAQ =

»I2 00 0

–=

24 1 0 0 00 1 0 00 0 0 0

35 .Ahora se procede a calcular las matrices invertibles P y Q siguiendo las pautas de la demostración delteorema anterior.

Paso 1: Se encuentra una matriz invertible P tal que PA = R, donde R es la forma escalonada reducidade A.

[ A | I3 ] =

24 1 2 1 3 1 0 0−1 −2 0 −2 0 1 0

2 4 2 6 0 0 1

35filas'

24 1 2 1 3 1 0 00 0 1 1 1 1 00 0 0 0 −2 0 1

35filas'

24 1 2 0 2 0 −1 00 0 1 1 1 1 00 0 0 0 −2 0 1

35 = [ R | P ] .

Paso 2: Se encuentra una matriz invertible Q tal que RQ = F, donde

F =

»I2 00 0

–.

100

Inversa generalizada e inversa condicional 5.1. G-Inversa y C-inversa

[ R | I4 ] =

266641 2 0 2

0 0 1 1

0 0 0 0

1 0 0 00 1 0 00 0 1 00 0 0 1

37775

col.'

266641 0 2 2

0 1 0 1

0 0 0 0

1 0 0 00 0 1 00 1 0 00 0 0 1

37775

col.'

266641 0 0 0

0 1 0 1

0 0 0 0

1 0 −2 −20 0 1 00 1 0 00 0 0 1

37775

col.'

266641 0 0 0

0 1 0 0

0 0 0 0

1 0 −2 −20 0 1 00 1 0 −10 0 0 1

37775= [ F | Q ] .

Las matrices invertibles

P =

24 0 −1 01 1 0−2 0 1

35 y Q =

26641 0 −2 −20 0 1 00 1 0 −10 0 0 1

3775son tales que:

PAQ =

»I2 00 0

–=

24 1 0 0 00 1 0 00 0 0 0

35 .5.3. Teorema. Si A es una matriz m × n de rango r > 0, entonces existen matrices Bm×r y Cr×n, derango r, tales que A = B · C.

Demostración. Considere distintas posibilidades para rango de la matriz A, ρ(A) = r.

1. Si r = m, entonces A = BC, donde B = Ir y C = A.2. Si r = n, entonces A = BC, donde B = A y C = Ir.3. Si r < n y r < m, entonces por el teorema 5.1(1) existen matrices invertibles P y Q tales que:

PAQ =

»Ir 00 0

–.

De aquí que:

A = P−1

»Ir 00 0

–Q−1

= P−1

»Ir0

– ˆIr 0

˜Q−1

= BC,

101

5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

donde B ∈ Mm×r y C ∈ Mr×n son las matrices de rango r, dadas por

B = P−1

»Ir0

–y C =

ˆIr 0

˜Q−1 .

El teorema queda entonces demostrado. �

Una forma de calcular las matrices B y C que aparecen en el teorema anterior, en el caso en que r < n yr < m, tal como aparece en la demostración, es calculando primero las matrices invertibles P y Q tales que:

PAQ =

»Ir 00 0

–,

después calcular las matrices P−1 y Q−1, y por último obtener:

B = P−1

»Ir0

–y C =

ˆIr 0

˜Q−1 .

Para el caso en que la matriz A no sea de rango fila completo, existe una demostración alternativa, la cualpresentamos a continuación. Como veremos, esta demostración facilitará un algoritmo más económico paracalcular matrices B y C adecuadas.

Demostración. [Otra prueba del teorema 5.3 para r < m]

Suponga que A es una matriz de rango r < m. Sea P una matriz invertible de orden m tal que PA = R,donde R es la forma escalonada reducida de A (véase apartado 1.7). Puesto que r < m, R tiene la estructurasiguiente:

R =

24 C

0

35 ,donde C es una matriz r × n de rango r. Ahora, si escribimos P−1 particionada adecuadamente

P−1 =ˆB D

˜,

donde B es una matriz m× r de rango r. Dado que PA = R se tiene

A = P−1R

=ˆB D

˜ 24 C

0

35= BC

Ahora se presenta a continuación un método basado en esta demostración para calcular matrices B y C,de rango r, tales que A = BC.

5.4. Algoritmo. Considere una matriz A de tamaño m× n

Paso 1 Forme la matriz [ Am×n | Im] .Paso 2 Efectúe operaciones elementales en las filas de A hasta obtener su forma escalonada reducida, y en

las columnas de Im, siguiendo las siguientes pautas:i) Si se intercambian las filas i y j de A, entonces intercambie las columnas i y j de Im.ii) Si se multiplica la i-ésima fila de A por el número α 6= 0, entonces se multiplica la i-ésima

columna de Im por el número α−1.

102

Inversa generalizada e inversa condicional 5.1. G-Inversa y C-inversa

iii) Si a la j-ésima fila de A se le suma α veces la i-ésima fila de A (α 6= 0), entonces a la i-ésimacolumna de Im se le suma (−α) veces la j-ésima columna de Im.

Al final de este paso se obtiene la matriz [ R | P−1 ]

Paso 3 B =ˆPrimeras r columnas deP−1

˜,

C = [Primeras r filas deR].

5.5. Ejemplo. La matriz del ejemplo 5.2

A =

24 1 2 1 3−1 −2 0 −2

2 4 2 6

35tiene rango 2. Existen por lo tanto matrices B3×2 y C2×4 de rango 2 tales que A = BC. Las matrices B yC se pueden ahora calcular siguiendo los pasos indicados anteriormente.

[ A | I3 ] =

24 1 2 1 3 1 0 0−1 −2 0 −2 0 1 0

2 4 2 6 0 0 1

35

24 1 2 0 2 1 1 00 0 1 1 −1 0 00 0 0 0 2 2 1

35= [ R | P−1 ] .

Así, tomando las primeras 2 columnas de R y las 2 primeras filas de P−1 se obtiene respectivamente lasmatrices

B =

24 1 1−1 0

2 2

35 y C =

»1 2 0 20 0 1 1

–,

las cuales tienen rango 2 y son tales que:

BC =

24 1 1−1 0

2 2

35» 1 2 0 20 0 1 1

=

24 1 2 1 3−1 −2 0 −2

2 4 2 6

35 = A .

5.6. Definición (Inversa generalizada o pseudoinversa). Sea A una matriz m × n. Si M es una matrizn×m tal que:

1. AM es una matriz simétrica.2. MA es una matriz simétrica.3. AMA = A .4. MAM = M,

entonces se dice que M es una inversa generalizada (pseudoinversa) de A, o simplemente que M es unag-inversa de A.

5.7.Ejemplo. Verifique que la matrizM =1

11

24 3 −72 −13 4

35 es una g-inversa de la matrizA =

»1 1 2−1 0 1

–.

En efecto,

103

5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

1. AM =1

11

»11 0

0 11

–= I2 es una matriz simétrica.

2. MA =1

11

24 10 3 −13 2 3−1 3 10

35 es una matriz simétrica.

3. AMA = I2A = A .

4. MAM = MI2 =1

11

24 3 −72 −13 4

35 .5.8. Observación.

1. Si A es invertible, entonces la matriz A−1 es una g-inversa de A.2. Si A = 0m×n, entonces la matriz M = 0n×m es una g-inversa de A.

5.9. Teorema (Existencia de una g-inversa). Toda matriz A de tamaño m × n tiene una inversa genera-lizada.

Demostración. De acuerdo con la observación 5.8(2), la demostración es trivial en el caso en queA = 0. Suponga ahora que que A 6= 0 tiene rango r > 0. Por el teorema 5.3, existen matrices B de tamañom× r y C de tamaño r × n, ambas de rango r tales que A = BC.

Puesto queB y C tiene rango r, las matricesBTB y CCT son invertibles (véase el teorema 1.56). Finalmente,se considera la matriz

M = CT`CCT

´−1`BTB

´−1BT .

El resultado quedará comprobado, se se verifica que M es una g-inversa de A. Es decir, si se verifica que sesatisfacen las condiciones de la definición 5.6. En efecto:

Las matrices AM y MA son simétricas puesto que

AM = BCCT`CCT

´−1`BTB

´−1BT = B

`BTB

´−1BT

yMA = CT

`CCT

´−1`BTB

´−1BTBC = CT

`CCT

´−1C

De otro lado, AMA = B`BTB

´−1BTBC = BC = A, y

MAM = CT`CCT

´−1CCT

`CCT

´−1`BTB

´−1BT

= CT`CCT

´−1`BTB

´−1BT = M.

Es decir, AMA = A y MAM = A, por lo tanto, M es una g-inversa de A. �

5.10. Teorema. [Unicidad de la g-inversa]Toda matriz A tiene una única g-inversa.

Demostración. Supongamos queM1 yM2 son dos g-inversas de una matriz A. Utilizando la definiciónde g-inversa de una matriz se obtiene la cadena siguiente de igualdades:

AM2 = (AM1A)M2 = (AM1)(AM2) = (AM1)T (AM2)T

= ((AM2)(AM1))T = ((AM2A)M1)T = (AM1)T = AM1 .

De aquí que AM2 = AM1. En forma análoga se obtiene que M2A = M1A. Por lo tanto

M1 = M1AM1 = (M1A)M1 = (M2A)M1 = M2(AM1)

= M2(AM2) = M2AM2 = M2 .

104

Inversa generalizada e inversa condicional 5.1. G-Inversa y C-inversa

5.11. Nota. En lo sucesivo, la g-inversa de una matriz la se denotará con el nombre de la matriz y con elsigno + como exponente. Por ejemplo, por A+, B+ denotarán respectivamente las inversas generalizadasde las matrices A y B.

5.12. Teorema (Propiedades de la g-inversa). Para cualquier matriz A tiene que:

a) (A+)+ = A.b) (αA)+ = α−1A+, para todo escalar α 6= 0.c) (AT )+ = (A+)T

d) (AAT )+ = (AT )+A+

e) (ATA)+ = A+(AT )+

Demostración. Por el teorema anterior, toda matriz tiene una única g-inversa. Sólo resta verificaren cada caso, que se satisfacen las condiciones de la definición 5.6. Para ello se hará la demostración sólopara el inciso (e) suponiendo, que las afirmaciones (a)-(d) son válidas (las verificaciones quedan a cargo dellector) y se aplicarán las propiedades de la definición 5.6:

1. Inicialmente se verifica que la matriz`ATA

´ `A+(AT )+

´es simétrica, para ello se muestra que

para la matriz M = A+(AT )+ se satisface la igualdad`ATA

´M = A+A. En efecto:“

ATA”M =

“ATA

”“A+(AT )+

”(c)= AT (AA+)(A+)T

def.= AT (AA+)T (A+)T

=`A+AA+A+´T

def.=

`A+A

´T= A+A .

2. Ahora se verifica que la matriz`A+(AT )+

´ `ATA

´es simétrica, para ello muestra como antes, de

que la matriz M = A+(AT )+ satisface la igualdad M`ATA

´= A+A. En efecto:

M“ATA

”=

“A+(AT )+

”“ATA

”(c)= A+(A+)TATA

def.= A+(AA+)TA

def.= A+AA+A

def.= A+A.

3. La matriz M = A+(AT )+ satisface la igualdad (ATA)M(ATA) = ATA.

(ATA)M(ATA) =“ATA

”“A+(AT )+

”“ATA

”(1)=

`A+A

´ “ATA

”= (A+A)TATA

=`A(A+A)

´TAdef.=`AA+A

´TA = ATA.

105

5.1. G-Inversa y C-inversa Inversa generalizada e inversa condicional

4. La matriz M = A+(AT )+ satisface la igualdad M(ATA)M = M. En efecto

M(ATA)M = M =“A+(AT )+

”“ATA

”“A+(AT )+

”(2)=

`A+A

´ “A+(AT )+

”=

`A+AA+´ “AT”+

def.= A+(AT )+.

5.13. Observación. No siempre es cierto que (AB)+ = B+A+. Para mostrar este hecho basta considerarun ejemplo (ver ejemplo siguiente).

5.14. Ejemplo. Si A =ˆ

1 1˜y B =

»12

–, entonces AB = [3]. Por lo tanto (AB)+ = 1/3. De acuerdo

con el corolario 5.16, A+ = 12

»11

–y B+ = 1

5

ˆ1 2

˜, de donde se tiene que

B+A+ =1

5

ˆ1 2

˜ 1

2

»11

–=

1

10[3] = [3/10] 6= [3] = (AB)+.

5.1 Ejercicios

En los ejercicios 1 al 9, responda verdadero o falso justificando su respuesta.

1. Si las matrices B ∈ Mm×r y C ∈ Mr×m tienen el mismo rango, entonces (BC)+ = C+B+.2. Si S es una matriz simétrica, entonces S+ es una matriz simétrica.3. Si S es una matriz simétrica tal que S2 = S, entonces S+ = S.4. Si S es una matriz simétrica tal que S3 = S, entonces S+ = S.5. Para toda matriz A se tiene que A+ = (ATA)+AT .6. Para toda matriz A se tiene que A+ = AT (AAT )+.7. Para toda matriz A se tiene que (AA+)2 = AA+ y (A+A)2 = A+A.8. Si A ∈ Mm×n tiene rango m, entonces el sistema de ecuaciones lineales Ax = y tiene solución para

cualquier y ∈ Mm×1.9. Si A ∈ Mm×n tiene rango n y si el sistema de ecuaciones lineales Ax = y tiene solución, entonces

el sistema tiene solución única.

En los ejercicios 10 al 21 demuestre la afirmación correspondiente

10. Si BCT = 0, entonces BC+ = 0 y CB+ = 0.

11. Si A =

»BC

–y BCT = 0 entonces A+ =

ˆB+ C+

˜.

12. SiB es una matriz simétricam×m y si CTB = 0, donde CT es la matriz CT =ˆ

1 1 · · · 1˜1×m ,

entonces la g-inversa de la matriz:

A =

»BCT

–es A+ =

ˆB+ 1/mC

˜.

106

Inversa generalizada e inversa condicional 5.2. Cálculo de la g-inversa

13. Si D = [dij ]n×n es una matriz diagonal, entonces D+ =[aij ]n×n es una matriz diagonal, donde

aij =

(1/dii , si dii 6= 0

0 , si dii = 0.

14. Si A =

»B 00 C

–entonces A+ =

»B+ 00 C+

–.

15. Si S es una matriz simétrica, entonces SS+ = S+S.16. Si A es una matriz tal que ATA = AAT , entonces A+A = AA+.17. Si A es una matriz m × n, donde 〈A〉ij = 1 para i = 1, 2, . . . ,m y j = 1, 2, . . . , n, entonces

A+ =1

mnA.

18. Si P ∈ Mn×n y Q ∈ Mm×m son matices ortogonales, entonces para cualquier matriz m× n, A, setiene que (PAQ)+ = QTA+PT .

19. Si S es una matriz simétrica no negativa, entonces S+ es una matriz no negativa.20. Para cada matriz m× n, A; AB = AA+ sii B es tal que ABA = A y AB es simétrica.21. Si B es una c-inversa de A, entonces la matriz BAB también lo es.

5.2. Cálculo de la g-inversa de una matriz

En esta sección se verán algunos teoremas que pueden usarse para calcular la g-inversa de una matriz.Empezamos con el siguiente resultado, el cual se deduce de los teoremas 5.3, 5.9 y 5.10.

5.15. Teorema. Sea A una matriz m× n de rango r > 0.

1. Si r = n = m, entonces A es invertible y A+ = A−1.

2. Si r = m < n, entonces A+ = AT`AAT

´−1.3. Si r = n < m, entonces A+ =

`ATA

´−1AT .

4. Si r < n y r < m, entonces existen matrices B ∈ Mm×r y C ∈ Mr×n de rango r tales que A = B ·Cy

A+ = CT`CCT

´−1`BTB

´−1BT .

5.16. Corolario. Sea a un vector no nulo de n componentes.

1. Si a ∈ M1×n, entonces a+ =`aaT

´−1aT .

2. Si a ∈ Mn×1, entonces a+ =`aTa

´−1aT .

5.17. Ejemplo. Ilustre el teorema 5.15 con alguna matrices sencillas.

1. La matriz A =

»1 21 3

–es invertible, así que A+ = A−1 =

»3 −2−1 1

–.

2. La matriz A =

»1 2 3−1 −1 1

–tiene rango 2, así que:

A+ = AT`AAT

´−1=

24 1 −12 −13 1

35 1

42

»3 00 14

=1

42

24 3 −146 −149 14

35107

5.2. Cálculo de la g-inversa Inversa generalizada e inversa condicional

3. La matriz A =

24 1 23 45 6

35 tiene rango 2, así que:

A+ =`ATA

´−1AT =

1

24

»56 −44−44 35

– »1 3 52 4 6

–=

1

24

»−32 −8 16

26 8 −10

–4. La matriz A dada por

A =

24 1 2 1 3−1 −2 0 −2

2 4 2 6

35Del ejemplo 5.5 se sabe ρ(A) = 2 y que las matrices

B =

24 1 1−1 0

2 2

35 y C =

»1 2 0 20 0 1 1

–son tales que A = BC. Luego

A+ = CT`CCT

´−1`BTB

´−1BT .

=1

24

2664−2 −20 −4−4 −40 −8

9 55 185 15 10

37755. Para la matriz A =

ˆ1 2 3

˜6= 0 se tiene que:

a+ =“aaT

”−1

aT =1

14

24 123

356. La matriz A =

24 111

35 6= 0 se tiene que,

a+ =“aTa

”−1

aT =1

3

ˆ1 1 1

˜.

5.18. Teorema. Sea A ∈ Mm×n una matriz de rango r > 0. Entonces la g-inversa de A se puede calcularsiguiendo los pasos dados a continuación:

1. Calcule M = ATA.2. Haga C1 = I.

3. Calcule Ci+1 =1

iTr(CiM)I − CiM, para i = 1, 2, . . . , r − 1.

4. Calculer

Tr (CrM)CrA

T , ésta es la matriz A+.

Además, se tiene que Cr+1M = 0 y Tr (CrM) 6= 0.

Para la demostración de este teorema, remitimos al lector a [3] (teorema 6.5.8). Obsérvese además, que lacondición Cr+1M = 0 permite proceder sin conocer de antemano el rango de A.

108

Inversa generalizada e inversa condicional 5.2. Cálculo de la g-inversa

5.19. Ejemplo. Considere la matriz

A =

24 1 2 1 3−1 −2 0 −2

2 4 2 6

35del ejemplo 5.17(4). Calcule A+ utilizando el teorema anterior.

Para ello se puede calcualar M = AtA. Esto es,

M =

26646 12 5 17

12 24 10 345 10 5 15

17 34 15 49

3775y considere C1 = I4. Entonces se tiene que:

C2 = Tr (C1M) I − C1M =

266478 −12 −5 −17−12 60 −10 −34−5 −10 79 −15−17 −34 −15 35

3775 .Como C3M = 0, entonces ρ(A) = 2, y además

A+ =2

Tr (C2M)C2A

T =2

140

2664−2 −20 −4−4 −40 −8

9 55 185 15 10

3775El siguiente teorema presenta una forma alternativa para calcular la g-inversa de una matriz. Para sudemostración, remitimos a [9] (véase páginas. 14-15).

5.20. Teorema. Sea A ∈ Mm×n una matriz de rango r > 0. La g-inversa de A se puede calcular mediantelos siguientes pasos:

1. Forme la matriz [ A | Im ].2. Efectúe operaciones elementales en las filas de la matriz anterior hasta conseguir la forma escalon-

ada reducida de A. Al final de este paso se obtiene una matriz que descrita por bloques queda así:»Er×n Pr×m

0(m−r)×n P(m−r)×m

–si r < m

ó ˆEm×n | Pm×m

˜si r = m.

(Si r = m = n, A es invertible, E = I y P = A−1 = A+).3. Forme la matriz: »

Er×nAT Er×n

P(m−r)×m 0(m−r)×n

–si r < m

ó ˆEm×nA

T | Em×n˜

si r = m.

4. Efectúe operaciones elementales en las filas de la matriz anterior hasta conseguir la forma escalon-ada reducida. Al final de este paso se obtiene la matrizh

Im |`A+´T i

.

109

5.2. Cálculo de la g-inversa Inversa generalizada e inversa condicional

5.21. Ejemplo. Considere de nuevo la matriz A del ejemplo 5.19

A =

24 1 2 1 3−1 −2 0 −2

2 4 2 6

35 .Con el objeto de calcular A+ utilizando el teorema anterior, se forma la matriz

ˆA | I3

˜y se aplican

operaciones elementales en las filas hasta encontrar la forma escalonada reducida de A.

[ A | I3 ] =

24 1 2 1 3 1 0 0−1 −2 0 −2 0 1 0

2 4 2 6 0 0 1

35

24 1 2 0 2 0 −1 00 0 1 1 1 1 0

0 0 0 0 −2 0 1

35=

»E2×4 P2×3

01×4 P1×3

–.

Se construye ahora la matriz de la forma »E2×4A

T E2×4

P1×3 01×4

–y se aplican de nuevo operaciones elementales en las filas, hasta obtener la matriz identidad I3 en el ladoizquierdo de este arreglo24 E2×4A

T E2×4

P1×3 01×4

35 =

24 11 −9 22 1 2 0 24 −2 8 0 0 1 1

−2 0 1 0 0 0 0

35

266666664

1 0 0 − 1

35− 2

35

9

70

1

14

0 1 0 −2

7−4

7

11

14

3

14

0 0 1 − 2

35− 4

35

9

35

1

7

377777775=

hI3 | (A+)T

i.

Así que

A+ =

266666666666664

− 1

35−2

7− 2

35

− 2

35−4

7− 4

35

9

70

11

14

9

35

2

35

3

14

1

7

377777777777775=

1

70

2664−2 −20 −4−4 −40 −8

9 55 185 15 10

3775

110

Inversa generalizada e inversa condicional 5.2. Cálculo de la g-inversa

5.22. Ejemplo. Considere la matriz A del ejemplo 5.17(2)

A =

»1 2 3−1 −1 1

–,

y siga los pasos del ejemplo anterior (teorema 5.20) para calcular A+.

[ A | I2 ] =

»1 2 3 1 0−1 −1 1 0 1

→»

1 0 −5 −1 −20 1 4 1 1

–=

ˆE2×4 P2×3

˜.

Se construye ahora la matrizˆE2×3A

T | E2×3

˜y se reduce para obtener

ˆE2×3A

T E2×3

˜=

24 −14 −6 1 0 −5

14 3 0 1 4

35

26641 0

1

14

2

14

3

14

0 1 −1

3−1

3

1

3

3775=

hI2 | (A+)T

i.

Así que

A+ =

266666664

1

14−1

3

2

14−1

3

3

14

1

3

377777775=

1

42

2666643 −14

6 −14

9 14

377775

5.2 Ejercicios

1. Para cualquier matriz A se tiene que: ρ(A) = ρ(A+) = ρ(AA+)= ρ(A+A).2. Calcule la g-inversa de cada una de las matrices siguientes:

(i) A1 =ˆ

0 0 0˜

(ii) A2 =

»1 23 5

(iii) A1 =ˆ

1 2 3˜

(iv) A4 =

24 112

35111

5.3. C-inversa Inversa generalizada e inversa condicional

(v) A5 =

24 7 7 77 7 77 7 7

35 (vi) A6 =

24 1 0 00 5 00 0 0

35

(vii) A7 =

26641 23 40 00 0

3775 (viii) A8 =

26641 2 0 01 2 0 00 0 3 30 0 3 3

3775

(ix) A9 =

2666642 −1 −1−3 1 2

1 1 11 1 11 1 1

3777755.3. Inversa condicional de una matriz

Al igual que el concepto de inversa generalizada de una matriz, el concepto de inversa condicional es de granutilidad en los cursos de modelos lineales (véase la sección 1.5 de [4]) y en la caracterización del conjuntosolución de sistemas lineales de ecuaciones.

5.23. Definición. Sea A una matriz m× n. Si M es una matriz n×m tal que:

AMA = A,

entonces se dice que M es una inversa condicional de A o simplemente, que M es una c-inversa de A.

5.24. Observación. De acuerdo con el teorema 5.10, toda matriz A tiene una única inversa generalizadaA+. ésta es a su vez por definición una c-inversa de A. Así que, toda matriz A tiene al menos una c-inversa.Se verá aquí, que una matriz A puede tener varias (incluso infinitas) inversas condicionales, salvo cuandola matriz A es invertible, en cuyo caso A−1 es la única c-inversa.

Nota. El teorema 5.27 dará una caracterización del conjunto de todas las inversas condicionales de A(c-inversas de A).

5.25. Teorema. Sea A ∈ Mm×n una matriz de rango r. Entonces:

1. W = {N ∈ Mn×m : ANA = 0} es un subespacio de Mn×m.2. La dimensión del espacio W mencionado en (1) es m · n− r2.

Demostración. Para demostrar el inciso (1) basta demostrar, según el teorema 1.15, que el conjuntoW es cerrado bajo la suma y la multiplicación por un escalar. En efecto,

Sean N1 y N2 dos elementos (matrices) del conjunto W, entonces

A(N1 +N2)A = AN1A+AN2A = 0 + 0 = 0,

esto implica que N1 +N2 ∈W. ésto es, W es cerrado bajo la suma.

De otro lado, para cualquier escalar α ∈ R se tiene que

A(αN1)A = αAN1A = α0 = 0,

ésto implica que, αN1 ∈W. Es decir, W es cerrado bajo la multiplicación por un escalar. El conjunto W esentonces un subespacio vectorial de Mn×m, lo que completa la demostración del inciso (1).

112

Inversa generalizada e inversa condicional 5.3. C-inversa

Hagamos ahora la demostración del inciso (2) en el caso en la matriz A ∈ Mm×n tenga rango r con0 < r < mın {m, n}. Las demostraciones en los demás casos son similares.

Sea entonces A una matriz m × n de rango r, con 0 < r < mın {m, n}. De acuerdo con el inciso (1) delteorema 5.1, existen matrices invertibles P ∈ Mm×m y Q ∈ Mn×n tales que:

(5.1) PAQ =

»Ir 00 0

–o A = P−1

»Ir 00 0

–Q−1.

Considere ahora matrices arbitrarias X ∈ Mr×r, Y ∈ Mr×(m−r), Z ∈ M(n−r)×r y W ∈ M(n−r)×(m−r) y lamatriz N ∈ Mn×m dada por

N = Q

»X YZ W

–P.

Ahora N ∈W sii ANA = 0. De (5.1) se sigue que

ANA = P−1

»Ir 00 0

–Q−1Q

»X YZ W

–P P−1

»Ir 00 0

–Q−1

= P−1

»X 00 0

–Q−1.

De aquí se deduce ANA = 0 sii X = 0. Esto es, N ∈W sii N es de la forma:

N = Q

»0 YZ W

–P.

Ahora se demuestra que la dimensión de W es m · n− r2. Para ello, se hace uso del hecho que el espacio dematrices Mk×j tiene dimensión k · j. En efecto, considere los espacios Mr×(m−r), M(n−r)×r y M(n−r)×(m−r)con las bases respectivas B1,B2,B3, siendo B1 = {Y1, Y2, . . . , Yr·(m−r)}, B1 = {Z1, Z2, . . . , Zr·(n−r)} yB3 = {W1, W2, . . . ,W(n−r)·(m−r)}. Es fácil mostrar entonces que el conjunto B = {N, N2, . . . , Nm·n−r·r}con

Ni = Q

»0 Yi0 0

–P ; i = 1, 2, . . . ,m · r − r2

Nr(m−r)+j = Q

»0 0Zj 0

–P ; j = 1, 2, . . . , n · r − r2

Nr(m+n−2r)+k = Q

»0 00 Wk

–P ; k = 1, 2, . . . , (n− r) · (m− r),

es una base de W. �

5.26. Teorema. Sea A una matriz m× n. El conjuntoMcA de todas las c-inversas,

McA = {M ∈ Mn×m : AMA = A} ,

es una variedad lineal de dimensión m · n− r2.

Demostración. Por el teorema 5.16McA es no vacío, sea entoncesM0 un elemento deMc

A. Se verificaentonces, que M ∈ Mc

A si y sólo si M se puede escribir como la suma de M0 y un elemento N ∈ W. Estoes, si y sólo si M = M0 +N para algún N ∈W, siendo W el conjunto dado en el teorema 5.25.

Si M = M0 +N, con N ∈ W, entonces AMA = AM0A+ ANA = A+ 0 = A. Esto es, M ∈ McA. De otra

parte, si M ∈McA, entonces se puede escribir

M = M +M0 −M0

= M0 + (M −M0) = M0 +N ,

113

5.3. C-inversa Inversa generalizada e inversa condicional

donde N = M −M0. Puesto que

A(M −M0)A = AMA−AM0A = A−A = 0 ,

se tiene entonces que N = M −M0 ∈W y de aquí se sigue que:

McA = {M +N, N ∈W} .

El teorema siguiente establece cómo determinar los elementos deMcA.

5.27. Teorema. Sea A una matriz m × n de rango r. Sean P ∈ Mm×m y Q ∈ Mn×n matrices invertiblescomo en el teorema 5.1.

1. Si A = 0, entoncesMcA = Mn×m.

2. Si r = n = m, entoncesMcA =

˘A+¯

=˘A−1

¯.

3. Si r = m < n, entonces

McA =

Q

»IrY

–P : Y ∈ M(n−r)×m

ff.

4. Si r = n < m, entonces

McA =

˘QˆIr X

˜P : X ∈ Mn×(m−r)

¯.

5. Si 0 < r < n y 0 < r < m, entonces el conjuntoMcA está dado por

McA =

Q

»Ir XY Z

–P : Z ∈ M(n−r)×(m−r),

Y ∈ M(n−r)×m, X ∈ Mn×(m−r)

ff

Demostración. De acuerdo con los teoremas 5.25 y 5.26, se tiene que en cada casoMcA es una variedad

lineal de dimensión mn− r2. De otro lado, se puede verificar que si M ∈McA, entonces AMA = A. �

5.28. Ejemplo. Sea

A =

24 1 2 1 3−1 −2 0 −2

2 4 2 6

35 ,la matriz del ejemplo 5.2. De dicho ejemplo se sabe que las matrices invertibles

P =

24 0 −1 01 1 0−2 0 1

35 y Q =

26641 0 −2 −20 0 1 00 1 0 −10 0 0 1

3775son tales que PAQ =

»I2 00 0

–, ρ(A) = r = 2. En este caso,

McA =

Q

»I2 XY Z

–P : X ∈ M2×1, Y ∈ M2×2, Z ∈ M2×1

ff,

114

Inversa generalizada e inversa condicional 5.3. C-inversa

representará, el conjunto de todas las inversas condicionales de A, En particular, si tomamos X = 0, Y = 0y Z = 0, se tiene que una c-inversa de A es:

M0 = Q

»I2 00 0

–P =

26640 −1 00 0 01 1 00 0 0

3775 .En lo que resta de esta sección se abordará un método alternativo para calcular una c-inversa de una matriz.Considere inicialmente el caso de matrices cuadradas. �

5.29. Definición. Una matriz cuadrada H = [hij ]n×n tiene la forma Hermite superior, si satisface lascondiciones siguientes:

1. H es triangular superior.2. h2

ii = hii; esto es, hii = 0 ó hii = 1, i = 1, 2, . . . , n.3. Si hii = 0, entonces la i-ésima fila es nula, esto es, Hi = 0.4. Si hii = 1, entonces el resto de los elementos de la i-ésima columna son nulos; es decir, Hi = Ii

es la i-ésima columna de la matriz idéntica.

5.30. Ejemplo. La matriz

H =

26641 2 0 00 0 0 00 0 1 00 0 0 1

3775tiene la forma Hermite superior. �

El siguiente teorema establece que una matriz Hermite superior es idempotente. La demostración de dichoresultado es consecuencia directa de la definición y se deja como un ejercicio para el lector.

5.31. Teorema. Si H es una matriz que tiene la forma Hermite superior, entonces H2 = H.

Demostración. Si A,B ∈ Mn×m son matrices triangulares superiores, entonces AB es triangularsuperior y 〈AB〉ii = 〈A〉ii〈B〉ii (ver ejercicio 2 de la sección 2.1). De esto se sigue que:

1. H2 es triangular superior.2. 〈H2〉ii = 〈H〉ii〈H〉ii = h2

ii = hii.

De otra parte,

3 Si hii = 0, entonces Hi = 0 y H2i = HiH = 0.

4 Si hii = 1, entonces Hi = Ii y (H2)i = HHi = HIi = Hi = Ii.

5.32. Teorema. Para toda matriz cuadrada A existe una matriz invertible B tal que BA = H tiene laforma Hermite superior.

115

5.3. C-inversa Inversa generalizada e inversa condicional

Demostración. Sea P una matriz invertible tal que PA = R es la forma escalonada reducida de A.Si R tiene la forma Hermite superior, entonces la matriz B = P satisface la condición de que BA = R = H.Si R no tiene la forma Hermite superior, intercambiamos las filas de R hasta que el primer elemento no nulo(de izquierda a derecha) de cada fila no nula de R, sea un elemento de la diagonal. Así se tiene una matrizH que tiene la forma Hermite superior. Así que existen matrices elementales (por filas) E1, E2, . . . , Ek talesque

E1E2 · · ·EkR = H

o sea:E1E2 · · ·EkPA = H.

En consecuencia, la matriz invertible B = E1E2 · · ·EkP es tal que BA = H tiene la forma Hermite superior.�

5.33. Ejemplo. Para la matriz cuadrada:

A =

24 1 2 31 2 52 4 10

35 ,la matriz invertible

P =

24 5/2 −3/2 0−1/2 1/2 0

0 −2 1

35es tal que

PA = R =

24 1 2 00 0 10 0 0

35 ,donde R es la forma escalonada resucida de A. Intercambiando las filas 2 y 3 de R se obtiene la matriz:

H =

24 1 2 00 0 00 0 1

35 ,la cual tiene la forma Hermite superior. Además,

B =

24 5/2 −3/2 00 −2 1

−1/2 1/2 0

35es invertible y es tal que BA = H . �

5.34. Teorema. Sea A una matriz cuadrada. Si B es una matriz invertible tal que BA = H tiene la formaHermite superior, entonces B es una c-inversa de A.

Demostración. Como H tiene la forma Hermite superior, por el teorema 5.31, H2 = H. Así queBABA = H2 = H = BA, o sea:

BABA = BA.

Premultiplicando los dos miembros de la última igualdad por la matriz B−1 se obtiene:

ABA = A,

esto es, B es una c-inversa de A. �

116

Inversa generalizada e inversa condicional 5.3. C-inversa

5.35. Ejemplo. Considere la matriz A del ejemplo 5.33,

A =

24 1 2 31 2 52 4 10

35 .Se sabe de dicho ejemplo, que la matriz invertible

B =

24 5/2 −3/2 00 −2 1

−1/2 1/2 0

35 ,es tal que BA = H tiene la forma Hermite superior. Por lo tanto, por teorema anterior, B es una c-inversade A. �

El siguiente corolario presenta una forma de calcular una c-inversa para el caso de matrices rectangulares.

5.36. Corolario. Sea A una matriz m× n

1. Si m > n, sea A∗ =ˆA 0

˜, donde 0 es la matriz nula m× (m−n). Sea además B∗ una matriz

invertible tal que B∗A∗ = H tiene la forma Hermite superior. Si escribimos la matriz B∗ entoncesparticionada así:

B∗ =

24 B

B1

35 ,donde B es una matriz n×m, entonces B es una c-inversa de A.

2. Si n > m, sea A∗ =

»A0

–, donde 0 es la matriz nula (n −m) ×m. Sea además B∗ una matriz

invertible tal que B∗A∗ = H tiene la forma Hermite superior. Si escribimos la matriz B∗ entoncesparticionada así:

B∗ =ˆB B1

˜,

donde B es una matriz n×m, entonces B es una c-inversa de A.

Demostración. Se presenta aquí sólo la demostración del inciso (1). Para ello suponga que A es unamatriz m× n, con m > n y considere la matriz cuadrada A∗ =

ˆA 0

˜n×n.

Según el teorema 5.32, existe una matriz invertible B∗, tal que B∗A∗ = H tiene la forma Hermite superior.Dicha matriz B∗ es una c-inversa de A∗ (teorema 5.32), así que, A∗B∗A∗ = A∗, o sea:

A∗B∗A∗ =ˆA 0

˜ 24 B

B1

35 ˆ A 0˜

=ˆABA 0

˜=ˆA 0

˜= A∗.

De esto se sigue que ABA = A. Es decir, B es una c-inversa de A. �

5.37. Ejemplo. Encontre una c-inversa para la matriz:

A =

24 1 −12 −10 1

353×2

.

Sea A∗ =

24 1 −1 02 −1 00 1 0

353×3

.

117

5.3. C-inversa Inversa generalizada e inversa condicional

Efectuando los cálculos pertinentes se encuentra que la matriz invertible:

B∗ =

24 −1 1 0−2 1 0

2 −1 1

35 =

24 B

B1

35

es tal que B∗A∗ = H tiene la forma Hermite superior. Por lo tanto, por el corolario anterior, la matriz

B =

»−1 1 0−2 1 0

–2×3

es una c-inversa de A. �

5.3 Ejercicios

En los ejercicios 1 al 3, responda verdadero o falso justificando su respuesta.

1. Para toda c-inversa Ac de A se tiene que (AAc)2 = AAc y (AcA)2 = AcA.2. Si Ac es una c-inversa de A, entonces A es una c-inversa de Ac.3. Si Ac es una c-inversa de A, entonces (Ac)T es una c-inversa de AT .

En los ejercicios 4 al 9 haga la demostración correspondiente

4. Si Ac es una c-inversa de A, entonces ρ(Ac) ≥ ρ(A) = ρ(AAc) = ρ(AcA).5. Si Ac es una c-inversa de A, entonces Tr(AAc) = Tr(AcA) = ρ(A). (sugerencia véase el ejercicio 7

de la sección de ejercicios 3.2).6. Sea A una matriz m× n. Entonces ρ(A) = m sii AA+ = I sii AAc = I para cada c-inversa Ac de

A.7. Sea A una matriz m× n. Entonces ρ(A) = n sii A+A = I sii AcA = I para cada c-inversa Ac de

A.8. Si B es una c-inversa de A, entonces también lo es BAB.9. Si Bc y Cc son c-inversas de las matrices B y C respectivamente, entonces una c-inversa de la

matriz

A =

»B 00 C

–es Ac =

»Bc 00 Cc

–.

10. Para la matriz A =

24 1 2 32 5 31 3 0

35 , dé dos c-inversa Ac1 y Ac2 tales que ρ(Ac1) > ρ(A) y ρ(Ac2) =

ρ(A).11. Determine el conjunto de todas las c-inversas de las matrices

A1 =

»1 11 1

–, A2 =

»1 2 31 3 3

–,

A3 =

24 1 21 32 5

35 , A4 =

»1 21 3

–.

118

Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

5.4. Sistemas de ecuaciones lineales: g-inversa y c-inversa de una matriz. mínimoscuadrados.

En esta sección se verán algunas aplicaciones de la g-inversa y la c-inversa de una matriz a los sistemas deecuaciones lineales y al problema de los mínimos cuadrados.

5.38. Teorema. Sea A ∈ Mm×n una matriz y sea y ∈ Mm×1 un vector. El sistema de ecuaciones linealesAx = y es consistente sii AAcy = y para cada c-inversa Ac de A.

Demostración. Suponga que el sistema de ecuaciones lineales Ax = y es consistente. ésto quieredecir, que existe al menos un x0 tal que:

Ax0 = y .

Sea ahora Ac una c-inversa de A, entonces:

AAcy = AAcAx0

= Ax0

= y .

Suponga ahora, que para cada c-inversa Ac de A, se tiene que AAcy = y. Entonces para cada c-inversa Ac,el vector x0 = Acy es una solución del sistema de ecuaciones lineales Ax = y. Por lo tanto, el sistema esconsistente. �

5.39. Teorema. Sea A una matriz m×n y sea Ac una c-inversa de A. Si el sistema de ecuaciones linealesAx = y es consistente, entonces su solución general es

(5.1) x = Acy + (I −AcA)h, h ∈ Mn×1 .

Demostración. Puesto que por hipótesis el sistema de ecuaciones lineales Ax = y es consistente,entonces por el teorema anterior, AAcy = y. En consecuencia, para cada x de la forma (5.1):

Ax = AAcy +A(I −AcA)h

= y + (A−A)h

= y + 0h

= y,

esto es, x es una solución del sistema dado.

De otro lado, si x0 es solución del sistema dado, entonces

Ax0 = y .

Premultiplicando los miembros de la última igualdad por Ac se obtiene

AcAx0 = Acy ,

de donde:0 = Acy −AcAx0.

Sumando x0 a los dos lados de la última igualdad se llega a:

x0 = Acy + x0 −AcAx0

= Acy + (I −AcA)x0

= Acy + (I −AcA)h,

donde h = x0. Esto es, x0 se puede expresar en la forma 5.1. �

Puesto que A+ es una c-inversa de A, se tiene el siguiente corolario.

119

5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

5.40. Corolario. Sea A una matriz m × n. Si el sistema de ecuaciones lineales Ax = y es consistente,entones su solución general es

(5.2) x = A+y + (I −A+A)h, h ∈ Mn×1 .

Problema de los Mínimos Cuadrados

Como se estableció en el teorema 1.51(3), para un sistema de ecuaciones Ax = y se presenta una y sólouna de las opciones siguientes:

(i) El sistema tiene infinitas soluciones.(ii) El sistema tiene solución única.(iii) El sistema no tiene solución.

En el trabajo experimental generalmente se da generalmente la opción (iii), es decir, que el vector y no es unelemento del espacio columna de la matriz A, (y /∈ C(A)) (véase figura 5.1). En este caso se puede preguntar,si existe una solución aproximada del sistema, para una definición conveniente de solución aproximada. Unproblema que se presenta con frecuencia en el trabajo experimental es:

y

A x

A x

IR

(A) C0 . xA 0

m

Figura 5.1. Problema de los mínimos cuadrados

Dado una serie de puntos(x1, y1); (x2, y2); . . . ; (xn, yn).

obtener una relación y = f(x) entre las dos variables x y y, “adaptando” (en algún sentido) una curva adicho conjunto de puntos.

Como los datos se obtienen experimentalmente, generalmente existe un "error" en ellos (errores de aproxi-mación), lo que hace prácticamente imposible encontrar una curva de la forma deseada que pase por todoslos puntos. Por medio de consideraciones teóricas o simplemente por "acomodo" de los puntos, se decide laforma general de la curva y = f(x) que mejor se adapte. Algunas posibilidades son (ver figura 5.2):

1. Funciones lineales (rectas): y = f(x) = a+ bx; a, b ∈ R2. Polinomios de grado dos: y = f(x) = a+ bx+ cx2; a, b, c ∈ R.3. Polinomios de grado tres: y = f(x) = a+ bx+ cx2 + dx3; a, b, c, d ∈ R.

A. Adaptación de puntos a una línea recta

Considere los puntos (x1, y1); (x2, y2); . . . ; (xn, yn), los cuales se pretende ajustar mediante la gráfica de lalínea recta y = f(x) = a+ bx. Si los puntos correspondientes a los datos fuesen colineales, la recta pasaría

120

Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

x

yy y

xx

(1) Aproximacion lineal ´´(2) Aproximacion cuadratica´´ (3) Aproximacion cubica´

Figura 5.2. Ajuste por mínimos cuadrados

por todos los n puntos y, en consecuencia, los coeficientes desconocidos a y b satisfarían la ecuación de larecta. Esto es, se tendrían las siguientes igualdades:

y1 = a+ bx1

y2 = a+ bx2

......

...yn = a+ bxn .

Estas igualdades se pueden escribir, utilizando notación matricial, así:

(5.3) y =

26664y1y2...yn

37775 =

266641 x1

1 x2

......

1 xn

3777524 a

b

35 = Ax .

Si los puntos que corresponden a los datos no son colineales, es imposible encontrar coeficientes a y b quesatisfagan (5.3). En este caso, independientemente de la forma en que se escojan a y b, la diferencia

Ax− y,

entre los dos miembros de (5.3) no será cero. Entonces, el objetivo es encontrar un vector x =

»a∗

b∗

–que

minimice la longitud del vector Ax− y, esto es, que minimice

‖Ax− y ‖,

lo que es equivalente a minimizar su cuadrado, ‖Ax− y ‖2.

Si x0 =

»a∗

b∗

–es un vector que minimiza tal longitud, a la línea recta y = a∗ + b∗x se le denomina recta

de ajuste por mínimos cuadrados de los datos. La figura 5.3 ilustra la adaptación de una línea recta por elmétodo de los mínimos cuadrados. Se tiene que ‖Ax− y ‖, y

‖Ax− y ‖2 = (a∗ + b∗x1 − y1)2 + (a∗ + b∗x2 − y2)2 +

· · ·+ (a∗ + b∗xn − yn)2

121

5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

son minimizados por el vector x0 =

»a∗

b∗

–. En dicha figura se ve que |a∗ + b∗xi − yi| corresponde a la

“distancia vertical”, di, tomada desde el punto (xi, yi) hasta la recta y = a∗ + b∗x . Si se toma a di comoel “error vertical” en el punto (xi, yi), la recta de ajuste minimiza la cantidad:

d21 + d2

2 + · · ·+ d2n ,

que es la suma de los cuadrados de los “errores verticales”. De allí el nombre de método de los mínimoscuadrados.

dd

1

y

x

y=a+b x

x , y ( )

( )

d3

2

dn

* *

2x , y 2( )

x , y

1 1

3x , y 3

( )n n

Figura 5.3. Ajuste lineal por mínimos cuadrados

A continuación se darán dos definiciones motivadas por la discusión anterior. En el ejemplo 5.50 se ex-plicará cómo se adaptar, por mínimos cuadrados, una línea recta y = a + bx a una serien de n puntos(x1, y1); (x2, y2); . . . ; (xn, yn) dados.

5.41. Definición (Solución M nima Cuadrada). Se dice que el vector x0 es una solución mínima cuadrada(S.M.C.) del sistema de ecuaciones lineales Ax = y, si para todo vector x se tiene que:

‖Ax0 − y ‖ ≤ ‖Ax − y ‖ .

5.42. Definición (Mejor Solución Aproximada). Se dice que el vector x0 es una mejor solución aproximada(M.S.A.) del sistema de ecuaciones lineales Ax = y, si:

1. Para todo vector x se tiene que:

‖Ax0 − y ‖ ≤ ‖Ax − y ‖.

2. Para todo vector x∗ 6= x0 tal que ‖Ax0 − y ‖ < ‖Ax∗ − y ‖ se tiene que

‖x0 ‖ < ‖x∗ ‖.

Nota. Observe que una M.S.A de un sistema de ecuaciones lineales Ax = y es una S.M.C. del mismo.

5.43. Teorema. Sea A una matriz m× n y sea y un vector Rm. Si Ac es una c-inversa de A tal que AAc

es simétrica, entonces para todo vector x ∈ Rn se tiene que:

‖Ax − y ‖2 = ‖Ax −AAcy ‖2 + ‖AAcy − y ‖2.

122

Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

Demostración. Por hipótesis AAc = (AAc)T . Así que para todo vector x se tiene que:

‖Ax − y ‖2 = ‖ (Ax −AAcy) + (AAcy − y)‖2

= ‖Ax −AAcy ‖2 + 2(Ax−AAcy)T (AAcy − y)

+‖AAcy − y ‖2

El teorema quedará demostrado si verificamos que el segundo término de esta igualdad es cero, esto es, sicomprobamos la igualdad

(Ax−AAcy)T (AAcy − y) = 0.

En efecto tenemos:

(Ax−AAcy)T (AAcy − y) = (x−Acy)TAT ((AAc)T − I)y

= (x−Acy)T (AT (AAc)T −AT )y

= (x−Acy)T ((AAcA)T −AT )y

= (x−Acy)T (AT −AT )y = 0 .

5.44. Teorema. Sea A una matriz m× n y sea y un vector Rm. Si Ac es una c-inversa de A tal que AAc

es simétrica, entonces x0 = Acy es una S.M.C. para el sistema Ax = y.

Demostración. Por hipótesis y por el teorema anterior se tiene que x0 = Acy es tal que:

‖Ax − y ‖2 = ‖Ax −Ax0 ‖2 + ‖Ax0 − y ‖2 ≥ ‖Ax0 − y ‖2.

Para todo vector x. De aquí que para todo vector x:

‖Ax0 − y ‖ ≤ ‖Ax − y ‖,

esto es, x0 = Acy es una S.M.C. para el sistema Ax = y. �

5.45. Teorema. Sea A una matriz m× n y sea y un vector Rm. El sistema de ecuaciones lineales Ax = ytiene una única M.S.A., a saber

x0 = A+y.

Demostración. Por definición de g-inversa se tiene que A+ es en particular una c-inversa de A quesatisface la propiedad de que AA+ es una matriz simétrica, entonces por el teorema 5.43 se tiene para todox que:

‖Ax − y ‖2 = ‖Ax −AA+y ‖2 + ‖AA+y − y ‖2 ≥ ‖AA+y − y ‖2.De aquí que para todo vector x :

(5.4) ‖AA+y − y ‖ ≤ ‖Ax − y ‖

Esto es, x0 = A+y es una S.M.C. para el sistema Ax = y. Se quiere demostrar ahora x0 = A+y que laM.S.A. para ello se muestra, que si x∗ 6= x0 es otra S.M.C. del sistema Ax = y (esto es si x∗ satisfaceAx∗ = AA+y) entonces se tiene que ‖x0 ‖ < ‖x∗ ‖. Para ello se verifica primero que para todo x se satisfacela igualdad

(5.5) ‖A+y + (I −A+A)x2‖ = ‖A+y ‖2 + ‖ (I −A+A)x ‖2 .

123

5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

En efecto se tiene que:

‖A+y + (I −A+A)x‖2 = ‖A+y ‖2 + 2(A+y)T (I −A+A)x +

‖ (I −A+A)x ‖2 .

La igualdad (5.5) se obtendrá entonces si verifica que el segundo término de la igualdad anterior es cero.Esto último se sigue fácilmente de

(A+y)T (I −A+A)x = yTh(A+)T − (A+)T (AA+)T

ix

= yTh(A+)T − (A+AA+)T

ix

= yT (0)x = 0

Tómese ahora un vector x∗ 6= x0, tal que Ax∗ = AA+y. Multiplicando por A+ obtenemos A+Ax∗ = A+y.De aquí y de (5.5) aplicada a x∗ se tiene que:

‖x∗‖2 = ‖A+y + x∗ −A+y‖2

= ‖A+y + x∗ −A+Ax∗‖2

= ‖A+y + (I −A+A)x∗‖2

= ‖A+y ‖2 + ‖ (I −A+A)x∗ ‖2

> ‖A+y ‖2 = ‖x0‖2 .

5.46. Observación. El teorema anterior establece que todo sistema de ecuaciones lineales Ax = y tieneuna única M.S.A., x0 = A+y. Por esto, se hablará de aquí en adelante de la mejor solución aproximada(M.S.A.) de un sistema de ecuaciones lineales.

Ahora bien, puesto que la mejor solución aproximada del sistema de ecuaciones lineales Ax = y es unasolución mínima cuadrada, se tiene el siguiente teorema.

5.47. Corolario. Todo sistema de ecuaciones lineales Ax = y tiene al menos una S.M.C.

5.48. Ejemplo. Para el sistema de ecuaciones lineales

Ax =

24 1 11 11 1

35» xy

–=

24 123

35 = y,

se tiene que x0 = A+y =1

6

»1 1 11 1 1

–24 123

35 =

»11

–es la M.S.A. Además:

‖Ax0 − y ‖ =√

2;

así que para todo vector x se tiene que: √2 ≤ ‖Ax − y ‖,

y si existe un vector x∗ tal que ‖Ax∗ − y ‖ =√

2, entonces se debe tener que:

‖x0‖ =√

2 < ‖x∗ ‖. �

5.49. Teorema. Sea A una matriz m × n y sea y un vector Rm. Si ρ(A) = n, entonces el sistema deecuaciones lineales Ax = y tiene una única S.M.C. que es justamente la M.S.A. dada por:

x0 = A+y.

124

Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

Demostración. Sea x∗ una S.M.C. del sistema de ecuaciones Ax = y. Por definición se tiene paratodo x ∈ Rn, entonces que ‖Ax∗ − y ‖ ≤ ‖Ax − y ‖, en particular, para el vector x0 = A+y se tiene:

(5.6) ‖Ax∗ − y ‖ ≤ ‖AA+y − y ‖.

De otra parte, como A+ es una c-inversa de A tal que AA+ es simétrica, entonces se tiene (ver teorema5.43)

‖Ax − y ‖2 = ‖Ax−AA+y ‖2 + ‖AA+y − y ‖2 ∀x ∈ Rn.

En particular, para el vector x∗ se tiene:

‖Ax∗ − y ‖2 = ‖Ax∗ −AA+y ‖2 + ‖AA+y − y ‖2.(5.7)

De (5.6) y (5.7) se sigue que:

‖AA+y − y ‖2 ≤ ‖Ax∗ −AA+y ‖2 + ‖AA+y − y ‖2

= ‖Ax∗ − y ‖2 ≤ ‖AA+y − y ‖2

De aquí que‚‚Ax∗ −AA+y

‚‚ = 0 y por lo tanto:

Ax∗ = AA+y .

Puesto que ρ(A) = n, entonces A+ =`ATA

´−1AT (teorema 5.15), en consecuencia:

Ax∗ = A“ATA

”−1

ATy.

Premultiplicando esta igualdad por`ATA

´−1AT , se obtiene:

x∗ =“ATA

”−1

ATAx∗

=“ATA

”−1

ATA“ATA

”−1

ATy“ATA

”−1

ATy = A+y = x0 .

5.50. Ejemplo. Encuentre una recta de ajuste, por mínimos cuadrados (ver figura 5.4), que se adapte alos puntos:

(0, 1); (1, 3); (2, 4); (3, 4) .

Para ello se debe encontrar una S.M.C. del sistema de ecuaciones lineales Ax = y, donde

A =

26641 x1

1 x2

1 x3

1 x4

3775 =

26641 01 11 21 3

3775 , y =

2664y1y2y3y4

3775 =

26641344

3775y el vector incógnita x está dada por

x =

»ab

–.

125

5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

Puesto que ρ(A) = 2, entonces por el teorema anterior, el sistema dado tiene una única S.M.C., a saber:

x0 = A+y = (ATA)−1ATy

=1

10

»7 4 1 −2−3 −1 1 3

–26641344

3775=

»1.51

–=

»a∗

b∗

En consecuencia, la recta de ajuste, por mínimos cuadrados, de los datos dados es:

y = a∗ + b∗x = 1.5 + x. �

(0,1)

(1,3)

(2,4)(3,4)

y=1.5+x

y

x

Figura 5.4. Ajuste lineal ejemplo 5.50

5.51. Ejemplo. Encuentre una recta de ajuste, por mínimos cuadrados, que se adapte a los puntos:

(1, 1); (1, 2) .

Observe que en este caso los puntos dados pertenecen a la recta, de pendiente infinita, x = 1.(ver figura5.5(a))

126

Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

x

(1,2)

(1,1)

yx = 1

b) Ajuste por rectas de pendiente no infinita

y

x

(1,2)

(1,1)

y=3/2x

y=3/4+3/4x

a) Ajuste por una recta de pendiente infinita

Figura 5.5. Ajuste lineal ejemplo 5.51

Ahora bien, si se busca una recta y = a + bx, que no tenga pendiente infinita, que se adapte por mínimoscuadrados, a los puntos dados, entonces se debe encontrar una S.M.C. del sistema de ecuaciones lineales(ver figura 5.5(b))

Ax =

»1 x1

1 x2

– »ab

–=

»1 11 1

– »ab

–=

»12

–=

»y1y2

–= y.

Una S.M.C. del sistema dado es:

x0 = A+y =1

4

»1 11 1

– »12

–=

»3/43/4

–=

»a∗

b∗

–.

Así que una recta de ajuste, por mínimos cuadrados, de los puntos dados es:

y = a∗ + b∗x =3

4+

3

4x .

De otra parte, la matriz

Ac =

»0 0

1/2 1/2

–es una c-inversa de A, AAc es simétrica. En efecto,

AAc =

»1/2 1/21/2 1/2

–.

Por lo tanto, de acuerdo con el teorema 5.44,

x0 = Acy =

»0

3/2

–=

»a

b

–es también una S.M.C. Así que otra recta de ajuste por mínimos cuadrados, de los puntos dados es (verfigura 5.5(b)):

y = a∗ + b∗x =3

2x . �

127

5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

B. Adaptación a polinomios de grado n.

La técnica descrita antes para adaptar una recta a n puntos dados, se generaliza fácilmente a la adaptación,por mínimos cuadrados, de un polinomio de cualquier grado a un conjunto de puntos dados.

A continuación se muestra cómo adaptar un polinomio de grado ≤ m,

y = a0 + a1x+ a2x2 + . . .+ amx

m

a un conjunto de n puntos (x1, y1); (x2, y2); . . . ; (xn, yn), mediante la técnica de los mínimos cuadrados.

Sustituyendo estos n valores de x y y en la ecuación polinómica se obtienen las n ecuaciones siguientes:26664y1y2...yn

37775 =

266641 x1 x2

1 · · · xm11 x2 x2

2 · · · xm2...

......

. . ....

1 xn x2n · · · xmn

3777526664

a0

a1

...am

37775

De lo que se trata nuevamente, es de encontrar una S.M.C. del sistema de ecuaciones lineales Ax = y.

5.52. Ejemplo. Encontrar un polinomio de grado dos que mejor se ajuste, por mínimos cuadrados, a lospuntos:

(−1, 0); (0,−2); (1,−1); (2, 0) .

Se debe encontrar una S.M.C. del sistema de ecuaciones lineales:

Ax =

26641 −1 11 0 01 1 11 2 4

377524 a1

a2

a3

35 =

26640−2−1

0

3775 = y.

Puesto que ρ(A) = 3, el sistema dado tiene una única S.M.C., la cual está dada por:

x0 = A+y = (ATA)−1ATy

=1

20

24 3 11 9 −3−1 3 7 1

5 −5 −5 5

352664

0−2−1

0

3775=

1

20

24 −31−13

15

35 =

24 −1.55−0.65

0.75

35En consecuencia, existe un único polinomio de grado dos que se ajuste por mínimos cuadrados de los datosdados. Este polinomio está dado por (ver figura 5.6):

y = −1.55− 0.65x+ 0.75x2 . �

128

Inversa generalizada e inversa condicional 5.4. Mínimos cuadrados

(2,0)(1,−1)

(−1,0)

x

y

(0,−2)

y=−1.55−0.65x+0.75x2

Figura 5.6. Ajuste cuadrático ejemplo 5.52

5.4 Ejercicios

1. Si el sistema de ecuaciones lineales Ax = y tiene solución, demuestre entonces que la soluciónx = A+y es única sii A+A = I, y en este caso A+y = Acy para toda c-inversa Ac de A.

2. Si x1, x2, . . . ,xn son soluciones del sistema de ecuaciones lineales Ax = y, y si λ1, λ2, . . . , λn sonescalares tales que

Pni=1 λi = 1, demuestre entonces

x =

nXi=1

λixi

es una solución del sistema Ax = y.3. Sea y = a + bx una línea recta que se quiere adaptar, por mínimos cuadrados, a los puntos

(x1, y1); (x2, y2); . . . ; (xn, yn). Utilice el teorema 5.39 y la regla de Cramer para demostrar quesi para algún i y para algún j, xi 6= xj , entonces existe una única recta de ajuste, por mínimoscuadrados, a los puntos dados:

y = a∗ + b∗x

y que a∗ =∆a

∆y b∗ =

∆b

∆, donde:

∆ = det

24 nPni=1 xiPn

i=1 xiPni=1 x

2i

35

∆a = det

24 Pni=1 yi

Pni=1 xiPn

i=1 xiyiPni=1 x

2i

35

∆b = det

24 nPni=1 yiPn

i=1 xiPni=1 xiyi

35129

5.4. Mínimos cuadrados Inversa generalizada e inversa condicional

4. Encuentre la M.S.A. del sistema de ecuaciones lineales Ax = y, donde:

A =

26642 2 22 2 21 −1 02 −2 0

3775 y y =

26641234

3775 .

5. Encuentre la M.S.A del sistema de ecuaciones lineales8>>><>>>:x+ 2y = 1

−x+ y = 1

2x− 3y = 2

3x+ y = 3 .

6. Encuentre la ecuación de la recta que mejor se ajuste por mínimos cuadrados a los puntos:

(0, 1); (1, 3); (2, 2); (3, 4).

7. Obtenga la ecuación del polinomio de grado dos que mejor se adapte, por mínimos cuadrados, alos puntos:

(−1, 4); (0, 2); (1, 0); (2, 1).

8. Dé, si las hay, dos S.M.C. diferentes del sistema de ecuaciones lineales:

Ax =

»2 22 2

– »xy

–=

»10

–.

9. Suponga que las variables x y y se relacionan por medio de la ecuación y = a · bx; a > 0, b > 0.a) Verique que dicha ecuación se puede transformar en la ecuación

y∗ = a∗ + b∗x ,

donde y∗ = ln y, a∗ = ln a y b∗ = ln b. Y viceversa.b) Determine, los valores de las constantes a > 0, b > 0 en el modelo y = a · bx que mejor se

adapte a los datosx -1 1 2y 1 6 10

Estime el valor de y para x = 5. Para ello encuentre la recta y∗ = a∗+b∗x que mejor se adapte,por mínimos cuadrados a los puntos de la forma (x, ln y).

10. Determine la ecuación del plano z = a + bx + cy que mejor se adapte, por mínimos cuadrados, alos puntos (0, 1, 5), (1, 0, 2), (1, 1, 7), (1,-1,-1).

130

CAPÍTULO 6

Factorización de matrices

En este capítulo se estudian algunas de las técnicas más utilizadas para factorizar matrices, es decir, técnicasque permiten escribir una matriz como producto de dos o tres matrices con una estructura especial. Lafactorización de matrices es importante por ejemplo cuando se quiere resolver sistemas de ecuaciones conun número muy grande tanto de variables como de ecuaciones, pero también cuando se quieren resolversistemas simultáneos de ecuaciones. En la sección 6.1 se tratará la descomposición LU , en la sección 6.2 seabordará la descomposición QR, en la sección 6.3 se tratará la descomposición de Cholesky y en la sección6.4 se abordará aspectos relativos a la descomposición en valores singulares.

6.1. Descomposición LU

En esta sección se estudia, quizás la factorización de matrices más sencilla pero igualmente muy útil. Setrata de la factorización o descomposición LU , la cual está directamente relacionada con las operacioneselementales aplicadas a una matriz, para llevarla a una forma triangular inferior. Como una motivación,suponga que se conoce cómo factorizar una matriz A, m× n en la forma

(6.1) A = LU

donde L es una matriz triangular inferior (del inglés lower) m ×m y U es una matriz escalonada m × n(del inglés upper). Entonces el sistema

(6.2) Ax = b

puede resolverse de la siguiente forma: Usando (6.1), el sistema (6.2) se puede escribir en la forma

(6.3) L(Ux) = b.

En este punto se introduce una nueva variable (por sustitución) y = Ux, obteniendo así el nuevo sistema

(6.4) Ly = b.

Una vez en este punto, se resolve dicho sistema para la variable y, mediante sustitución hacia adelante.Como paso final, usamos sustitución hacia atrás para resolver el sistema

(6.5) Ux = y.

Es de anotar, que los sistemas (6.4) y (6.5) son relativamente fáciles de resolver dado que se trata de matricesde coeficientes triangulares inferiores y superiores respectivamente. La factorización o descomposición LUes particularmente útil cuando se requiere resolver de manera simultánea varios sistemas de ecuaciones quedifieren únicamente en la parte no homogénea.

El siguiente resultado da condiciones suficientes para la existencia de una tal factorización LU para unamatriz cuadrada A. Posteriormente se extenderá a matrices rectangulares.

131

6.1. Descomposición LU Factorización de matrices

6.1. Teorema (Factorización ). Sea A una matriz cuadrada n × n. Supongamos que A se puede reducirpor filas a una matriz triangular superior, U aplicando únicamente operaciones elementales de eliminación(operaciones del tipo αFi+Fj con i < j). Entonces existe una matriz triangular inferior L que es invertibley posee unos en su diagonal principal, tal que

A = LU.

Si A es invertible, entonces esta descomposición es única.

Demostración. Por hipótesis, existen matrices elementales E1, E2, . . . , Ek del tipo (αFi+Fj , i > j)y una matriz U (triangular superior) tales que

EkEk−1 · · ·E2E1A = U.

De aquí se obtiene A = E−11 E−1

2 · · ·E−1k U.

Ahora bien, por construcción, cada matriz elemental E1, E2, . . . , Ek es triangular inferior y tiene unos ensu diagonal principal, por consiguiente sus inversas E−1

1 , E−12 , · · · , E−1

k y la matriz L = E−11 E−1

2 · · ·E−1k

también tienen las mismas características (ver ejercicio 5 de la sección 6.1). Lo que implica que se haobtenido la factorización LU buscada para la matriz A, es decir:

A = LU,

Para demostrar la unicidad de dicha factorización se procede como es usual. Supóngase que se tienen dosfactorizaciones LU para A de la forma

A = L1U1 = L2U2,

con U1, U2 matrices triangulares superiores y L1, L2 matrices triangulares inferiores con unos en su diagonalprincipal. Como A es invertible las matrices U1, U2 también lo son, más aún sus inversas son igualmentetriangulares superiores (ver ejercicio 6 de la sección 6.1). De esta última igualdad se obtiene entonces

L−12 L1 = U2U

−11 .

El lado izquierdo de esta igualdad es producto de matrices triangulares inferiores con unos en la diagonal,por tanto es triangular inferior y tiene unos en la diagonal principal. Igualmente, el lado derecho es unatriangulares superiores, pues es el producto de matrices triangulares superiores (ver ejercicio 6 de la sección6.1). Entonces L−1

2 L1 = I, de esto se sigue que L2 = L1 y por ende,

U1 = U2.

En el ejemplo 6.5 se considerará una matriz no invertible, que posee infinitas descomposiciones LU.

6.2. Ejemplo. Considere la matriz 3× 3, A =

24 1 4 72 5 83 6 12

35 . Aplique operaciones elementales, sin inter-

cambio, para llevar a la matriz A a una forma escalonada.24 1 4 72 5 83 6 12

35 −2F1+F2−→−3F1+F3

24 1 4 70 −3 −60 −6 −9

35−2F2+F3−→

24 1 4 70 −3 −60 0 3

35 = U

132

Factorización de matrices 6.1. Descomposición LU

Si se denota entonces con E1, E2 y E3 a las matrices elementales provenientes de las operaciones elementales−2F1 + F2, −3F1 + F3 y −2F2 + F3 respectivamente, entonces se obtiene

E3E2E1A = U

A = (E3E2E1)−1U

= E−11 E−1

2 E−13 U

=

24 1 0 02 1 00 0 1

3524 1 0 00 1 03 0 1

3524 1 0 00 1 00 2 1

35U=

24 1 0 02 1 03 2 1

3524 1 4 70 −3 −60 0 3

35 = LU .

En este caso esta factorización es única. �

6.3. Observación. Como sólo se han efectuado operaciones del tipo αFi + Fj con i < j, (αFi + Fj)−1 =

(−α)Fi + Fj y L es triangular inferior con unos (1’s) en su diagonal principal. La información sobre L sepuede almacenar en aquellas posiciones donde se obtienen los ceros (0’s) de U, simplemente colocando losopuestos de los multiplicadores α en las operaciones elementales aplicadas del tipo αFi + Fj con i < j.

En el ejemplo anterior 24 1 4 72 5 83 6 12

35 −2F1+F2−→−3F1+F3

24 1 4 72 −3 −63 −6 −9

35−2F2+F3−→

24 1 4 72 −3 −63 2 3

35de donde se obtiene que

L =

24 1 0 02 1 03 2 1

35 y U =

24 1 4 70 −3 −60 0 3

35son tales que A = LU .

6.4. Ejemplo. Considere la matriz

A =

26642 3 2 44 10 −4 0−3 −2 −5 −2−2 4 4 −7

3775 .Aplíquense las operaciones elementales, sin intercambio, para llevar la matriz A a una forma escalonada

133

6.1. Descomposición LU Factorización de matrices

26642 3 2 44 10 −4 0−3 −2 −5 −2−2 4 4 −7

3775(−2)F1+F2

(3/2)F1+F3

−→(1)F1+F4

26642 3 2 42 4 −8 −8−3/2 5/2 −2 4−1 7 6 −3

3775(−5/8)F2+F3

(−7/4)F2+F4

−→

26642 3 2 42 4 −8 −8−3/2 5/8 3 9−1 7/4 20 11

3775

(−20/3)F3+F4

−→

26642 3 2 42 4 −8 −8

3/2 5/8 3 9-1 7/4 20/3 −49

3775 ,de donde se obtiene que

L =

26641 0 0 02 1 0 0−3/2 5/8 3 0−1 7/4 20/3 1

3775 y U =

26642 3 2 40 4 −8 −80 0 3 90 0 0 −49

3775 ,son matrices tales que A = LU, siendo esta factorización única. �

6.5. Ejemplo. Considere la matriz A =

24 1 2 3−1 −2 −3

2 4 6

35 . Se procede entonces a aplicar operaciones

elementales, sin intercambio, para llevar la matriz A a una forma escalonada24 1 2 3−1 −2 −3

2 4 6

35 (1)F1 + F2

−→(−2)F1 + F3

24 1 2 3−1 0 02 0 0

35de donde se obtiene que

U =

24 1 2 30 0 00 0 0

35 y L =

24 1 0 0−1 1 0

2 x 1

35 con x arbitrario.

En este caso A = LU, donde L no es única. �

Considere ahora el caso en que se necesitan intercambio de filas para poder reducir una matriz. Existe en estecaso un procedimiento que permite extender la factorización LU , el cual hace uso de matrices permutación.

Como se recordará, el intercambio de dos filas de una matriz A se puede expresar como PiA, siendo Pila matriz permutación correspondiente a las filas de A que deseamos intercambiar. Ahora bien. Si durantela reducción de A a una forma escalón necesitamos realizar P1, . . . , Pk permutaciones de filas, éstas puedehacerse al comienzo de todo el procedimiento y producir así la matriz P = P1 · · ·Pk. El paso siguienteconsiste entonces en aplicar la factorización LU a la matriz PA en lugar de la matriz A. Es decir, nosotrosbuscamos ahora matrices L (triangular inferior) y U (triangular superior) tales que

PA = LU .

6.6. Ejemplo. Halle la descomposición para la matriz

A =

24 0 2 32 −4 71 −2 5

35 .134

Factorización de matrices 6.1. Descomposición LU

En este caso, para reducir A a una matriz triangular superior U es necesario primero una o varias operacioneselementales del tipo permutación de filas (también es posible usar operaciones del tipo αFi +Fj con i > j).Una de tales operaciones de intercambio puede ser F12. Si se denota con P a la correspondiente matrizpermutación se obtiene entonces

PA =

24 2 −4 70 2 31 −2 5

35 .A esta nueva matriz se le aplican los pasos descritos en los ejemplos anteriores pa obtener24 2 −4 3

0 2 31 −2 5

35 (1/2)F1 + F3

−→

24 2 −4 70 2 3

1/2 0 3/5

35de aquí se sigue que

L =

24 1 0 00 1 0

1/2 0 1

35 y U =

24 2 −4 70 2 30 0 3/5

35son matrices tales que

PA = LU . �

6.7. Teorema. Sea A una matriz invertible n× n. Entonces existe una matriz de permutación P tal que

PA = LU

donde L es una matriz triangular inferior y U es una matriz triangular superior. Se tiene además, que paracada matriz P , L y U son únicas.

El siguiente teorema recoge ahora la formulación para la descomposición LU para matrices A rectangularesm× n. El esquema para una factorización LU para una matriz Am×n está dado por la gráfica 6.1, la cualcorresponde respectivamente a los casos m = n, m < n y m > n.

6.8. Teorema. Sea A una matriz rectangular m×n que se puede reducir a una forma escalonada efectuandoúnicamente operaciones elementales de eliminación (operaciones del tipo αFi + Fj con i < j). Entoncesexiste una matriz m ×m triangular inferior L con unos en la diagonal principal y una matriz m × n, Ucon uij = 0, si i > j tales que

A = LU.

6.9. Ejemplo. Encontre la descomposición LU para la matriz

A =

24 1 4 7 22 5 8 −13 6 12 3

353×4

.

Aplique para ello, operaciones elementales, sin intercambio, para llevar a la matriz A a una forma escalonada24 1 4 7 22 5 8 −13 6 12 3

35 (−2)F1 + F2

−→(−3)F1 + F3

24 1 4 7 22 −3 −6 −53 −6 −9 −3

35(−2)F1 + F2

−→

24 1 4 7 22 −3 −6 −53 2 3 7

35135

6.1. Descomposición LU Factorización de matrices

AL

0

0

A

AL

0

U0

U

L

0

0

U

=

=

=

Figura 6.1. Esquema de la factorización LU

de donde se obtiene que

L =

24 1 0 02 1 03 2 1

35 y U =

24 1 4 7 20 −3 −6 −50 0 3 7

35son tales que A = LU. �

El siguiente ejemplo, ilustra cómo hacer uso de la descomposición LU en el proceso de resolver resolversistemas lineales de ecuaciones.

6.10. Ejemplo. Considere el sistema de ecuaciones

x1 + 4x2 + 7x3 = 1

2x1 + 5x2 + 8x3 = 2

3x1 + 6x2 + 12x3 = 4

cuya matriz de coeficientes corresponde a la matriz A del ejemplo 6.2 y cuyo término independiente esbT =

ˆ1 2 4

˜. De acuerdo con dicho ejemplo se tiene

A =

24 1 4 72 5 83 6 12

35 =

24 1 0 02 1 03 2 1

3524 1 4 70 −3 −60 0 3

35 = LU

Ahora bien planteamos el sistema Lz = b, esto es8><>:z1 = 1

2z1 + z2 = 2

3z1 + 2z2 + z3 = 4

,

cuya solución es

z =

24 101

35 .136

Factorización de matrices 6.1. Descomposición LU

Con esta solución planeamos el sistema Ux = z, esto es el sistema8><>:x1 + 4x2 + 7x3 = 1

−3x2 − 6x3 = 0

3x3 = 1

,

y cuya solución esx1 = 4/3; x2 = −2/3 x3 = 1/3. �

6.1 Ejercicios

En los ejercicios 1 al 4 responda falso o verdadero justificando su respuesta

1. Las operaciones elementales en las filas del tipo αFi +Fj con i < j, producen matrices elementalestriangulares inferiores.

2. Las operaciones elementales en las columnas del tipo αCi + Cj con i < j, producen matriceselementales triangulares inferiores.

3. El producto de dos matrices elementales del mismo tamaño, es una matriz elemental.4. La descomposición LU para cualquier matriz A es única.

En los ejercicios 5 al 6 demuestre la afirmación correspondiente

5. Suponga que Li, (i = 1, 2), son matrices triangulares inferiores:a) Muestre que el producto L1L2 es una matriz triangular inferior.b) Mueste que si L1es invertible, entonces su inversa L−1

1 es también una matriz triangular inferior(Sug.: use inducción matemática)

c) Muestre que si los elementos de la diagonal principal de L1 y L2 son tosdo iguales a 1 (uno),entonces las matrices L1L2, L−1

1 y L−12 también tienen unos en su diagonal principal. (Sug.:

use inducción matemática)6. Use el ejercicio anterior para demostrar que las afirmaciones son igualmente válidas para matrices

triangulares superiores.7. Use la factorización LU dada para resolver el sistema de ecuaciones lineales

a)»

1 0−3 1

– »4 10 −1

–x =

»−11

32

–b)»

1 05 1

– »2 10 −7

–x =

»1246

c)

24 1 0 04 1 0−2 3 1

3524 2 −2 10 3 10 0 −2

35x =

24 27−3

35d)

24 1 0 04 1 0−7 3 1

3524 −1 2 10 3 −10 0 −5

35x =

24 039

358. Calcule la descomposición LU de la matriz

A =

24 1 3 −1 22 7 1 1−1 2 17 3

35 .Use dicha descomposición para resolver el sistema Ax = y, yT =

ˆ5 18 14

˜.

137

6.2. Descomposición QR Factorización de matrices

9. Considere la matriz simétrica positiva definida S =

24 4 2 02 9 40 4 5

35 y calcule su descomposición LU.

6.2. Descomposición QR

En esta sección se hablará de la descomposición QR de una matriz, donde Q es una matriz con columnasortogonales (ortonormales) y R es una matriz triangular inferior. Dicha descomposición es de gran impor-tancia para resolver problemas de mínimos cuadrados y tiene una estrecha relación con el cálculo de lainversa generalizada de una matriz. En el caso de matrices cuadradas, dicha descomposición es la base deun algoritmo para determinar numéricamente y de forma iterativa, los valores propios de la matriz A (vercapítulo 8 de [10]).

En primer lugar se hace aquí la discusión de la descomposición QR para una matriz A de rango columnacompleto. En este caso, la factorización se basa en el proceso de ortogonalización de Gram-Schmidt descritoen teorema 1.33. El siguiente teorema garantiza la existencia de una tal factorización en dicho caso y sudemostración resume el proceso para encontrarla.

6.11. Teorema (Factorización QR (Parte I)). Sea A ∈ Mm×n una matriz de rango columna completo n.Entonces existen matrices Q ∈ Mm×n con columnas ortogonales (ortonormales) y R ∈ Mn×n triangularsuperior e invertible tales que

A = QR

Demostración. Considere la matriz A particionada por sus columnas, ésto es,

A =ˆA1 A2 · · · An

˜,

la cual por hipótesis es de rango columna completo n. De aquí se tiene que el conjunto B =˘A1, A2, . . . , An

¯es una base de C(A) (el espacio columna de A). Aplicando el proceso de ortogonalización de Gram-Schmidt(teorema 1.33) a esta base se obtiene

v1 = A1

v2 = A2 − 〈A2; v1〉

〈v1; v1〉v1

v3 = A3 − 〈A3; v1〉

〈v1; v1〉v1 −

〈A3; v2〉〈v2; v2〉

v2

...

vn = An −n−1Xi=1

〈An; vi〉〈vi; vi〉

vi .

138

Factorización de matrices 6.2. Descomposición QR

Despejando de aquí cada vector columna Aj obtenemos:

A1 = v1

A2 = v2 +〈A2; v1〉〈v1; v1〉

v1

A3 = v3 +〈A3; v1〉〈v1; v1〉

v1 +〈A3; v2〉〈v2; v2〉

v2

...

An = vn +

n−1Xi=1

〈An; vi〉〈vi; vi〉

vi.

Así que se puede escribir:

A =ˆA1 A2 · · · An

˜

A =ˆ

v1 v2 · · · vn˜

26666666666666666666664

1〈A2; v1〉〈v1; v1〉

〈A3; v1〉〈v1; v1〉

· · · 〈An; v1〉〈v1; v1〉

0 1〈A2; v2〉〈v2; v2〉

· · · 〈An; v2〉〈v2; v2〉

0 0 1 · · · 〈An; v3〉〈v3; v3〉

......

... · · ·...

0 0 0. . . 〈An; vn−1〉

〈vn−1; vn−1〉

0 0 0 · · · 1

37777777777777777777775A = Q0R0 ,

que corresponde a la descomposición QR no normalizada de la matriz A.

Usando ahora los módulos de las columnas de la matriz Q0 para definir la matriz diagonal invertibleD = diag(‖v1‖, ‖v2‖, . . . , ‖vn‖). De esta forma, se puede reescribir la igualdad A = Q0R0 como sigue:

A = Q0R0

= Q0D−1DR0

=h

v1‖v1‖

v2‖v2‖

· · · vn‖vn‖

i266666664‖v1‖ ‖v1‖

〈A2; v1〉〈v1; v1〉

· · · ‖v1‖〈An; v1〉〈v1; v1〉

0 ‖v2‖ · · · ‖v2‖〈An; v2〉〈v2; v2〉

......

. . ....

0 0 · · · ‖vn‖

377777775= QR ,

que corresponde a la descomposición QR normalizada de la matriz A. �

139

6.2. Descomposición QR Factorización de matrices

6.12. Ejemplo. Encuentre la descomposición QR para la matriz

A =

26641 2 −11 −1 21 −1 2−1 1 1

3775 =ˆA1 A2 A3

˜.

Aplicando el proceso de ortogonalización de Gram-Schmidt se obtiene

v1 = A1 =

2664111−1

3775 ;

v2 = A2 − 〈A2; v1〉

〈v1; v1〉v1 =

26642−1−1

1

3775+1

4

2664111−1

3775 =1

4

26649−3−3

3

3775 ;

v3 = A3 − 〈A3; v1〉

〈v1; v1〉v1 −

〈A3; v2〉〈v2; v2〉

v2

=

2664−1

221

3775− 1

2

2664111−1

3775+2

3

26649−3−3

3

3775 =

26640112

3775 .De aquí se tiene que

A1 = v1

A2 = −1

4v1 + v2

A3 =1

2v1 −

2

3v2 + v3.

Siguiendo ahora los delineamientos de la demostración del teorema anterior obtenemos:

A =ˆA1 A2 A3˜ = [v1 v2 v3]

24 1 −1/4 1/20 1 −2/30 0 1

35

=

26641 9/4 01 −3/4 11 −3/4 1−1 3/4 2

377524 1 −1/4 1/2

0 1 −2/30 0 1

35= Q0R0 (Descomposicón no normalizada).

140

Factorización de matrices 6.2. Descomposición QR

En este caso, la matriz D está dada por D = diag`2, 3

2

√3,√

6´. Entonces se puede escribir

A =ˆA1 A2 A3˜ = Q0D

−1DR0

=

2666666664

1/2 3/2√

3 0

1/2 −1/2√

3 1/√

6

1/2 −1/2√

3 1/√

6

−1/2 1/2√

3 2/√

6

3777777775

2666642 −1/2 1

0 3√

3/2 −√

3

0 0√

6

377775= QR (Descomposición normalizada). �

Suponga ahora que la matrizm×n, A no tiene rango columna no completo, esto es, ρ(A) = r con 0 < r < n.En este caso se tiene, que también existe una descomposición QR, pero la matriz Q en la factorización nonormalizada contiene columnas nulas, como lo establece el siguiente teorema.

6.13. Teorema (Factorización QR (Parte II)). Sea la matriz A ∈ Mm×n tal que ρ(A) = r con 0 < r < n.Entonces existen una matriz Q0 ∈ Mm×n con r columnas ortogonales no nulas y el resto nulas, y una matrizR0 ∈ Mn×n triangular superior invertible tales que

A = Q0R0 (Descomposición no normalizada) .

La matriz A también se puede descomponer de manera normalizada en la forma

A = QRr

donde Q ∈ Mm×r tiene columnas ortogonales (ortonormales) no nulas y Rr ∈ Mr×n es "triangular" superiorde orden r. Las r columnas no nulas de Q0, respectivamente las r columnas de Q, conforman una base paraC(A).

Demostración. Si se siguen los pasos de la demostración del teorema 6.11 se obtiene la descomposiciónQR no normalizada para A. Esto es,

A = Q0R0.

En este caso sin embargo, Q0 tendrá r columnas ortogonales no nulas y n− r columnas nulas. Ahora, paradefinir matriz diagonal D se usan los módulos de la columnas no nulas Q0 respetando sus posiciones y unos(1’s) en el resto de componentes de la diagonal de D. La matriz Q buscada corresponde entonces a la matrizformada por las columnas no nulas de Q0D

−1, igualmente Rr se obtiene eliminado de la matriz DR0, lasfilas con índices iguales a las columnas nulas de Q0. �

El siguiente ejemplo ilustra el proceso para calcular la descomposición QR en el caso de matrices que noson de rango columna completo.

6.14. Ejemplo. Encontrar la descomposición QR para la matriz

A =

26641 2 0 −11 −1 3 21 −1 3 2−1 1 −3 1

3775 =ˆA1 A2 A3 A4

˜.

141

6.2. Descomposición QR Factorización de matrices

Para ello se aplican los pasos del método de ortogonalización de Gram-Schmidt con las columnas de A, estoes:

v1 = A1 =

2664111−1

3775 ;

v2 = A2 − 〈A2; v1〉

〈v1; v1〉v1 = A2 +

1

4v1 =

1

4

26649−3−3

3

3775 ;

v3 = A3 − 〈A3; v1〉

〈v1; v1〉v1 −

〈A3; v2〉〈v2; v2〉

v2 = A3 − 9

4v1 + v2 =

26640000

3775 ;

v4 = A4 − 1

2v1 +

2

3v2 − 0v3 =

26640112

3775 .Despejando los vectores Aj ’s, en términos de los vectores vj ’s, como en el ejemplo 6.12 se obtiene entonces

A =ˆA1 A2 A3 A4

˜

=

26641 9/4 0 01 −3/4 0 11 −3/4 0 1−1 3/4 0 2

37752664

1 −1/4 9/4 1/20 1 −1 −2/30 0 1 00 0 0 1

3775= Q0R0.

Si se toma ahora la matriz diagonal D, cuyos elementos 〈D〉ii corresponden a los a los módulos de lasi-ésimas columnas no nulas de Q0. Para las columnas nulas de Q0 se considera 〈D〉ii = 1. En el ejemplo setiene entonces, D = diag

h2, 3

2

√3, 1 ,

√6iy de aquí se sigue que

A =ˆA1 A2 A3 A4

˜= Q0R0 = Q0D

−1DR0

=

2666666664

1/2 3/2√

3 0 0

1/2 −1/2√

3 0 1/√

6

1/2 −1/2√

3 0 1/√

6

−1/2 1/2√

3 0 2/√

6

3777777775

2666666664

2 −1/2 9/2 1

0 3√

3/2 −3√

3/2 −√

3

0 0 1 0

0 0 0√

6

3777777775.

Esto es,

142

Factorización de matrices 6.2. Descomposición QR

A =

2666666664

1/2√

3/2 0 0

1/2 −√

3/6 0√

6/6

1/2 −√

3/6 0√

6/6

−1/2√

3/6 0√

6/3

3777777775

2666666664

2 −1/2 9/2 1

0 3√

3/2 −3√

3/2 −√

3

0 0 1 0

0 0 0√

6

3777777775

=

2666666664

1/2√

3/2 0

1/2 −√

3/6√

6/6

1/2 −√

3/6√

6/6

−1/2√

3/6√

6/3

3777777775

2666642 −1/2 9/2 1

0 3√

3/2 −3√

3/2 −√

3

0 0 0√

6

377775

= QR .

La matriz Q se obtiene al eliminar la tercera columna (columna nula) de Q0D−1, mientras que R se obtiene

al eliminar la correspondiente tercera fila de DR0. �

El siguiente resultado presenta la relación existente entre la descomposición QR y la inversa generalizadade una matriz A. En este punto de la discusión, se suguiere al lector a recordar los conceptos dados en elcapítulo 5 sobre inversas condicionales (Ac), inversa generalizada (A+), mejor solución aproximada (M.S.A.)y solución mínima cuadrada (S.M.C.).

6.15. Teorema. Sea A ∈ Mm×n una matriz real.

1. Si ρ(A) = n entonces existe una matriz Q, m × n, con columnas ortonormales y una matriz Rtriangular superior e invertible n× n tales que

A = QR,

además se tiene queA+ = R−1QT .

2. Si ρ(A) = r < n entonces existe una matriz Q, m × n, con las primeras r columnas no nulasortonormales y una matriz R triangular superior n× n, ambas de rango r tales que

A = QR,

además se tiene queA+ = RT (RRT )−1QT .

Demostración. Suponga que A es una matriz m× n de rango columna completo. Según lo estableceel teorema 6.11, existen matrices Q ∈ Mm×n y R ∈ Mn×n con las condiciones citadas tales que A = QR.De otra parte, se sabe que A+ = (ATA)−1AT (teorema 5.15(1)). De aquí se sigue que:

A+ = (ATA)−1AT

= (RTQTQR)−1RTQT

= R−1(RT )−1RTQT

= R−1QT .

143

6.2. Descomposición QR Factorización de matrices

Lo que demuestra el inciso 1.

Suponga ahora, que A no tiene rango columna completo, es decir, suponga, que ρ(A) = r; 0 < r < n.Según el teorema 6.13 existen matrices Q ∈ Mr×n y R ∈ Mr×n con las condiciones requeridas tales queA = QR. Ahora, aplicando el teorema 5.15 (con B = Q y C = R), así como el literal (iv) del teorema 5.15,se obtiene entonces

A+ = RT (RRT )−1(QTQ)−1QT

= RT (RRT )−1QT , (puesto que (QTQ)−1 = Ir)

6.16. Nota. Con respecto a los resultados anteriores se puede anotar que:

1. Si A ∈ Mm×n es una matriz de rango r < n se tiene, usando la notación del teorema anterior, que

A+A = RT“RRT

”−1

R.

2. De acuerdo con el teorema 5.45, todo sistema de ecuaciones Ax = y tiene una única M.S.A. dadapor

x∗ = A+y.

Puesto que el conjunto de todas la soluciones mínimas cuadradas del sistema Ax = y están dadaspor (ver capítulo 5)

x = A+y + (I −A+A)h; h ∈ Rn.

Del literal anterior se sigue:

x = RT (RRT )−1QTy + (I −RT (RRT )−1R)h; h ∈ Rn,

y de aquí, que el conjunto de todas la soluciones mínimas cuadradas del sistema Ax = y está dadapor las soluciones

Rx = QTy .

6.17. Ejemplo. Considere el sistema de ecuaciones lineales Ax = y, siendo

A =

26641 2 0 −11 −1 3 21 −1 3 2−1 1 −3 1

3775 y y =

26641−1

21

3775 .De acuerdo con el ejemplo 6.14 ρ(A) = 3 y las matrices

Q =

2666666664

1/2√

3/2 0

1/2 −√

3/6√

6/6

1/2 −√

3/6√

6/6

−1/2√

3/6√

6/3

3777777775y R =

2666642 −1/2 9/2 1

0 3√

3/2 −3√

3/2 −√

3

0 0 0√

6

377775son tales que

A = QR .

144

Factorización de matrices 6.2. Descomposición QR

Entonces A+ = RT (RRT )−1QT , (ver teorema 6.15), es decir,

A+ =

266666666666664

2

9

1

18

1

180

7

18

1

18

1

18

1

6

1

18

1

18

1

18−1

6

01

6

1

6

1

3

377777777777775,

y el conjunto de todas las S.M.C. (ver nota 6.16) está dada por las soluciones del sistema

Rx = QTy =

24 1/2√3/2√6/2

35 ,es decir por la expresión

x =

26641/62/30

1/2

3775+ h

2664−2

110

3775 , h ∈ R.

En particular, si h = 1/18, se obtiene la M.S.A.

x∗ = A+y =1

18

26645

11−1

9

3775 . �

6.2 Ejercicios

En los ejercicios 1 al 1, responda falso o verdadero justificando su respuesta

1. Si Q es una matriz rectangular cuyas columnas son orgonormales entre sí, entonces QTQ = I.2. Demuestre que si A ∈ Mm×n tiene rango n y A = QR, donde Q tiene columnas ortogonales y R

es una matriz triangular superior con unos en su diagonal principal, entonces Q y R son únicas.3. Encuentre la matriz triangular R tal que A = QR en cada uno de los siguientes casos

a) A =

2666641 2

1 1

−1 1

377775 , Q =

26666666664

1√3

4√42

1√3

1√42

− 1√3

5√42

37777777775145

6.3. Descomposición de Cholesky Factorización de matrices

b) A =

2666641 −1 1

0 1 −1

−1 1 1

377775 , Q =

266666664

1√2

01√2

0 1 0

− 1√2

01√2

3777777754. Calcule la descomposición QR de las matrices

(a) A =

26641 0 00 1 11 1 −10 0 1

3775 (b) B =

26641 1 3−1 1 1

1 2 −21 2 0

3775

(c) C =

26641 1 21 0 01 1 11 0 −1

3775 (d) D =

26641 2 41 1 31 −1 11 1 3

3775

6.3. Descomposición de Cholesky

A diferencia de las factorizaciones vistas hasta ahora, la factorización o descomposición de Cholesky se aplicasólo a matrices simétricas positivas definidas y ésta consiste en expresar una tal matriz como producto deuna matriz triangular superior y por su transpuesta. En forma más precisa tenemos

6.18. Teorema (Factorización de Cholesky). Si A ∈ Mn×n es una matriz simétrica positiva definida,entonces existe una única matriz real T = [tij ]n×n triangular superior con tii > 0 (i = 1, . . . , n), tal que

A = TTT .

Además,|A| = |T |2 = [Πn

i=1 tii]2 .

Demostración. La demostración la hará usando inducción sobre el orden de la matriz. Primero sedemuestra que la afirmación es válida para n = 2, en efecto:

Sea A =

»α ββ θ

–una matriz 2×2 simétrica positiva definida, entonces se tiene que α > 0 y |A| = αθ−β2 >

0 (teorema 4.27). Se necesita mostrar que existe una única matriz triangular superior T =

»a b0 c

–, con

elementos de la diagonal positivos, tal que A = TTT, esto es:»α ββ θ

–=

»a 0b c

– »a b0 c

–=

»a2 abab b2 + c2

–.

De ésto se tiene que

a2 = α de donde, a =√α (a > 0)

ab = β de donde, b =β√α

y

b2 + c2 = θ de donde, c =

pαθ − β2

√α

(c > 0).

146

Factorización de matrices 6.3. Descomposición de Cholesky

ésto es,

A =

»α ββ θ

–=

2664√α 0

β√α

pαθ − β2

√α

3775266664√α

β√α

0

pαθ − β2

√α

377775 = TTT,

además, se tiene que |A| = (t11 · t22)2.

Suponga ahora que la afirmación es cierta para n = k, ésto es, sea B ∈ Mk×k una simétrica positivadefinida. Supongamos que existe una única matriz triangular superior U ∈ Mk×k tal que A = UTU y que|A| = |U |2 = [Πk

i=1 u2ii] (hipótesis de inducción).

Se demuestra entonces ahora, que la afirmación es cierta para n = k + 1. Considere para ello una ma-triz A ∈ M(k+1)×(k+1) simétrica positiva definida. Se puede escribir la matriz A por bloques en la forma

A =

»A aat θ

–, con A ∈ Mk×k, a ∈ Mk×1 y θ ∈ R

La matriz A es simétrica positiva definida (teorema 4.27), entonces por hipótesis de inducción, existe unaúnica matriz triangular superior U ∈ Mk×k tal que A = UTU y

˛A˛

=˛U˛2

= [Πki=1 uii]

2.

Considere ahora la matriz triangular superior T de tamaño (k + 1)× (k + 1), con elementos de la diagonalprincipal positivos y escrita por bloques en la forma

T =

»U y0 z

–,

donde y ∈ Mk×1 y z ∈ R+ deben ser escogidos adecuadamente tales que, A = TTT ; esto es, tales que:

A =

»A aaT θ

–=

»UT 0yT z

– »U y0 z

=

»UTU UTyyTU yTy + z2

–.

Igualando término a término se debe tener que

UTy = a, lo que implica que y = (UT )−1a

yTy + z2 = θ, lo que implica que z = (θ − yTy)1/2.

Además se tiene que

|A| = |T |2 = |U |2z2

=hΠki=1 uii

i2z2 =

hΠk+1i=1 tii

i2.

A continuación se verán dos procesos para calcular la factorización de Cholesky. El primero se basa en ladefinición propia de la factorización de Cholesky, mientras que el segundo usa resultados sobre diagonal-ización de matrices positivas definidas.

Proceso A (cálculo de la factorización de Cholesky):

147

6.3. Descomposición de Cholesky Factorización de matrices

Sea A una matriz simétrica n × n positiva definida. Puesto que A = TTT con T una matriz triangularsuperior con elementos positivos en su diagonal principal, se debe tener que:

A =

2666664a11 a12 a13 · · · a1n

a12 a22 a23 · · · a2n

a13 a23 a33 · · · a3n

......

.... . .

...a1n a2n a3n · · · ann

3777775

=

2666664t11 0 0 · · · 0t12 t22 0 · · · 0t13 t23 t33 · · · 0...

......

. . ....

t1n t2n t3n · · · tnn

3777775

2666664t11 t12 t13 · · · t1n0 t22 t23 · · · t2n0 0 t33 · · · t3n...

......

. . ....

0 0 0 · · · tnn

3777775 .Cálculos directos muestran entonces que se debe cumplir que:

1. t11 =√a11.

2. t1j =a1j

t11=

a1j√a11

; j = 1, . . . , n.

3. tii = (aii −Pi−1k=1 t

2ki)

1/2; i = 2, . . . , n.

4. tij =1

tii[aij −

i−1Xk=1

tkitkj ]; j > i, i = 2, . . . , n− 1.

5. tij = 0; j < i, i = 2, . . . , n.

Observación. Con respecto a este método y al cálculo de los elementos no nulos tij de la matriz triangularT se puede decir que:

1. t2ii es igual al elemento aii menos la suma de los cuadrados de los elementos ya calculados de lai-ésima columna de T . Es decir,

t2ii = aii −i−1Xk=1

t2ki, i = 1, . . . , n.

2. El producto tii · tij es igual a aij menos la suma del producto de los elementos ya calculados de lasi-ésima y j-ésima columnas de T . Es decir,

tij · tii = aij −i−1Xk=1

tkitkj ; j > i, i = 2, . . . , n− 1 .

6.19. Ejemplo. Siguiendo el esquema anterior, encuentre la descomposición de Cholesky para la matrizsimétrica positiva definida

A =

26644 −2 0 2−2 2 3 −2

0 3 18 02 −2 0 4

3775 .Cálculos directos muestran que:

148

Factorización de matrices 6.3. Descomposición de Cholesky

1. t11 =√a11 = 2; t12 =

a12

2= −1; t13 =

a13

2= 0; t14 =

a14

2= 1.

2. t22 =pa22 − t212 =

√2− 1 = 1;

t23 =a23 − t12t13

t22=

3− (−1) · 01

= 3

t24 =a24 − t12t14

t22=−2− (−1) · 1

1= −1.

3. t33 =pa33 − t213 − t223 =

√18− 02 − 32 = 3;

t34 =a33 − t13t14 − t23t24

t33=

0− 0 · 1− 3(−1)

3= 1

4. t44 =pa44 − t214 − t224 − t234 =

p4− 12 − (−1)2 − 12 = 1

Es decir,

T =

26642 −1 0 10 1 3 −10 0 3 10 0 0 1

3775 ,es la matriz triangular superior tal que A = TTT. �

6.20. Ejemplo. Siguiendo con el esquema anterior, encuentre la descomposición de Cholesky para la matrizsimétrica positiva definida

A =

24 4 2 −42 10 4−4 4 9

35 ,Cálculos directos muestran que:

1. t11 =√a11 = 2; t12 =

a12

t11= 1; t13 =

a13

2= −2.

2. t22 =pa22 − t212 =

√10− 1 = 3;

t23 =a23 − t12t13

t22=

4− (1)(−2)

3= 2.

3. t33 =pa33 − t213 − t223 =

p9− (−2)2 − (2)2 = 1.

Es decir,

T =

24 2 1 −20 3 20 0 1

35 ,es la matriz triangular superior tal que A = TTT. �

Proceso B (cálculo de la factorización de Cholesky):

De acuerdo con los resultados presentados en el capítulo 4 se tiene que una matriz simétrica A, es positivadefinida, si existe una matriz triangular superior P, tal que PTAP = I (ver también el teorema 4.31). Deaquí que

A = (PT )−1P−1 = (P−1)TP−1.

Así las cosas, se puede encontrar una tal matriz PT usando los pasos ilustrados en el ejemplo 3.46, esdecir, planteando la matriz

ˆA | I

˜y realizando de manera adecuada y simultáneamente operaciones

elementales en las filas y columnas de A y en las filas de I (sin hacer intercambios de filas).

149

6.3. Descomposición de Cholesky Factorización de matrices

Nota. Existe una relación entre la factorización LU para matrices positivas definidas y la descomposiciónde Cholesky. En efecto, si A es simétrica positiva definida entonces A se puede expresar mediante A = TTTcon T una matriz triangular superior con elementos positivos en la diagonal principal.

Ahora bien, sea D = diag (t11, t22, . . . , tnn) entonces se tiene que:

A = TTT

= TTD−1DT

= (TTD−1)(DT )

= LU.

6.21. Ejemplo. Considere la matriz simétrica positiva definida

A =

24 4 2 −42 10 4−4 4 9

35 .Del ejemplo 6.20 se tiene que

A =

24 4 2 −42 10 4−4 4 9

35 =

24 2 0 01 3 0−2 2 1

3524 2 1 −20 3 20 0 1

35 = TTT .

Tomando D =

24 2 0 00 3 00 0 1

35 , se tiene que

A =

24 2 0 01 3 0−2 2 1

3524 2 1 −20 3 20 0 1

35=

24 2 0 01 3 0−2 2 1

3524 1/2 0 00 1/3 00 0 1

3524 2 0 00 3 00 0 1

3524 2 1 −20 3 20 0 1

35=

24 1 0 01/2 1 0−1 2/3 1

3524 4 2 −40 9 60 0 1

35 = LU . �

Ahora bien, suponga que se desea hallar las soluciones del sistema de ecuaciones lineales Ax = y, siendo Auna matriz simétrica y positiva definida. Sea T triangular positiva tal que A = TTT , entonces

Ax = y⇐⇒ TTTx = y⇐⇒ Tx = (TT )−1y,

es decir, si se conoce la factorización de Cholesky para una matriz A = TTT , la solución del sistema Ax = yse reduce a encontrar la solución del sistema triangular superior

Tx = z, con z = (TT )−1y.

6.22. Ejemplo. Considere el sistema de ecuaciones lineales

4x1 + 2x2 − 4x3 = 12

2x1 + 10x2 + 4x3 = 6

−4x1 + 4x2 + 9x3 = −3 .

150

Factorización de matrices 6.4. Descomposición en valores singulares

Puesto que la matriz de coeficientes es justo la matriz del ejemplo 6.20, la matriz aumentada del sistemase puede reducir mediante multiplicación del sistema por la matriz T−T (ver ejemplo 6.20), para obtener:

ˆA | y

˜=

24 4 2 −4 | 122 10 4 | 6−4 4 9 | −15

35∼=

24 2 1 −2 | 60 3 2 | 00 0 1 | −3

35 =ˆT | z

˜.

De esto último se sigue que

x3 = −3,

x2 =−2x3

3=

6

3= 2,

x1 =6 + 2x3 + x2

2=

6− 2− 6

2= −1. �

6.3 Ejercicios

1. Considere la matriz simétrica positiva definida S =

24 4 2 02 9 40 4 5

35 y calcule sus descomposición de

Cholesky (compare con el problema 9 de la seccion de ejercicios 6.1)

6.4. Descomposición en valores singulares (SVD)

En esta sección se abordará el estudio de la descomposición de una matriz rectangular A la cual involucralos valores y vectores propios de la matrices simétricas AAT y ATA. Como se recordará dichas matrices sonpositivas semidefinidas y por ello sus valores propios son no negativos.

6.23. Teorema. Para toda matriz A ∈ Mm×n se tiene que existen matrices ortogonales U ∈ Mm×m yV ∈ Mn×n y una matriz “diagonal” Σ ∈ Mm×n , con elementos 〈Σ〉ij = 0, si i 6= j y 〈Σ〉ii =: σi ≥ 0, yσ1 ≥ σ2 ≥ · · · ≥ σs, en donde s = mın {m,n} tales que

Am×n = Um×mΣm×nVTn×n .

Los números σ21 , σ

22 , · · · , σ2

s son los valores propios de ATA (quizás agregando algunos ceros) y los vectorespropios asociados son las columnas de la matriz V = [ v1 v2 · · · vn ]. Además, lo números σ2

1 , σ22 ,

· · · , σ2s son igualmente los valores propios de AAT (quizás agregando algunos ceros) y los vectores propios

asociados son las columnas de U = [ u1 u2 · · · um ]. Además de tiene las siguientes relaciones entreestos vectores

Avi = σiui

i = 1, 2, . . . , s.

uTi A = σivTi

151

6.4. Descomposición en valores singulares Factorización de matrices

Demostración. Suponga que A ∈ Mm×n tiene rango r con 0 < r < s. La matriz simétrica S =AAT ∈ Mm×m es no negativa y por tanto existe una matriz ortogonal U ∈ Mm×m tal que

UTAATU = D2 =

26664σ2

1 0 · · · 00 σ2

2 · · · 0...

.... . .

...0 0 · · · σ2

m

37775donde σ2

1 ≥ σ22 ≥ · · · ≥ σ2

m ≥ 0 son los valores propios de S = AAT y las columnas de U = [u1 u2 · · · um]son vectores propios de S correpondientes a dichos valores propios:

AATui = Sui = σ2i ui; i = 1, 2, . . . ,m.

Como r = ρ(A) = ρ(AAT ), entonces σ21 ≥ σ2

2 ≥ · · · ≥ σ2r > 0. Particione ahora la matriz U como

U = [ U1 U2 ] con U1 ∈ Mm×r. Luego

UTAATU =

24 UT1

UT2

35AAT ˆ U1 U2

˜

=

24 UT1 AATU1 UT1 AA

TU2

UT2 AATU1 UT2 AA

TU2

35=

»D2r 0

0 0

–es decir,

UTAATU =

2666666666664

σ21 0 · · · 0 0 · · · 0

0 σ22 · · · 0 0 · · · 0

......

. . ....

.... . .

...0 0 · · · σ2

m 0 · · · 0

0 0 · · · 0 0 · · · 0...

.... . .

......

. . ....

0 0 · · · 0 0 · · · 0

3777777777775Esto implica que

UT2 AATU2 = (ATU2)T (ATU2) = 0,

de donde UT2 A = 0 y ATU2 = 0. También se tiene que UT1 AATU1 = D2r , o sea:

D−1r UT1 AA

TU1D−1r = I = (ATU1D

−1r )T (ATU1D

−1r ).

Esto significa que la matrizV1 = ATU1D

−1r ∈ Mn×r

tiene columnas ortonormales (V T1 V1 = I). Sea V2 ∈ Mn×(n−r) tal que la matriz

V =ˆV1 V2

˜∈ Mn×n

es ortogonal. Se requiere ahora verificar que

UTAV = Σ =

»Dr 00 0

–.

152

Factorización de matrices 6.4. Descomposición en valores singulares

En efecto, de una parte:

UTAV =

24 UT1

UT2

35A ˆ V1 V2

˜=

24 UT1 AV1 UT1 AV2

UT2 AV1 UT2 AV2

35 ,y de otra parte, UT2 A = 0. Así mismo,

V TV = I =

24 V T1

V T2

35 ˆ V1 V2

˜=

24 V T1 V1 V T1 V2

V T2 V1 V T2 V2

35=

»I 00 I

–,

lo que implica que V T1 V2 = 0 = (ATU1D−1r )TV2 de donde

UT1 AV2 = 0.

y finalmente,

UT1 AV1 = UT1 AATU1D

−1r

= D2rD−1r = Dr

=

26664σ1 0 · · · 00 σ2 · · · 0...

.... . .

...0 0 · · · σm

37775 .En consecuencia,

UTAV = Σ =

»Dr 00 0

–.

Nota. Observe queAV1 = AATU1D

−1r ⇒ Avi = σiui i = 1, 2, . . . , r.

igualmente,

ATU1 = V1Dr ⇒ ATui = σivi ⇒ uTi A = σivTi i = 1, 2, . . . , r.

El siguiente proceso ilustra cómo calcular la descomposición en valores singulares de una matriz A ∈ Mm×n.Se supondrá en este caso, que m ≤ n.

6.24. Algoritmo.

1. Formule S = AAT ∈ Mm×m.2. Encuentre los valores propios de S : σ2

1 ≥ σ22 ≥ · · · ≥ σ2

m ≥ 0.3. Encuentre un conjunto ortonormal u1,u2, . . . ,um de vectores propios de S y construya la matriz

U = [ u1 u2 · · · um ](ortogonal) y la matriz diagonal D = diag(σ1, σ2, · · · , σm).4. Si r = ρ(A); Dr = diag(σ1, σ2, · · · , σr)5. Haga V1 = ATU1D

−1r , siendo U1 = [ u1 u2 · · · ur ], las primeras r columnas de U. Encuentre

una matriz V2 ∈ Mn×(n−r) tal que la matriz V = [ V1 V2 ] ∈ Mn×n sea ortogonal.5*. Otra forma de (5) es trabajar con la matriz ATA.

153

6.4. Descomposición en valores singulares Factorización de matrices

6.25. Ejemplo. Considere la matriz A =

»2 1 −24 −4 2

–; ρ(A) = 2, calcule la descomposición en valores

singulares usando el proceso esbozado anteriormente.

Calculando directamente se obtiene la matriz S = AAT =

»9 00 36

–, cuyos valores propios son: σ2

1 =

36 y σ22 = 9 (σ2

1 ≥ σ22).

Calcule ahora los vectores propios asociados a estos valores propios:

Para σ21 = 36 se tiene el sistema (S − 36 · I)X = 0, es decir el sistema»

−25 00 0

– »x1

x2

–=

»00

–,

cuyo conjunto solución es de la forma

B =

»0x2

–: x2 6= 0

ff.

Como un representante de los σ21-vectores propios se puede tomar entonces u1 =

»01

–. Análogamente se

puede tomar a u2 =

»10

–como σ2

2-vector propio. Ahora considere la matriz ortogonal

U = [ u1 u2 ] =

»0 11 0

–y la matriz diagonal

D = diag(σ1, σ2) =

»6 00 3

–.

Puesto que r = ρ(A) = 2 se tiene que Dr = diag(σ1, σ2) =

»6 00 3

–.

Con las matrices definidas hasta ahora se tiene que

V1 = ATU1D−1r

=

24 2 41 −4−2 2

35» 0 11 0

– »1/6 00 1/3

=

24 2 41 −4−2 2

35» 0 1/31/6 0

=1

3

24 2 2−2 1

1 −2

35 Columnas ortonormales.

Si se considera ahora la matriz ortogonal

V =1

3

24 2 2 1−2 1 2

1 −2 2

35 =ˆV1 V2

˜conV2 =

1

3

24 122

35 ,se tiene que:

UTAV =

»6 0 00 3 0

–= Σ. �

154

Factorización de matrices 6.4. Descomposición en valores singulares

6.26. Ejemplo. Considere la matriz A =

24 1 1 00 1 11 0 1

35 ; ρ(A) = 3, calcule ahora la descomposición en

valores singulares:

De nuevo se calcula la matriz S = AAT

S = AAT =

24 2 1 11 2 11 1 2

35 .cuyos valores propios los se obtienen de manera usual, es decir, resolviendo la ecuación |S − λI| = 0, estoes,

0 = |S − λI|

=

˛˛ 2− λ 1 1

1 2− λ 11 1 2− λ

˛˛ = −(λ− 4)(λ− 1)2.

Los valores propios de S son entonces σ21 = 4, σ2

2 = 1 y σ23 = 1. Algunos cálculos usuales permiten elegir a

los vectores

u1 =1√3

24 111

35 ; u2 =1√6

24 −211

35 y u3 =1√2

24 01−1

35 ,como vectores propios ortonormales asociados a σ2

1 , σ22 y σ2

3 respectivamente. Considere ahora la matrizortogonal

U =ˆ

u1 u2 u3

˜=

2666641/√

3 −2/√

6 0

1/√

3 1/√

6 1/√

2

1/√

3 1/√

6 −1/√

2

377775 .y las matrices diagonales (ρ(A) = 3)

D = diag(σ1, σ2, σ3) =

24 2 0 00 1 00 0 1

35 = Dr.

Se definine ahora la matriz V1 = ATU1D−1r , esto es,

V1 =

24 1 0 11 1 00 1 1

3524 1/√

3 −2/√

6 0

1/√

3 1/√

6 1/√

2

1/√

3 1/√

6 −1/√

2

3524 1/2 0 00 1 00 0 1

35=

24 1 0 11 1 00 1 1

3524 1/2√

3 −2/√

6 0

1/2√

3 1/√

6 1/√

2

1/2√

3 1/√

6 −1/√

2

35=

24 1/√

3 −1/√

6 −1/√

2

1/√

3 −1/√

6 1/√

2

1/√

3 2/√

6 0

35 = V

Con estas matrices se tiene que:

UTAV =

24 4 0 00 1 00 0 1

35 = Σ. �

155

6.4. Descomposición en valores singulares Factorización de matrices

6.4 Ejercicios

1. Calcule la descomposición en valores singulares de las matrices

(a) A =

»2 1 −2−1 4 1

–(b) B =

»2 2 11 1 −4

(c) C =

24 1 12 22 2

35 (d) D =

24 1 −1−1 1

2 −2

35

156

CAPÍTULO 7

Rectas e hiperplanos. Conjuntos convexos.

Este capítulo consta de dos secciones. En la primera se darán las definiciones de recta, segmento de rectae hiperplanos en Rn. En la segunda se verán algunos resultados sobre conjuntos convexos. Quien deseeestudiar un poco más sobre estos tópicos puede consultar el capítulo 6 de [7].

7.1. Rectas. Segmentos de recta. Hiperplanos

Los conceptos de recta, segmento de recta e hiperplanos en Rn son útiles en programación lineal (véase elcapítulo 6 de [12]). Antes de proseguir con la discusión, se hará una pequeña aclaración sobre la notacióny se hará una diferencia entre lo que es un punto P en el espacio Rn y el segmento de recta dirigido (vectorcoordenado o simplemente vector), que tiene como extremo inicial el origen de coordenadas O y comoextremo final al punto P. Éste se denotarár por

−−→OP o simplemente p.

Al punto P ∈ Rn se le asignan las coordenadas (x1, x2, . . . , xn) y se escribe P (x1, x2, . . . , xn), mientras queal vector

−−→OP también se le asignan coordenadas (x1, x2, . . . , xn), pero escribiremos

−−→OP = (x1, x2, . . . , x3)

o simplemente, p = (x1, x2, . . . , x3) (ver figura 7.1 en el caso de R3).

x

x1

3

x2

x

x

x

PP(x , x , x )

O(0, 0, 0)

1

1

2

2 3

3

p = 0P =(x , x , x )3

RI 3

O(0, 0, 0)

1 2

Figura 7.1. Puntos y vectores en R3.

157

7.1. Rectas y planos Hiperplanos

Nota. Dados dos puntos P (x1, x2, . . . , xn) y Q(x′1, x′2, . . . , x

′n) en Rn, el segmento de recta dirigido o

vector, que tiene como punto inicial a P y como punto final Q, se denotará por−−→PQ y se le asignan las

coordenadas (x′1 − x1, x′2 − x2, . . . , x

′n − xn). En tal sentido, y dado que

−−→OQ−

−−→OP = (x′1, x

′2, . . . , x

′n)− (x1, x2, . . . , xn)

= (x′1 − x1, x′2 − x2, . . . , x

′n − xn),

se escribireá−−→PQ = (x′1 − x1, x

′2 − x2, . . . , x

′n − xn).

7.1. Definición (Rectas). En Rn, la recta que pasa por el punto P en la dirección del vector d 6= 0 sedefine como el conjunto de puntos:

(7.1) ` = {X ∈ Rn :−−→OX =

−−→OP + λd, λ ∈ R} .

Se dice además, que el vector d es un vector director de la recta `.

Según la definición anterior, un punto X0 ∈ Rn pertenece a la recta ` dada por (7.1) sii existe un λ0 ∈ Rtal que

−−→OX0 =

−−→OP + λ0d.

x

d

P

y

λ d

λ dOX=OP+

RI2

Figura 7.2. Una recta en R2.

7.2. Ejemplo. En R3, la recta que pasa por el punto P (1, 2, 3) en la dirección del vector d = (1, 0, 5), esel conjunto de puntos:

` =˘X(x1, x2, x3) ∈ R3 : (x1, x2, x3) = (1, 2, 3) + λ(1, 0, 5), λ ∈ R

¯.

El punto X0(−1, 2,−7) pertenece a dicha recta, pues:−−→OX0 = (−1, 2,−7) = (1, 2, 3) + (−2)(1, 0, 5).

Sin embargo, el punto X∗(2, 3, 2) no pertenece a la recta `, pues no existe λ∗ ∈ R tal que:

(2, 3, 2) = (1, 2, 3) + λ∗(1, 0, 5) = (1 + λ∗, 2, 3 + 5λ∗).�

158

Hiperplanos 7.1. Rectas y planos

Ahora bien, si el punto Q de Rn está sobre la recta (7.1) y Q 6= P, entonces existe un λ0 ∈ R tal que−−→OQ =

−−→OP + λ0d. De aquí que d =

1

λ0

−−→PQ, y por lo tanto:

` =nX ∈ Rn :

−−→OX =

−−→OP + λd, λ ∈ R

o=

X ∈ Rn :

−−→OX =

−−→OP +

λ

λ0

−−→PQ, λ ∈ R

ff.

En consecuencia, se puede decir que la recta que pasa por los puntos P y Q (P 6= Q) de Rn es el conjuntode puntos:

(7.2) ` =nX ∈ Rn :

−−→OX =

−−→OP + t

−−→PQ, t ∈ R

o.

y

x

P

Q

t PQ

OX=OP+t PQ

PQ = 0Q − OP

RI2

Figura 7.3. Gráfica de una recta que pasa por los puntos P y Q.

7.3. Ejemplo. La recta que pasa por los puntos P = (1, 2, 3) y Q = (4, 1, 1) de R3, es el conjunto depuntos:

` =˘X(x1, x2, x3) ∈ R3 : (x1, x2, x3) = (1, 2, 3) + t(3,−1,−2), t ∈ R

¯.

7.4. Definición. [Segmento de recta]

El segmento de recta que une los puntos P y Q de Rn, se denota por PQ y se define así:

PQ =nX ∈ Rn :

−−→OX =

−−→OP + t

−−→PQ, para 0 ≤ t ≤ 1

o.

=nX ∈ Rn :

−−→OX = t

−−→OP + (1− t)

−−→OQ, para 0 ≤ t ≤ 1

o.

Según la definición anterior, un punto X0 ∈ Rn pertenece a PQ sii existe 0 ≤ t0 ≤ 1 tal que−−→OX0 =−−→

OP + t0−−→PQ.

159

7.1. Rectas y planos Hiperplanos

P

PQ = OQ − OP

y

x

Q

0t PQ

OX = OP + t PQ0

IR 2

Figura 7.4. Segmento de recta que une los puntos P y Q

7.5. Ejemplo. El segmento de recta que une al punto P (1, 2, 3, 4) con el punto Q(0, 1, 0, 2), es el conjuntode puntos X(x1, x2, x3, x4) ∈ R4:

PQ =˘X ∈ R4 : (x1, x2, x3, x4) = (1, 2, 3, 4) + t(−1,−1,−3,−2)

¯,

El punto X0(1

2,

3

2,

3

2, 3) pertenece a PQ, pues

(1

2,

3

2,

3

2, 3) = (1, 2, 3, 4) +

1

2(−1,−1,−3,−2).

Sin embargo, el punto X∗(−1, 0,−3, 0) no pertenece a PQ, pues no existe t∗ con 0 ≤ t∗ ≤ 1 tal que

(−1, 0,−3, 0) = (1, 2, 3, 4) + t∗(−1,−1,−3,−2)

= (1− t∗, 2− t∗, 3− 3t∗, 4− 2t∗) .�

7.6. Definición. [Hiperplano]

En Rn, el hiperplano que pasa por el punto P y que es normal al vector n 6= 0, se define como el conjuntode puntos:

H =nX ∈ Rn : (

−−→OX −

−−→OP ) · n = 0

o,

o lo que es lo mismo,H =

nX ∈ Rn :

−−→OX · n =

−−→OP · n = cte.

o,

donde “·” es el producto interno usual en Rn (véase apartado 1.2.3).

7.7. Observación. En R2 y en R3 los hiperplanos tienen una estructura muy particular. En efecto,

1. En R2, un hiperplano es una recta. Así por ejemplo, el hiperplano (recta) que pasa por el puntoP (4,−3) y que es normal al vector n = (−5, 2), es el conjunto de puntos X(x1, x2) de R2 quesatisfacen la ecuación:

−−→OX · n = −5x1 + 2x2 = −20− 6 = −26 =

−−→OP · n,

160

Hiperplanos 7.1. Rectas y planos

n

X

x

H

P

RI3 x

x

1

2

3

Figura 7.5. Gráfica de un plano en R3.

o sea,−5x1 + 2x2 = −26.

2. En R3, un hiperplano es un plano. Así por ejemplo, el hiperplano (plano) que pasa por el puntoP (2,−1, 1) y que es normal al vector n = (−1, 1, 3), es el conjunto de puntos X(x1, x2, x3) de R3

que satisfacen la ecuación:−−→OX · n = −x1 + x2 + 3x3 = −2− 1 + 3 = 0 =

−−→OP · n,

o sea,−x1 + x2 + 3x3 = 0 .

7.8. Ejemplo. Dados los puntos Q(1, 1, 1), P (1,−1, 2) y el vector n = (1, 2, 3), encuentre el punto deintersección, si lo hay, de la recta que pasa por el punto P en la dirección del vector n y del hiperplano(plano) que pasa por Q y es normal al vector n.

La recta que pasa por P en la dirección del vector n, es el conjunto de puntos de X(x1, x2, x3) de R3 talesque:

(x1, x2, x3) =−−→OX =

−−→OP + λn = (1,−1, 2) + λ(1, 2, 3). λ ∈ R .

El hiperplano (plano) que pasa por Q y que es normal al vector n, es el conjunto de puntos de X(x1, x2, x3)de R3 para los cuales se satisfacen la ecuación:

−−→OX · n = x1 + 2x2 + 3x3 = 6 =

−−→OQ · n .

Ahora bien, si denotamos por I al punto de intersección entre la recta y el plano, entonces:−→OI =

−−→OP + λ∗n

para algún λ∗ ∈ R, y también−→OI · n =

−−→OQ · n.

De esto se sigue que:−−→OP + λ∗n =

−−→OQ .

Utilizando las propiedades del producto interno encontramos que:

λ∗ =

−−→PQ · n‖n‖2

=1

14.

161

7.1. Rectas y planos Hiperplanos

En consecuencia, las coordenadas del punto buscado están dadas por:−→OI =

−−→OP + λ∗n = (1,−1, 2) +

1

14(1, 2, 3)

= (15

14,−12

14,

31

14) .�

La figura 7.6 ilustra la situación de la intersección entre una recta y un plano.

n P

Q

x

x

x1

x2

3

RI3

Figura 7.6. Gráficas de un plano y una recta en R3

7.9. Definición. Sea H el hiperplano de Rn descrito por la ecuación−−→OX · n =

−−→OP · n = c

Los conjuntosS1 =

nX ∈ Rn :

−−→OX · n ≤ c

oy

S2 =nX ∈ Rn :

−−→OX · n ≥ c

o,

se denominan los semiespacios cerrados con frontera H.

Los conjuntosS1 =

nX ∈ Rn :

−−→OX · n < c

oy

S2 =nX ∈ Rn :

−−→OX · n > c

o,

se denominan semiespacios abiertos con frontera H.

Nota. Los semiespacios abiertos no incluyen la frontera H, mientras que los semiespacios cerrados si laincluyen.

7.1 Ejercicios

162

Hiperplanos 7.1. Rectas y planos

x n

y

x

.

..x n > c

= c

< cx n.

..

IR2

Figura 7.7. Ilustración de semiespacios abiertos

En los ejercicios 1 al 3 responda verdadero o falso, justificando su respuesta.

1. El punto X (4, 5, 0) pertenece a la recta que pasa por el punto P (1, 2,−3) en la dirección delvector d = (1, 1, 1).

2. El punto X (0, 1, 2) pertenece al segmento de recta que une a los puntos P (1, 2,−3) y Q (4, 5, 6).3. Sean Q (1, 2, 3) , P (0, 1, 2) y n = (1, 1, 1). El punto de intersección de la recta que pasa por P en

la dirección del vector n y de hiperplano que pasa por Q y que es normal al vector n, esM (2, 0, 1).

En los ejercicios 4 al 7 demuestre la afirmación correspondiente

4. Sea H =nX ∈ Rk :

−−→OX · n = c

oun hiperplano de Rk.

a) Muestre que si X = 0 /∈ H, entonces existe un vector n∗ 6= 0 tal que:

H =nX ∈ Rk :

−−→OX · n∗ = 1

o.

b) Demuestre que si X = 0 /∈ H, entonces existen k puntos b1, b2, . . . , bk de H, que como vectoresson linealmente independientes.

c) Demuestre que si X = 0 /∈ H, entonces

H =

(X ∈ Rk : X =

kXi=1

λibi,

kXi=1

λi = 1

), .

donde b1, b2, . . . , bk son puntos de H, que como vectores, son linealmente independientes.5. Encuentre b1, b2 y b3 tales que

H =˘X ∈ R3 : X · (2, 1, 1) = 1

¯=

(X ∈ R3 : X =

3Xi=1

λibi,

3Xi=1

λi = 1

)6. Sean b1 = (1, 0, 0), b2 = (1, 1, 0) y b3 = (1, 1, 1).

a) Demuestre que b1, b2 y b3 son linealmente independientes.b) Encuentre un vector n∗ 6= 0 tal que:

H =

(X ∈ R3 :

−−→OX =

3Xi=1

λibi,

3Xi=1

λi = 1

)=

nX ∈ R3 :

−−→OX · n∗ = 1

o.

163

7.2. Conjuntos convexos Hiperplanos

7. Sea H =˘X ∈ Rk : X · n = c

¯un hiperplano de Rn.

a) Muestre que X = 0 ∈ H sii c = 0.b) Demuestre que si X = 0 ∈ H, entonces existen k− 1 puntos a1, a2, . . . , ak−1 de H, que como

vectores son linealmente independientes.c) Demuestre que si X = 0 ∈ H, entonces

H =

(X ∈ Rk :

−−→OX =

k−1Xi=1

λiai

).

donde a1, a2, . . . , ak−1 son k − 1 puntos de H, que como vectores son linealmente independi-entes.

8. Encuentre a1 y a2 tales que

H =nX ∈ R3 :

−−→OX · (2, 1, 1) = 0

o=

nX ∈ R3 :

−−→OX = λ1a1 + λ2a2

o9. Sean a1 = (1, 1, 1) y a2 = (1, 0, 1).

a) Muestre que a1 y a2 son linealmente independientes.b) Encuentre un vector n∗ 6= 0 tal que:

H =nX ∈ R3 :

−−→OX = λ1a1 + λ2a2

o=

˘X ∈ R3 : v ·N∗ = 0

¯.

10. Demuestre que todo hiperplano de Rn es una variedad lineal de dimensión n−1 (véase el apartado1.2.1).

7.2. Conjuntos convexos

Los conjuntos convexos juegan un papel importante en la programación lineal. En particular se tiene quela llamada región factible de un problema de programación lineal es un conjunto convexo (vea el teorema6.6(iii) de [12]).

7.10. Definición. Sea C un subconjunto de Rn. Se dice que C es convexo, si para dos puntos cualesquieraP y Q de C, el segmento de recta PQ está contenido en C.

En la figura 7.1 los conjuntos C1 y C2 son convexos, mientras que los conjuntos C3 y C4 no son convexos.

7.11. Teorema. Todo hiperplano de Rn es un conjunto convexo.

Demostración. Sea H el hiperplano de Rn descrito por la ecuación−−→OX · n =

−−→OP · n = c

y sean Q1 y Q2 puntos de H. Ahora, si X∗ es un punto de Rn cuyas coordenadas satisfacen:−−→OX ∗ =

−−→OQ1 + t(

−−−→Q2Q1), 0 ≤ t ≤ 1 ,

164

Hiperplanos 7.2. Conjuntos convexos

C 4

P

Q

P

Q

yC1

P

C2

Q

C3

P

x

y

x

(b)(a)

Q

Figura 7.1. Conjuntos convexos y no convexos

entonces X∗ es un punto del segmento de recta Q1Q2 y se tiene que:−−→OX ∗ · n =

h−−→OQ1 + t(

−−−→Q2Q1)

i· n

=h−−→OQ1 + t(

−−→OQ2 −

−−→OQ1)

i· n

=−−→OQ1 + t

−−−→OQ2 · n− t

−−→OQ1 · n

= (1− t)−−→OQ1 · n + t

−−→OQ2 · n

= (1− t)c+ t c

= c ,

es decir, X∗ ∈ H. Por lo tanto H es un conjunto convexo. �

7.12. Teorema. Sea H el hiperplano de Rn. Todo semiespacio cerrado o abierto con frontera H es unconjunto convexo.

Demostración. Sea H el hiperplano de Rn descrito por la ecuación−−→OX · n =

−−→OP · n = c .

Se demuestrá únicamente que el semiespacio abierto con frontera H

S =nX ∈ Rn :

−−→OX · n < c

oes un conjunto convexo. En el caso de semiespacio cerrados con frontera H se procede de manera análoga.

Sean pues Q1 y Q2 puntos del conjunto S y sea X∗ un punto del segmento de recta Q1Q2 . Puesto queQ1 ∈ S y Q2 ∈ S, entonces

−−→OQ1 · n < c y

−−→OQ2 · n < c, de aquí que:

−−→OX ∗ · n =

h−−→OQ1 + t(

−−−→Q2Q1)

i· n

=h−−→OQ1 + t(

−−→0Q2 −

−−→OQ1)

i· n

=−−→OQ1 + t

−−→0Q2 · n− t

−−→OQ1 · n

= (1− t)−−→OQ1 · n + t

−−→OQ2 · n

< (1− t)c+ t c = c ,

165

7.2. Conjuntos convexos Hiperplanos

esto es, X∗ ∈ S. Por lo tanto S es un conjunto convexo. �

7.13. Teorema. La intersección de dos conjuntos convexos de Rn es un conjunto convexo de Rn.

Demostración. Sean C1 y C2 dos conjuntos convexos de Rn y sea C3 = C1 ∩ C2. Si C3 tiene solamenteun punto, entonces C3 es automáticamente convexo. Sean Q1 y Q2 dos puntos distintos de S3 , ya que C1 yC2 son conjuntos convexos de Rn, entonces:

−−→OQ1 + t(

−−→OQ2 −

−−→OQ1) ∈ C1 Para todo t tal que 0 ≤ t ≤ 1.

y−−→OQ1 + t(

−−→OQ2 −

−−→OQ1) ∈ C2 Para todo t tal que 0 ≤ t ≤ 1.

En consecuencia.−−→OQ1 + t(

−−→OQ2 −

−−→OQ1) ∈ C3 = C1 ∩ C2 para todo t tal que 0 ≤ t ≤ 1 y por lo tanto C3 es

un conjunto convexo de Rn. �

La prueba del siguiente corolario se puede obtener aplicando el principio de inducción matemática y sepropone como un ejercicio.

7.14. Corolario. La intersección de un número finito de conjuntos convexos de Rn es un conjunto conexode Rn.

7.15. Teorema. [Envolvente convexa]Sean X1, X2, . . . , Xm puntos de Rn. El conjunto:

C =

(X ∈ Rn :

−−→OX =

mXi=1

αi−−→OXi; αi ≥ 0, i = 1, . . . ,m,

mXi=1

αi = 1

)es un conjunto convexo y es llamado la Envolvente convexa de los puntos X1, X2, . . . , Xm.

Demostración. Sean P y Q dos puntos de C; entonces existen escalares α1, α2, . . . , αm y β1, β2,. . . , βm no negativos, tales que:

−−→OP =

mXi=1

αi−−→OXi,

mXi=1

αi = 1

y−−→OQ =

mXi=1

βi−−→OXi,

mXi=1

βi = 1 .

Sea ahora X∗ un punto en el segmento de recta PQ, esto es, un X∗ para el cual se satisface

−−→OX ∗ =

−−→OP + t(

−−→OQ−

−−→OP ), 0 ≤ t ≤ 1.

Puesto que:

−−→OX ∗ =

mXi=1

αi−−→OXi + t

"mXi=1

βi−−→OXi −

mXi=1

αi−−→OXi

#

=

mXi=1

[(1− t)αi + tβi]−−→OXi ,

donde (1− t)αi + tβi ≥ 0 para i = 1, . . . ,m, ymXi=1

[(1− t)αi + tβi] = (1− t)mXi=1

αi + t

mXi=1

βi

= (1− t) + t = 1 ,

166

Hiperplanos 7.2. Conjuntos convexos

entonces X∗ ∈ C. En consecuencia, C es un conjunto convexo. �

7.2 Ejercicios

En los ejercicios 1 al 2, responda verdadero o falso, justificando su respuesta.

1. La unión de dos conjuntos convexos de Rn es un conjunto convexo de Rn.2. El conjunto de todas las soluciones x =

ˆx1 x2 · · · xn

˜T de un sistema de ecuaciones linealesAx = y, tales que xi ≥ 0 , i = 1, . . . , n es un conjunto convexo.

En los ejercicios 3 al 4 demuestre la afirmación correspondiente

3. Si T : Rn → Rm es una transformación lineal, entonces envía conjuntos convexos en conjuntosconvexos.

4. Demuestre que si T : R2 → R2 es una transformación lineal biyectiva, entonces T envía triángulosen triángulos.

167

Índice alfabético

Base, 7cambio de, 13canónica de Rn, 9ortogonal, 10, 49ortonormal, 10

c-inversa de una matriz, 112Cholesky

descomposición, 146Conjuntos

convexos, 164

DescomposiciónLU, 131

Descomposiciónde Cholesky, 146en valores singulares, 151QR, 138

Desigualdad de Schwarz, 10Determinante, matriz, 3Diagonal principal, matriz, 1Diagonal, matriz, 2Diagonalización

simétricas, 48cuadrática, 75ortogonal, 51simultánea

cuadráticas, 77de matrices, 63

Diagonalización de matrices, 39

Eigenvalores, eigenvectores; veavalores (vectores) propios, 31

Espacio columna, matriz, 13Espacio fila, matriz, 13Espacio generado, 7Espacio nulo, matriz, 14Espacio vectorial, 5

base, 7base ordenada, 8de transformaciones lineales, 13dimensión, 7subespacio, 6suma directa, 8

Espacios fundamentales, matriz, 13

Factorización de matrices; verdescompisición de matrices, 131

cuadrática, 71cambio de variables, 74clasificación, 72diagonalización de una, 75

indefinida, 72, 82negaitivamente definida, 82negativamente definida, 72negativamente semidefinida, 82negitivamente semidefinida, 72no negaitiva, 72no posiitiva, 72positivamente definida, 72, 82positivamente semidefinida, 72, 82

Forma escalonada reducida, 4

g-inversa de una matriz, 99, 103método, 15Gram-Schmidt, proceso, 140Gram-Schmidt, proceso de, 10

Hermitematriz superior, 115

Idéntica, matriz, 2Identidad, matriz, 2transformación lineal, 11Inversa

condicional, 112generalizada, 99, 103, 143

cálculo de, 107propiedades, 105

LUdescomposición, 131

MatricesDiagonalización de, 39factorización, 131no negativas, 89semejantes

característicos de, 37simétricas

diagonalización, 48Matrices elementales, 4Matriz

adjunta, 3cambio de base, 13cofactor ij, 3de cofactores, 3cuadrática, 72transformación lineal, 12determinante, 3

propiedades, 3diagonal, 2espacio columna de una, 13espacio fila de una, 13

169

Índice alfabético

espacio nulo de una, 14espacios fundamentales de una, 13forma escalonada reducida, 4hermite superior, 115idempotente, 94idéntica, 2inversa, 2, 15

propiedades, 2menor ij, 3operaciones elmentales, 4particionada, 17

determinante, 21, 23inversas, 24operaciones con, 18

caracterí stico de una, 34rango de una, 13, 15semejante, 13submatriz, 17transpuesta, 2

propiedades, 2traza de una, 28valor propio de una, 33vector propio de una, 33

solución aproximada, 122Mínimos cuadrados, 120

Operaciones elmentales en una matriz, 4

Producto interno, 9

QRdescomposición, 138

Rango de una matriz, 13Rectas, planos e hiperplanos, 157

Sistemas de ecuaciones, 15c-inversas,g-inversa, 119Gauss-Jordan, 15solución aproximada, 122mínimos cuadrados, 119

Solución mí nima cuadrada, 122

Transformación linealálgebra de, 12imagen, 11inversa de una, 13matriz de una, 12transformación inyectica, 11valores propios, 31vectores propios, 31

Transformacion linealtransformación sobreyectiva, 11

Transformación linealnúcleo, 11

Transformaciones lineales, 11Transpuesta, matriz, 2

Valor propio, 31espacio asociado a un, 33multiplicidad algebraica de un, 34geométrica de un, 33

caracterí sticos; veavalores (vectores) propios, 31

Valores singularesdescomposición, 151

Variedad lineal, 15Vector propio, 31Vectores, 5, 157

coordenadas resp. a una base, 8linealmente dependientes, 7

linealmente independientes, 7, 15, 16, 41ortogonales, 10ortonormales, 10proceso de Gram-Schmidt, 10propios ortogonales, 49

170

Bibliografía

[1] ANTON, H. Introducción al álgebra lineal. Limusa, México, 1981,[2] FLOREY, F.G. Fundamentos de álgebra lineal y aplicaciones. Prentice Hall Internacional, Colombia, 1980.[3] GRAYBILL, F.A. Introduction to matrices with applications in statistic. Wadsworth Publishing Company. Inc. Belnont,

California, 1969.[4] GRAYBILL, F.A. Theory and applications of linear model. Duxbury Presss, Massachusetts, 1976.[5] GROSSMAN S. I. Álgebra Lineal. Quinta edición. McGraw-Hill/Interamericana de Mexico, S. A. de C. V., 1996.[6] ESPINOSA, M. A. y MARMOLEJO M. A. Operaciones elementales: Usos en el salón de calse. Matemáticas: Enseñanza

Universitaria. Pág. 61-82, Vol. V, No.1, 1996[7] HADLEY, G. A. Álgebra lineal, Fondo Educativo Interamericano S.A., U.S.A. 1969.[8] LIPSCHUTZ, S. Álgebra lineal, McGraw Hill, México, 1979.[9] MARMOLEJO, M.A. Inversa condicional e inversa generalizada de una matriz: esquema geométrico. Lecturas Matemáti-

cas, Soc. Col. Matemat., Pág. 129-146, Vol. IX, 1988.[10] NAKOS, G.y JOYNER, D., Álgebra lineal con aplicaciones, Thonsom, México, 1998.[11] NERING, E.D. álgebra lineal y teoría de matrices. Limusa, México, 1977.[12] NOBLE, B. Applied linear algebra. Prentice Hall, Inc. London, 1969.[13] RORRES , C y ANTON, H, Aplicaciones del álgebra lineal. Limusa, México 1979.[14] STRANG, G, Álgebra lineal y sus aplicaciones. Fondo educativo interamericano, 1982.

171