Download - 3 Regresion lineal Error y Gradiente - UNAM
![Page 1: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/1.jpg)
11/03/2020
1
RECONOCIMIENTO DE PATRONES
LABORATORIO AVANZADO DE PROCESAMIENTO DE IMÁGENESFACULTAD DE INGENIERÍA
RECONOCIMIENTO DE PATRONES
LABORATORIO AVANZADO DE PROCESAMIENTO DE IMÁGENESFACULTAD DE INGENIERÍA
2020
1
“ Given a number of features, how can one select the most important of them so as to reduce their number and at the same time retain as much as possible of their class discriminatory information? “
1
2
![Page 2: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/2.jpg)
11/03/2020
2
Datos
3
Vectores??
f: X Y
X,Y pueden ser vectores, matrices, tensor, grafo.
3
4
![Page 3: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/3.jpg)
11/03/2020
3
Ecuación de la recta• f: X Y
y=mx+b reescribiendo f(x)=mx+b
La línea como un modelo𝑦 = 𝑚𝑥 + 𝑏
• Problema: estimar la línea a partir de los datos• Relación entre 𝑥 y 𝑦• Dada una 𝑥 identifico la 𝑦 resultante
6
5
6
![Page 4: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/4.jpg)
11/03/2020
4
• Algo mas generaly=w0x0+w1x1
• m=w1
• b=w0
• x=x1
• 1=x0
más general …
Regresión lineal y, sub y sobre ajuste• La metodología
argmin 𝔼(𝑓 𝑥 , 𝑦 )
8
7
8
![Page 5: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/5.jpg)
11/03/2020
5
Elementos de la línea𝑦 = 𝑚𝑥 + 𝑏
• 𝑥 variable independiente• 𝑦 variable dependiente• 𝑚 pendiente• 𝑏 intersección
9
Como modelo
𝑓(𝑥) = 𝑚𝑥 + 𝑏
10
9
10
![Page 6: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/6.jpg)
11/03/2020
6
Espacio de hipótesis
ℍ = 𝑚𝑥 + 𝑏, ∀𝑚 ∈ ℝ, 𝑏 ∈ ℝ
11
Reformulando... (expandiendo x)𝑦 = 𝑤 𝑥 + 𝑤 𝑥
• 𝑚 = 𝑤
• 𝑏 = 𝑤
• 𝑥 = 𝑥
• 1 = 𝑥¿…pero por qué…?
12
11
12
![Page 7: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/7.jpg)
11/03/2020
7
Como operación de matrices
• Pero podemos hacerlo mejor
13
𝑓 𝑥 = 𝑊 𝑋 =𝑤𝑤 𝑥 𝑥 =
𝑤𝑤 1 𝑥
Pasado a dimensiones
𝑓 𝑥 = 𝑊 𝑋 =𝑤𝑤 𝑥 𝑥 =
𝑤𝑤 1 𝑥
𝑓 𝑥 = 𝑊 𝑋 =
𝑤𝑤 . . 𝑤
𝑥 𝑥 . . 𝑥 =
𝑤𝑤 . . 𝑤
1 𝑥 . . 𝑥
13
14
![Page 8: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/8.jpg)
11/03/2020
8
Redefiniendo regresión lineal
Para un conjunto 𝑿 de n datos en ℝ , de la forma 𝒙 , 𝑖 = 1, … , 𝑛
para el cual agregamos un vector constante 𝑥 = 1
Y para un conjunto de 𝑦 con 𝑛 puntos relacionados con 𝑿 en posición.Suponemos:
𝑓 𝑥 = 𝑾 𝒙
¿Qué dimensiones tiene 𝑾?15
Evaluación: Error cuadrado
16
𝑬(𝒇 𝑿 , 𝒚) = (𝒚𝒊
− 𝒇 𝒙𝒊𝟐
𝒏
𝒊 𝟎
15
16
![Page 9: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/9.jpg)
11/03/2020
9
Más específico
17
𝑬 𝒇𝑾 𝑿 , 𝒚 = 𝒚𝒊 − 𝑾𝑻𝒙𝒊𝟐
𝒏
𝒊 𝟎
Mucho más específicos
18
17
18
![Page 10: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/10.jpg)
11/03/2020
10
Optimización: búsqueda
Descenso por gradiente 19
Descenso por Gradiente
• Método general de minimización• Busca identificar un mínimo dentro de una
función
20
19
20
![Page 11: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/11.jpg)
11/03/2020
11
Algunas funciones son fáciles
21
Algunas funciones son difíciles
22
21
22
![Page 12: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/12.jpg)
11/03/2020
12
Nuestras opciones
• Analítica: 1ª derivada, igualar a cero, deducir valores
• Métodos numéricos: GD (1ª derivada), Newton’sGD (1ª y 2ª derivada)
• Aproximativos: LBFS, PSO, AP
23
Imaginemos
24
23
24
![Page 13: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/13.jpg)
11/03/2020
13
El escenario naïve
• En algún punto de la montaña• En cada dirección (S,N,O,P) medimos cuanto
bajamos al dar un paso• Dar un paso en la dirección que bajamos más
Avanzamos sólo un paso y en una dirección
25
¿Si sólo hubiera una forma de saber hacia donde decrece la montaña?
• Supongamos que estamos en algún punto de 𝑓 𝜃
• La pendiente en cada dimensión 𝛻 = , … ,
• La pendiente indica cuanto crece la montaña• Entonces, vayamos en dirección contraria (…)• ¿Qué tan grande el paso? Entre más grande la
pendiente un paso más grande, y viceversa• Seamos inteligentes y pongamos un parámetro 𝒌, i.e
Al final se tiene: - 𝒌𝛻26
25
26
![Page 14: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/14.jpg)
11/03/2020
14
Formulación
• Dado un punto, podemos encontrar un nuevo punto más bajo
𝛉 = 𝛉 − 𝒌𝛻𝑓(𝜃)
Método iterativo
27
Para identificar nuevos pesos que minimicen el error
𝛉 = 𝛉 − 𝒌𝛻𝔼(𝑓 𝑥 , 𝑦)
• Método iterativo
28
27
28
![Page 15: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/15.jpg)
11/03/2020
15
Algoritmo
Se ve fácil; la parte difícil es calcular 𝛻𝑓
29
p1
Regresando
• La derivada parcial me la da la cantidad por la dimensión
• 𝜃 , … , 𝜃 = 𝜃 , … , 𝜃 − 𝑘 , … ,
30
29
30
![Page 16: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/16.jpg)
Slide 29
p1 personal, 1/28/2020
![Page 17: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/17.jpg)
11/03/2020
16
Regresando a nuestro problemaBuscando minimizar
𝔼(𝑓 𝑥 , 𝑦)
𝑤 , … , 𝑤 = 𝑤 , … , 𝑤 − 𝑘𝜕
𝜕𝑤, … ,
𝜕
𝜕𝑤
31
Recordemos
32
31
32
![Page 18: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/18.jpg)
11/03/2020
17
Derivando para dimensión
33
Derivadas de las sumas
34
33
34
![Page 19: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/19.jpg)
11/03/2020
18
Derivada de potencias
35
Expandiendo sumatoria
36
35
36
![Page 20: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/20.jpg)
11/03/2020
19
Expandiendo sumatoria
37
Derivando elementos
38
37
38
![Page 21: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/21.jpg)
11/03/2020
20
Simplificado
39
Resultado
40
39
40
![Page 22: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/22.jpg)
11/03/2020
21
41
42
41
42
![Page 23: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/23.jpg)
11/03/2020
22
43
¿Qué hay de ?
44
43
44
![Page 24: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/24.jpg)
11/03/2020
23
¿Pero con qué pesos comenzamos?
• Aleatorio• Uniforme al número de pesos
Como es aproximativo, no siempre tenemos el mismo modelo
45
¿Qué tipo de errores tenemos?
• Podemos pensar que nuestro espacio de hipótesis ℍ es un espacio de expertos
• Cada experto se desarrolló con una experiencia propia del problema, entonces difieren en como resolver el problema
46
45
46
![Page 25: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/25.jpg)
11/03/2020
24
¿Qué tipo de errores cometen?
• Se equivocan siempre de igual forma
• Se equivocan por todos lados
47
Es decir
• El experto tiene sesgo (Bias)
• El experto tiene varianza (Var)
48
47
48
![Page 26: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/26.jpg)
11/03/2020
25
Tomado de WTF is the Bias-Variance Tradeoff?
Los errores son una combinación de ambos factores
49
Falta un tipo de error
Intrínsecos del problema (𝜖)
50
49
50
![Page 27: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/27.jpg)
11/03/2020
26
¿Quién tiene la culpa del error?
¿El algoritmo o la hipótesis?
51
Valores esperados
Para variable discreta
𝔼[𝑋] = 𝑥 𝑝(𝑥 )
Para una distribución uniforme
𝔼[𝑋] =1
𝑛𝑥
52
51
52
![Page 28: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/28.jpg)
11/03/2020
27
Predicción esperada
𝔼[𝑓 (𝑥)] =1
𝑛𝑓 (𝑥 )
53
Error cuadrático esperado
𝔼[ 𝑓 𝑥 − 𝑦 ] =1
𝑛𝑓 𝑥 − 𝑦
54
53
54
![Page 29: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/29.jpg)
11/03/2020
28
Sesgo• Es la diferencia entre la predicción esperada y
el valor verdadero
𝐵𝑖𝑎𝑠 𝑓 𝑥 = 𝑦 − 𝔼[𝑓 𝑿 ]
• ¿Por qué son mala noticias para nosotros?
55
Varianza• Es la diferencia entre la predicción al cuadrado
esperada y el cuadrado de la predicción esperada
𝑉𝑎𝑟 𝑓 𝑥 = 𝔼 𝑓 𝑿 − 𝔼 𝑓 (𝑿)
56
55
56
![Page 30: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/30.jpg)
11/03/2020
29
Error cuadrático esperado
57
O en otras palabras
58
57
58
![Page 31: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/31.jpg)
11/03/2020
30
Tomado de Single estimator versus bagging: bias-variance decomposition59
Compromiso entre sesgo y varianza
• Modelos más sencillos, producen alto sesgo• Modelos más complejos, producen bajo sesgo• Modelos más sencillos, producen una baja
varianza en un espacio ℍ más grande• Modelos más complejos, producen una mayor
varianza en un espacio ℍ más grande
60
59
60
![Page 32: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/32.jpg)
11/03/2020
31
Tomado de WTF is the Bias-Variance Tradeoff61
Sub ajuste• Es cuando el modelo es tan simple que no es
suficiente para modelar las relaciones de los datos de entrenamiento
• Imaginen el modelo y = 𝑐
62
61
62
![Page 33: 3 Regresion lineal Error y Gradiente - UNAM](https://reader030.vdocuments.mx/reader030/viewer/2022012102/616a019511a7b741a34dc7cb/html5/thumbnails/33.jpg)
11/03/2020
32
Sobre ajuste• Es cuando el modelo es muy complejo, de tal
forma que memoriza los datos de entrenamiento, lo único que modela es el ruido
• Imaginen el modelo 𝑓 = 𝑔 + 𝜖
• Ante nuevos datos falla más
63
Tomado de Underfitting vs. Overfitting64
63
64