métodos numéricos c - · pdf filemétodos numéricos c a. ismael f....

Métodos Numéricos C

A. Ismael F. Vaz1

1Departamento de Produção e SistemasEscola de Engenharia

Universidade do [email protected]

Ano lectivo 2007/2008

A. Ismael F. Vaz (UMinho) MN C 2007/2008 1 / 216

Conteúdo

1 Introdução2 Erros3 Zeros de funções4 Resolução de sistemas lineares5 Resolução de sistemas não lineares6 Interpolação polinomial7 Mínimos quadrados lineares8 Mínimos quadrados não lineares9 Integração numérica10 Optimização não linear sem restrições11 Método de Davies Swann e Campey12 Método de Nelder Mead13 Método de Segurança de Newton14 Método quasi-Newton


Introdução

Contents



Introdução

Apresentação - Docente

Aulas teóricas

A. Ismael F. Vaz - [email protected]

www.norg.uminho.pt/aivaz

Aulas teórico-práticas

Isabel Espírito Santo - [email protected]

www.norg.uminho.pt/iapinho

Horário de atendimentoA combinar...


Introdução

Apresentação - Disciplina

Uma primeira parte de métodos numéricos e uma segunda parte deoptimização não linear sem restrições;Página da disciplina;http://www.norg.uminho.pt/aivaz

7 fichas TPs para realizar ao longo do semestre (nas aulas Ts).A classificação final é a soma das notas das fichas TPs.Não é obrigatória a presença nas aulas Ts e TPs. Mas atenção aosmomentos de avaliação.


Introdução

Material necessário e de apoio

Calculadora científica;Folhas das fichas TPs;www.norg.uminho.pt/aivaz

Papel e caneta;Livro de Computação Numérica;www.norg.uminho.pt/emgpf

Software CoNum;www.norg.uminho.pt/emgpf


Introdução

Programa detalhado / Avaliações

Dia Matéria25-Fev Apresentação da disciplina. Erros. Algarismos significativos.

Fórmula fundamental dos erros. Erros de truncatura.29-Fev Solução de equações não lineares. Método dos gráficos. Mé-

todo da secante e sua convergência. Método de Newton e suaconvergência. Critérios de paragem.

04-Mar Sistemas de equações lineares. Eliminação de Gauss com pi-votagem parcial.

11-Mar Métodos iterativos de Gauss-Seidel e Jacobi. Método de New-ton para sistemas de equações não lineares. Avaliação sobrezeros de funções (2.5 valores).

01-Abr Interpolação polinomial. Diferenças divididas. Fórmula inter-poladora de Newton. Erro da fórmula interpoladora de New-ton. Avaliação sobre sistemas lineares e não lineares (2.5 va-lores).

08-Abr Mínimos quadrados polinomiais e modelos lineares. Mínimosquadrados não lineares. Método de Gauss-Newton.


Introdução

Programa detalhado / Avaliações - cont.

Dia Matéria15-Abr Revisões. Avaliação sobre interpolação e mínimos quadrados

(3 valores).22-Abr Integração numérica. Fórmulas simples e compostas do Tra-

pézio, Simpson e 3/8.29-Abr Optimização não linear sem restrições. Condições de optima-

lidade. Avaliação sobre integração numérica (2.5 valores).06-Mai Procura unidimensional. Método DSC. Procura multidimen-

sional. Método de Nelder-Mead.20-Mai Método de Newton. Método de segurança de Newton. Avalia-

ção sobre condições de optimalidade e DSC + NM (3 valores).27-Mai Procura unidimensional com divisões sucessivas de α por 2.

Critério de Armijo. Questionários.03-Jun Método quasi-Newton. Revisões. Avaliação sobre segurança

de Newton (4 valores).17-Jun Revisões. Avaliação sobre quasi-Newton (2.5 valores).


Introdução

Motivação da disciplina

Presente em todos os cursos de engenharia (aplicações em todas asáreas da engenharia);A disciplina de métodos numéricos dedica-se à resolução numérica deproblemas matemáticos. Com o desenvolvimento dos computadoresencontra-se direccionada para a implementação de algoritmos estáveis.A optimização consiste em determinar soluções óptimas para problemamatemáticos.


Introdução

Controlo óptimo - Um exemplo

Problema de optimização do processo semi-contínuo de produção deEtanol.O problema de optimização é: (t0 = 0 e tf = 61.2 dias)

maxu(t)

J(tf ) ≡ x3(tf )x4(tf )

s.adx1

dt= g1x1 − u

x1

x4

dx2

dt= −10g1x1 + u

150− x2

x4

dx3

dt= g2x1 − u

x3

x4

dx4

dt= u

0 ≤ x4(tf ) ≤ 2000 ≤ u(t) ≤ 12∀t ∈ [t0, tf ]

com

g1 =(

0.4081 + x3/16

)(x2

0.22 + x2

)g2 =

(1

1 + x3/71.5

)(x2

0.44 + x2

)onde x1, x2 e x3 são as concentrações damassa celular, substrato e produto (g/L),e x4 é o volume (L). As condições iniciaissão:

x(t0) = (1, 150, 0, 10)T .


Introdução

Abordagem para a resolução

Grande exigência em termos numéricos;Grande exigência em termos de programação;Solução da equação diferencial com o CVODE (software em C);Problemas codificados em AMPL (linguagem de modelação);Algoritmo para optimização sem derivadas;


Erros

Contents



Erros

Formato de vírgula flutuante normalizado

fl(x) = ±0.d1d2...dk × 10e

onde, 0.d1d2 . . . dk corresponde à mantissa, e e é o expoente.flt(x) representa o valor de x em vírgula flutuante truncado efla(x) representa o valor de x em vírgula flutuante arredondado.

Exemplo

x =23

flt(x) = 0.66666× 100

fla(x) = 0.66667× 100


Erros

Formato de vírgula flutuante

(norma IEEE-754, 32 bits)

σ e + 64 d1 d2 d3 d4 d5 d6

1 bit 7 bits 4 bits 4 bits 4 bits 4 bits 4 bits 4 bits

Exemplox = 2490.125 = 9× 162 + 11× 161 + 10× 160 + 2× 16−1 =(9× 16−1 + 11× 16−2 + 10× 16−3 + 2× 16−4

)× 163

0 1000011 1001 1011 1010 0010 0000 0000σ e + 64 d1 d2 d3 d4 d5 d6


Erros

Exemplo de programação


Erros

Erros

Seja x o valor exacto e x o seu valor aproximado, que será usado noscálculos

x− x é o erro absoluto (normalmente não se pode calcular, porque xé desconhecido);|x− x| ≤ δx é o limite superior do erro absoluto;

rx = |x−x||x| = δx

|x| ≈δx|x| é o erro relativo.

ExemploPediu-se a duas pessoas para contarem laranjas de dois cestos. A primeira contou980 laranjas num cesto de 1000 e a segunda contou 480 num cesto de 500.Apesar de cometerem o mesmo erro absoluto (δ1 = 20 laranjas e δ2 = 20 laranjas)a segunda cometeu um erro maior, visto que r1 = 20

1000 = 0.02 e r2 = 20500 = 0.04.


Erros

Fórmula fundamental dos erros

Dados n valores aproximados, x1, . . . , xn, e os seus respectivos errosabsolutos é possível calcular um majorante para o erro absoluto cometidoquando se aplica uma função f , através da fórmula fundamental dos erros.

δf ≤Mx1δx1 + Mx2δx2 + ... + Mxnδxn

onde maxx∈I

∣∣∣ ∂f∂xi

∣∣∣ ≤Mxi , com I = Ix1 × · · · × Ixn eIxi = [xi − δxi , xi + δxi ]

rf ≤δf

|f(x1, . . . , xn)|


Erros

Exemplo

Cálculo dos limites do erro absoluto e relativo do cálculo da funçãof(x) = x1 − x2.

Temos que∣∣∣ ∂f∂x1

∣∣∣ ≤Mx1 = 1 e∣∣∣ ∂f∂x2

∣∣∣ ≤Mx2 = 1, logo

δf = δx1 + δx2

e

rf ≤δx1 + δx2

|x1 − x2|


Erros

Algarismos Significativos

Casa decimais são as casas (algarismos) à direita da vírgula.Os algarismos significativos são aqueles em que temos confiança do seuvalor.

Exemplos:0.1234567 tem 1 algarismo significativo se δ = 0.05, 2 se δ = 0.005 e 7 seδ = 0.00000005.

0.0000020 tem 7 casas decimais e 2 algarismos significativos(δ = 0.00000005).

Quando todas as casas decimais são significativas 0.2 é diferente de 0.20.


Zeros de funções

Contents



Zeros de funções

Forma geral do problema

Pretende-se determinar x∗ tal que

f(x) = 0

ExemploTemos x∗ = −0.567143290409784 como solução para

ex + x = 0

Nota: uma equação não linear pode não ter solução, ou ter mais do queuma.


Zeros de funções

Métodos iterativos

Uma sequência diz-se iterativa se é definida por uma função Findependente de k e dependente de um ou vários elementos anteriores a ele,

xk = F (xk−1, xk−2, . . . )

Aproximações iniciaisUm método que se baseie numa sequência iterativa com k − 1 elementosanteriores necessita também de k − 1 valores iniciais.

Exemploxk = xk−1 + xk−2

Partindo de x0 = 1 e x1 = 1 temos x2 = x1 + x0 = 2,x3 = x2 + x1 = 2 + 1 = 3, x4 = x3 + x2 = 3 + 2 = 5 gera uma sequênciacom os números de Fibonacci.


Zeros de funções

Convergência

Uma sequência iterativa diz-se convergente quando

limk→∞

xk = x∗

Convergência superlinear

limk→+∞

|x∗ − xk+1||x∗ − xk|1.618 = L ou lim

k→+∞

|x∗ − xk+1||x∗ − xk|

= 0

Convergência quadrática

limk→+∞

|x∗ − xk+1||x∗ − xk|2

= L


Zeros de funções

Critério de Paragem

A sequência de aproximações pode ser infinita. Como se pretende obteruma aproximação à solução implementa-se um critério de paragem.

Estimativa do erro relativo

dk =|xk+1 − xk||xk+1|

≤ ε1

Valor da função|f(xk+1)| ≤ ε2

Número máximo de iterações

k ≥ nmax


Zeros de funções

Método dos gráficos

Uma aproximação ao zero da função f(x) pode obter-se

pela intersecção do gráfico de f(x) com o eixo dos xx;se f(x) = g(x)− h(x) os zeros de f(x) são os pontos de intersecçãode g(x) com h(x).

O método dos gráficos é frequentemente usado para obtermos umaaproximação inicial para outros métodos mais precisos.


Zeros de funções

Exemplo

f(x) = ex + x g(x) = ex h(x) = −x

−1 −0.9 −0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.2 −0.1 0−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

x

y

f(x)

h(x)

g(x)


Zeros de funções

Método da bissecção

Se f(xi)f(xs) < 0 então existe um número ímpar de raízes de f(x) nointervalo [xi, xs].

Aproxima-se da raiz calculando xk = xi+xs2 , k = 1, 2, . . .

Considera-se o intervalo

[xi, xk] se f(xi)f(xk) < 0 e faz-se xs ← xk

ou[xk, xs] se f(xk)f(xs) < 0 e faz-se xi ← xk


Zeros de funções

Interpretação gráfica (Bissecção)

f(x) = ex + x

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

0

2

4

6

8

10

x

f(x)

xs

xi

xk

xs

xk+1


Zeros de funções

Método da secante

Método iterativo em que se fornece o x1 e x2 (a raiz não estánecessariamente no intervalo [x1, x2]). O próximo valor é calculado pelaseguinte fórmula (equação iterativa):

xk+1 = xk −(xk − xk−1)f(xk)f(xk)− f(xk−1)

, k = 2, 3, . . .

Zeros complexos: O método da secante também calcula zeros complexos,bastando para isso usar aritmética complexa.

Convergência: A convergência do método da Secante depende do valor deM2m ser pequeno. M é o max |f ′′(ξ)| e m é o min |f ′(η)|, onde ξ, η ∈ I.

εk+1 = − f ′′(ξ)2f ′(η)

εk−1εk


Zeros de funções

Interpretação gráfica (Secante)

f(x) = ex + x

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

0

2

4

6

8

10

x

f(x)

xk xk−1 xk+1 xk+2


Zeros de funções

Método de Newton

Método iterativo em que se fornece o x0. O próximo valor é calculado pelaseguinte formula (equação iterativa):

xk+1 = xk −f(xk)f ′(xk)

, k = 1, 2, ...

Zeros complexos: O método de Newton também calcula zeroscomplexos, bastando para isso usar aritmética complexa.

Convergência: A convergência do método de Newton depende do valor deM2m ser pequeno. M é o max |f ′′(ξ)| e m é o min |f ′(η)|, onde ξ, η ∈ I.

εk+1 = − f ′′(ξ)2f ′(η)

ε2k


Zeros de funções

Interpretação gráfica (Newton)

f(x) = ex + x

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2−2

0

2

4

6

8

10

x

f(x)

xk xk+1 xk+2


Zeros de funções

Principais propriedades

Ambos possuem convergência local. Superlinear no caso do métododa secante e quadrática no método de newton.

O método da secante não usa derivadas.

O método da secante e de Newton podem falhar quando odenominador da equação iterativa é próximo de zero, i.e., quandof(xk) ≈ f(xk−1) ou f ′(xk) ≈ 0.

O método da secante e de Newton não convergem necessariamentepara o zero mais próximo da aproximação inicial.


Zeros de funções

Exemplo ex + x = 0

Método de Newton com x0 = −0.5, ε1 = 0.5, ε2 = 0.1, nmax = 2.

Temos então que f(x) = ex + x e que f ′(x) = ex + 1.

1a iteração x0 = −0.5

f(−0.5) = e−0.5 − 0.5 = 0.1065 e f ′(−0.5) = 1.6065.

x1 = x0 − f(−0.5)f ′(−0.5) = −0.5− 0.1065

1.6065 = −0.5665

CP:

f(−0.5665) = 1.0082× 10−3 ≤ 0.1 (Verdadeiro)

|x1−x0||x1| = |−0.56665+0.5|

|−0.5665| = 0.1174 ≤ 0.5 (Verdadeiro)

O processo iterativo pára com x∗ ≈ x1 = −0.5665.

E se o ε1 fosse 0.1?A. Ismael F. Vaz (UMinho) MN C 2007/2008 35 / 216

Resolução de sistemas lineares

Contents





a11x1+ a12x2+ · · ·+ a1nxn = b1

a21x1+ a22x2+ · · ·+ a2nxn = b2

. . .an1x1+ an2x2+ · · ·+ annxn = bn

É um sistema com n equações lineares nas n incógnitas, x1, x2, . . . , xn. Osistema pode ser escrito na forma matricial Ax = b

a11 a12 . . . a1n

a21 a22 . . . a2n

. . .an1 an2 . . . ann

x1

x2

. . .xn

=

b1

b2

. . .bn



Exemplo

3 2 −29 7 −96 8 −8

x1

x2

x3

=

111

É um sistema linear de dimensão 3× 3. A matriz dos coeficientes

A =

3 2 −29 7 −96 8 −8

∈ R3×3 e o vector b = (1, 1, 1)T ∈ R3 é o vector dos

termos independentes.



Definições

A característica de uma matriz A, c(A), é o número máximo de linhasparalelas, ou colunas, linearmente independentes que existem namatriz.Para que um sistema seja possível e determinado temos de terc(A) = n. Caso contrário (c(A) < n) o sistema é indeterminado ouimpossível.À matrix (A|b) que se obtém ampliando A com a coluna do termoindependente b chama-se matriz ampliada do sistema.Triangular superior (inferior): É uma matriz em que os elementosabaixo (acima) da diagonal principal são zeros.Tridiagonal: Matriz em que aij = 0, se |i− j| ≥ 2, i, j = 1, . . . , n.Uma matriz com muitos elementos nulos diz-se esparsa.



Tipos de métodos

Métodos directos e estáveis. Métodos que calculam a solução exactado sistema ao fim de um número finito de operações elementares, casonão ocorram erros de arredondamento.

Matrizes dos coeficientes densas e de pequena dimensão.

Métodos iterativos. Métodos que definem uma sequência infinita deoperações, determinando uma sequência de aproximações, cujo limiteé a solução exacta do sistema.

Matrizes dos coeficientes esparsas e de grande dimensão.



Estabilidade numérica

Considere-se o seguinte sistema linear:{0.0001x1+ x2 = 1.0001

x1+ x2 = 2

cuja solução é x = (1, 1)T . Usando aritmética de três algarismossignificativos e considerando o multiplicador igual a− 1

0.100×10−3 = −0.100× 105, surge o sistema condensado{0.100× 10−3x1+ x2 = 0.100× 101

− 0.1× 105x2 = −0.1× 105

cuja solução é x = (0, 1)T !!!



Motivação - Continuação

Se nas mesmas condições usarmos a pivotagem parcial temos{x1+ x2 = 2

0.100× 10−3x1+ x2 = 0.100× 101

m = −0.100×10−3

1 = −0.100× 10−3

{x1+ x2 = 2

x2 = 0.100× 101

cuja solução é x = (1, 1)T .



Eliminação de Gauss com Pivotagem Parcial (EGPP)

Corresponde a eliminação de Gauss, mas em que a linha usada naeliminação dos elementos da coluna das linhas seguintes é o maior emmódulo.Exemplo: 3 2 −2

9 7 −96 8 −8

∣∣∣∣∣∣111

→ 9 7 −9

3 2 −26 8 −8

∣∣∣∣∣∣111

m21 = −39

m31 = −69 9 7 −9

0 −0.333333 10 3.333333 −2

∣∣∣∣∣∣1

0.6666670.333333

=



Eliminação de Gauss com Pivotagem Parcial (EGPP)

9 7 −90 3.333333 −20 −0.333333 1

∣∣∣∣∣∣1

0.3333330.666667

m32 = −−0.333333

3.333333 = 0.1=

9 7 −90 3.333333 −20 0 0.8

∣∣∣∣∣∣1

0.3333330.7



Substituição inversa

Quando a matriz é triangular superior pode-se determinar a soluçãodirectamente, através da substituição inversa.Exemplo 9 7 −9

0 3.333333 −20 0 0.8

∣∣∣∣∣∣1

0.3333330.7

vem que

x3 =0.70.8

= 0.875, x2 =0.333333− (−2)× 0.875

3.333333= 0.625

x1 =1− (−9)× 0.875− 7× 0.625

9= 0.5



Substituição directa

Quando a matriz é triangular inferior pode-se determinar a soluçãodirectamente, através da substituição directa.Exemplo 1 0 0

2 1 03 2 1

∣∣∣∣∣∣234

vem que

x1 =21

= 2, x2 =3− 2× 2

1= −1

x3 =4− 3× 2− 2× (−1)

1= 0



Decomposição LU

Da eliminação de Gauss com Pivotagem Parcial resulta

(A |I )→ (U |J )

Exemplo(1 2 1 02 1 0 1

)→(

2 1 0 11 2 1 0

)→(

2 1 0 10 1.5 1 −0.5

)



Determinantes de Matrizes

det(A) = (−1)sn∏

i=1

uii

onde uii corresponde aos elementos da diagonal da matriz U e s é onúmero de trocas de linhas para obter a matriz U .Exemplo

det

(1 22 1

)= (−1)1det

(2 10 1.5

)= (−1)1 × 2× 1.5 = −3



Cálculo da Inversa de Matrizes

A matriz inversa de A (A−1) verifica

AA−1 = I = A−1A.

O cálculo da matriz inversa reduz-se a resolução de n sistemas lineares daforma

Axj = ej , j = 1, . . . , n,

em que os vectores independentes ej são as colunas da matriz identidade.O vector solução xj corresponde à coluna j da matriz inversa.Na prática resolve-se os n sistemas em simultâneo, i.e., resolve-se aequação

(U |J )

por substituição inversa.



Cálculo da Inversa de Matrizes - Exemplo

(1 2 1 02 1 0 1

)→(

2 1 0 11 2 1 0

)→(

2 1 0 10 1.5 1 −0.5

)(

2 1 00 1.5 1

)→{

x11 = 0−1×0.66672 = −0.3334

x21 = 11.5 = 0.6667(

2 1 10 1.5 −0.5

)→{

x12 = 1−1×(−0.3333)2 = 0.6667

x22 = −0.51.5 = −0.3333

A inversa de(

1 22 1

)é(−0.3334 0.6667

0.6667 −0.3333

)



Métodos iterativos

Nos métodos iterativos a solução exacta só é obtida ao fim de umasequência infinita de operações.O processo parte de uma aproximação inicial para a solução do sistema eusa uma equação iterativa da forma

Mx(k+1) = Nx(k) + b, para k = 1, 2, . . .

Os métodos em que M e N não dependem de k dizem-se estacionários.Os métodos de Jacobi e Gauss-Seidel são métodos estacionário.



Método Iterativo Jacobi

D matriz dos elementos da diagonal principal, L matriz dos simétricos doselementos abaixo da diagonal principal e U matriz dos simétricos doselementos acima da diagonal principal.O método de Jacobi usa a partição de A em D − (L + U), i.e, M = D eN = L + UA equação iterativa fica

Dx(k+1) = (L + U)x(k) + b ou x(k+1) = D−1(L + U)x(k) + D−1b

A matriz iteração é

CJ = M−1N = D−1(L + U)



Método Iterativo Gauss-Seidel

M = D − L

N = U

A equação iterativa fica

Mx(k+1) = Nx(k) + b ou x(k+1) = M−1Nx(k) + M−1b

A matriz iteração é

CGS = M−1N = (D − L)−1U.



Critério de Paragem

Erro relativo na aproximação∥∥x(k+1) − x(k)∥∥∥∥x(k+1)

∥∥ < ε1

Resíduo ∥∥∥Ax(k+1) − b∥∥∥ < ε2



Convergência dos métodos iterativos

Condições suficientesA simétrica e definida positiva =⇒ GS exibe convergência global;A é estrita e diagonalmente dominante =⇒ J e GS exibemconvergência global;‖C‖p < 1, para qualquer normal p, =⇒ J e GS exibem convergênciaglobal;

C é a matriz iteração de Jacobi ou Gauss-Seidel.



Algumas definições

Uma matriz A diz-se simétrica se A = AT .Uma matriz é definida positiva se dT Ad > 0, ∀d 6= 0. É equivalente averificar que todos os determinante das sub-matrizes principais sãomaiores do que zero.Uma matriz A diz-se estrita e diagonalmente dominante se|aii| >

∑nj=1j 6=i

|aij |, i = 1, . . . , n



Exemplo - convergência de Gauss-Seidel

Considere-se a seguinte matriz dos coeficientes de um sistema linear

A =(

3 11 2

)Como a A = AT a matriz é simétrica.(

3 11 2

)det(|3|) = 3 > 0 det(A) = 3× 2− 1× 1 = 5 > 0

Logo A é simétrica e definida positiva e o método de Gauss-Seidelconverge.



Exemplo - convergência de Jacobi

Considere-se o seguinte sistema(1 2 13 1 1

)Como |1| ≯ |2| a matriz dos coeficientes não é estrita e diagonalmentedominante e nada se pode concluir acerca da convergência do método deJacobi. No entanto se trocarmos as linhas temos(

3 1 11 2 1

)e como |3| > |1| e |2| > |1| a matriz é estrita e diagonalmente dominante,logo o método de Jacobi converge.



Exemplo - convergência de Jacobi

Considere-se a seguinte matriz dos coeficientes de um sistema linear

A =(

3 23 1

)Como |3| > |2|, mas |1| ≯ |3| a matriz dos coeficientes não é estrita ediagonalmente dominante e nada se pode concluir acerca da convergênciado método de Jacobi.

D =(

3 00 1

)L =

(0 0−3 0

)U =

(0 −20 0

)



Continuação

CJ = D−1(L + U) =(

0.3333 00 1

)(0 −2−3 0

)=(

0 −0.6666−3 0

)Como

‖CJ‖∞ = max{|0|+ | − 0.6666|, | − 3|+ |0|} = 3 ≥ 1

e‖cJ‖1 = max{|0|+ | − 3|, | − 0.6666|+ |0|} = 3 ≥ 1

nada se pode concluir acerca da convergência do método de Jacobi.



Uma iteração do método de Gauss-Seidel

Considere-se o seguinte sistema linear

A =(

3 1 11 2 1

),

x(1) = (0, 0)T e ε1 = ε = 0.1

D =(

3 00 2

)L =

(0 0−1 0

)U =

(0 −10 0

)Equação iterativa é

(D − L)x(k+1) = Ux(k) + b



Continuação

1a iteração(3 01 2

)x(2) =

(0 −10 0

)(00

)+(

11

)=(

11

)(

3 0 11 2 1

)→

{x

(2)1 = 1

3 = 0.3333x

(2)2 = 1−1×0.3333

2 = 0.3334

C.P.

∥∥x(2) − x(1)∥∥∥∥x(2)

∥∥ =

∥∥∥∥( 0.33330.3334

)−(

00

)∥∥∥∥∞∥∥∥∥( 0.3333

0.3334

)∥∥∥∥∞

=0.33340.3334

= 1 ≮ 0.1

Como o critério não se verifica deve-se continuar com a próxima iteração.


Resolução de sistemas não lineares

Contents




Sistemas de equações não lineares

Forma geral do problemaf1(x1, x2, . . . , xn) = 0f2(x1, x2, . . . , xn) = 0. . .fn(x1, x2, . . . , xn) = 0

em que f = (f1, f2, . . . , fn)T é um vector de funções pelo menos uma vezcontinuamente diferenciáveis.Pretende-se determinar um x∗ = (x∗1, x

∗2, . . . , x

∗n)T tal que

f(x∗) = (0, 0, . . . , 0)T = 0.



Fórmula de Taylor a uma dimensão

Se f : R→ R for l + 1 vezes diferenciável temos que

f(x) =l∑

k=0

f (k)(a)k!

(x− a)k +f (l+1)(ξ)(l + 1)!

(x− a)l+1

com ξ ∈ [a, x] e a função definida em torno de a.

Exemplo: Valor da função em x(k+1) definido em torno de x(k).

f(x(k+1)) ≈ f(x(k)) + f ′(x(k))(x(k+1) − x(k))

ou seja, quando se pretende que f(x(k+1)) = 0 vem

x(k+1) = x(k) − f(x(k))f ′(x(k))

Eq. it. do método de Newton



Fórmula de Taylor para dimensão n

Se f : Rn → Rn temos que

f(x(k+1)) ≈ f(x(k))+∂f1(x(k))

∂x1

∂f1(x(k))∂x2

. . . ∂f1(x(k))∂xn

∂f2(x(k))∂x1

∂f2(x(k))∂x2

. . . ∂f2(x(k))∂xn

. . .∂fn(x(k))

∂x1

∂fn(x(k))∂x2

. . . ∂fn(x(k))∂xn

x(k+1)1 − x

(k)1

x(k+1)2 − x

(k)2

. . .

x(k+1)n − x

(k)n

e deduzindo a equação iterativa do método de Newton para sistemas deequações não lineares temos,

J(x(k))∆(k)x = −f(x(k)), com x(k+1) = x(k) + ∆(k)

x

em que J(x) é o Jacobiano da função.



Critério de paragem

‖x(k+1) − x(k)‖2‖x(k+1)‖2

=‖∆(k)

x ‖2‖x(k+1)‖2

≤ ε1

Se ‖x(k+1)‖2 é zero, ou próximo de zero, então o critério deve ser‖∆(k)

x ‖2 ≤ ε1

‖f(x(k+1))‖2 ≤ ε2

Número máximo de iterações.



Propriedades

Convergência local quadrática.

Determina a solução de um sistema linear numa única iteração.

Inconveniente do cálculo do Jacobiano. (Também existe um métododa secante para sistemas.)

O método falha quando o Jacobiano é singular (nova aproximaçãoinicial).

O método de Newton não converge necessariamente para a soluçãomais próxima da aproximação inicial.



Um exemplo

Considere-se o seguinte sistema não linear{3x2 + 2y2 = 354x2 − 3y2 = 24

cujo Jacobiano é J(x, y) =(

6x 4y8x −6y

)Temos

f(x, y) =(

3x2 + 2y2 − 354x2 − 3y2 − 24

)e a aproximação inicial é (x, y)(1) = (2.5, 2). Pretende-se determinar asolução com uma precisão de ε1 = ε2 = 10−1.



Continuação

1a iteração

J((x, y)(1)) = J(2.5, 2) =(

15 820 −12

)f((x, y)(1)) = f(2.5, 2) =

(−8.25−11

)

(15 8 8.2520 −12 11

)→(

20 −12 1115 8 8.25

)→(

20 −12 110 17 0

)→ ∆(1)

(x,y) =(

0.550

)e (x, y)(2) = (x, y)(1) + ∆(1)

(x,y) = (3.05, 2)T



Continuação

C.P. ∥∥∥f ((x, y)(2))∥∥∥

∞=∥∥∥∥( 0.9075

1.21

)∥∥∥∥∞

= 1.21 � ε2 = 0.1

Como o critério não se verifica faz-se uma nova iteração.


Interpolação polinomial

Contents




Motivação

Pretende-se determinar uma função aproximação que descreva o melhorpossível o comportamento de um conjunto de pontos (x0, f0), (x1, f1),. . . , (xm, fm).

Este conjunto de pontos pode ter sido obtido de:

observações de uma experiência (função desconhecida);uma função complexa cujo cálculo é difícil (função pode serconhecida).

A função aproximação server para:formular um modelo matemático que descreve o processo em causa;obter valores da função em pontos que são desconhecidos.

Problema: Como implementar a função sin(x) num microcontrolador?



Continuação

Pretende-se então, dado um conjunto de pontos (xi, fi), i = 1, . . . ,m,determinar uma função aproximação p(x) que melhor descreve ocomportamento dos dados, de acordo com uma certa medida.

No nosso caso vamos apenas considerar funções aproximação polinomiais,i.e., pn(x) é um polinómio interpolador de grau n.

Para construirmos o polinómio interpolador de Newton são necessárias asdiferenças divididas.



Diferenças divididas com espaçamento não constante

Considere-se uma função f(x) tabelada em m + 1 pontos x0, x1, . . . , xm

não igualmente espaçados.

Diferenças divididas de primeira ordem são

[xj , xj+1] =fj − fj+1

xj − xj+1j = 0, . . . ,m− 1

onde fj = f(xj).

A diferença dividida de primeira ordem corresponde ao declive da recta quepassa em (xj , fj) e (xj+1, fj+1).



Continuação

As diferenças divididas de segunda ordem são

[xj , xj+1, xj+2] =[xj , xj+1]− [xj+1, xj+2]

xj − xj+2, j = 0, . . . ,m− 2.

As diferenças divididas de ordem n são

[xj , xj+1, . . . , xj+n] =[xj , xj+1, . . . , xj+n−1]− [xj+1, xj+2, . . . , xj+n]

xj − xj+n

para j = 0, . . . ,m− n.



Tabela das diferenças divididas

x0 f0[x0, x1]

x1 f1 [x0, x1, x2][x1, x2] [x0, x1, x2, x3]

x2 f2 [x1, x2, x3][x2, x3] [x1, x2, x3, x4]

. . . . . . [x0, . . . , xm−1, xm]xm−2 fm−2 [xm−3, xm−2, xm−1]

[xm−2, xm−1] [xm−3, xm−2, xm−1, xm]xm−1 fm−1 [xm−2, xm−1, xm]

[xm−1, xm]xm fm



Exemplo

xi fi dd1 dd2 dd3 dd4 dd51 2

0.50003 3 0.1667

1.0000 −0.06674 4 −0.1667 0.0250

0.5000 0.0833 −0.00436 5 0.1667 −0.0139

1.0000 −0.01397 6 0.0833

1.333310 10



Propriedades das diferenças divididas

Simétrica nos argumentos, i.e., é independente da ordem dos argumentos;Exemplo

xi fi

6 51.0000

7 6 0.08331.3333

10 10

xi fi

7 61.3333

10 10 0.08331.25

6 5




Se fj = uj + vj para valores de xj , j = 0, . . . ,m então a tabela das DD def é igual à soma das tabelas das DD de u e v.Exemplo: f(x) = sin(x) + ex, u(x) = sin(x) e v(x) = ex.

xi ui

1 0.84150.0678

2 0.9093 −0.4180−0.7682

3 0.1411

xi vi

1 2.71834.6708

2 7.3891 4.012812.6964

3 20.0855

xi fi

1 3.55984.7386

2 8.2984 3.594811.9282

3 20.2266




A diferença dividida de cf(x), com c constante, é igual ao produto dadiferença dividida de f(x) por c.Exemplo: f(x) = sin(x), cf(x) = 2 sin(x)

xi fi

1 0.84150.0678

2 0.9093 −0.4180−0.7682

3 0.1411

xi 2fi

1 1.68300.1356

2 1.8186 −0.8360−1.5364

3 0.2822




As diferenças divididas de ordem n da função xn são iguais a 1 e as deordem r > n são nulas. Como consequência as diferenças divididas deordem n de um polinómio de ordem n são iguais e diferentes de zero.Exemplo: f(x) = x2 + 3x + 1

xi fi dd1 dd2 dd3 dd4−1 −1

20 1 1

4 01 5 1 0

6 02 11 1

83 19



Fórmula interpoladora de Newton

Das definições das diferenças divididas pode-se concluir que

f(x) = f0 + (x− x0)[x0, x] = f0 + (x− x0)f(x)− f0

x− x0

[x0, x] = [x0, x1] + (x− x1)[x0, x1, x][x0, x1, x] = [x0, x1, x2] + (x− x2)[x0, x1, x2, x]. . .

[x0, x1, . . . , xn−1, x] = [x0, x1, . . . , xn−1, xn] + (x− xn)[x0, x1, . . . , xn−1, xn, x]. . .

deduzindo-se a fórmula interpoladora de Newton

f(x) = f0 + (x− x0)[x0, x1] + (x− x0)(x− x1)[x0, x1, x2] + · · ·+(x− x0) . . . (x− xn−1)[x0, x1, . . . , xn] + · · ·



Polinómio interpolador de Newton

O polinómio interpolador de grau n obtém-se usado apenas n + 1 termosda fórmula interpoladora de Newton,

pn(x) = f0 + (x− x0)[x0, x1] + (x− x0)(x− x1)[x0, x1, x2] + · · ·+(x− x0) . . . (x− xn−1)[x0, x1, . . . , xn]

e temos queR(x) = f(x)− pn(x) = (x− x0)(x− x1) . . . (x− xn−1)(x− xn)f (n+1)(ξ)

(n+1)! ,ξ ∈ [x0, xn].



Diferenças divididas e derivadas

Da dedução da fórmula do erro de truncatura temos que

[x0, x1, . . . , xn] =f (n)(ξ)

n!, ξ ∈ [x0, xn],

ou seja, as diferenças divididas de primeira ordem são aproximações asprimeiras derivadas e a diferença dividida de ordem n é uma aproximação àderivada de ordem n da função sobre n!.



Determinação do polinómio interpolador

Em geral temos que m > n. Para construirmos o polinómio interpolador degrau n são necessários n + 1 pontos. A escolha dos pontos está relacionadacom o valor de x̄ para o qual se pretende obter uma estimativa da funçãof(x̄).

A escolha dos pontos deve obedecer as seguintes regras:os pontos xj e xj+1 em que xj < x̄ < xj+1 devem ser incluídos.os restantes, até formar os n + 1 necessários, são aqueles que estãomais próximos de x̄.



Exemplo

Considere-se a seguinte tabela de pontos

i 0 1 2 3 4 5xi 1 3 4 6 7 10fi 2 3 4 5 6 10

pretende-se obter uma estimativa de f(8) através usando uma interpolaçãoquadrática (polinómio de colocação de grau 2).Precisamos de 3 pontos para construir o polinómio de grau 2. x4 e x5

devem ser incluídos, uma vez que x4 < 8 < x5, e o restante será o x3.



Continuação

Construindo a tabela das diferenças divididas temos que

xi fi

6 51.0000

7 6 0.08331.3333

10 10

e p2(x) = 5 + (x− 6)× 1 + (x− 6)(x− 7)× 0.0833, ficandof(8) ≈ p2(8) = 5 + (8− 6)× 1 + (8− 6)(8− 7)× 0.0833 = 7.1666.Nota: x0 = 6, x1 = 7, e x2 = 10 para efeitos do cálculo do polinómio.Sendo o polinómio interpolador único qualquer combinação de pontosresulta no mesmo polinómio.



Continuação

xi fi

7 61.3333

10 10 0.08331.25

6 5

e p2(x) = 6 + (x− 7)× 1.3333 + (x− 7)(x− 10)× 0.0833, ficandof(8) ≈ p2(8) = 6 + (8− 7)× 1.333 + (8− 7)(8− 10)× 0.0833 = 7.1667.



Cálculo do majorante do erro absoluto

ET (x) =

∣∣∣∣∣(x− x0)(x− x1)(x− x2)f (3)(ξ)

3!

∣∣∣∣∣ , ξ ∈ [6, 10]

Como necessitámos de uma estimativa para f (3)(ξ) e a função f(x) édesconhecida vamos usar as diferenças divididas para a obter.

Com os pontos usados na construção do polinómio não é possível obteruma diferença dividida de ordem 3 e por isso vamos acrescentar mais umponto à tabela anterior.

É indiferente inserir o ponto no início ou no final da tabela, uma vez que ovalor de dd3 será o mesmo.



Continuação

xi fi

4 40.5000

6 5 0.16671.0000 −0.0139

7 6 0.08331.3333

10 10

ET (8) = |(8− 6)(8− 7)(8− 10)× (−0.0139)| = 0.0556


Mínimos quadrados lineares

Contents





MotivaçãoOs mínimos quadrados são usados quando os dados obtidos para umadeterminada função f(x) estão afectados de erros (ou ruídos). Neste casonão faz muito sentido usar uma interpolação, mas sim construir umafunção que reflicta, na generalidade, o comportamento dos dados.

ExemploSuponhamos que se pretende estimar o consumo de um automóvel emfunção da velocidade. Através da realização de várias experiênciaschegou-se aos seguintes valores:

xi(velocidade - km/h) 20 40 50 60 60 70 80fi(consumo l/100km) 5.5 5.6 5.7 5.9 5.85 6.1 7.5



Cont.

Seria correcto usar um polinómio interpolador para modelar a função f(x)?

20 30 40 50 60 70 805.4

5.6

5.8

6

6.2

6.4

6.6

6.8

7

7.2

7.4

Velocidade (km/h)

Con

sum

o (l/

100k

m)

O mais correcto seria determinar um polinómio de grau 2 (ou c1 + c2ex?)

que melhor se aproxima-se dos dados da tabela.



Forma geral do problema - Caso discreto

Dado um conjunto de valores (xi, fi), i = 1, . . . ,m, pretende-se determinarum modelo M(x) que aproxima o melhor possível a função dada, ou seja,

minimizar〈f −M(x), f −M(x)〉

em que

〈g(x), h(x)〉 =m∑

i=1

ω(xi)g(xi)h(xi).

Pretende-se então

minimizar

m∑i=1

(fi −M(xi))2



Caso polinomial - estabilidade numérica

No caso polinomial, ou seja, no caso em que M(x) = pn(x) e é usado oconjunto dos polinómios base {1, x, x2, . . . , xn−1, xn} na definição domodelo, temos que

M(x) = pn(x) = c0 + c1x + c2x2 + · · ·+ cn−1x

n−1 + cnxn

e a resolução do problema

minm∑

i=1

(fi − pn(xi))2

resulta num sistema linear mal condicionado.

A introdução dos polinómios ortogonais é suficiente para resolver oproblema de mau condicionamento.



Polinómios ortogonais

Definições:Duas funções g(x) e h(x) dizem-se ortogonais se o seu produtoescalar for nulo, i.e., se 〈g(x), h(x)〉 = 0.A sequência P0(x), P1(x), . . . , Pn(x) forma uma sequência de n + 1polinómios ortogonais se os polinómios Pi(x), i = 0, . . . , n, foremortogonais dois a dois e cada Pi(x) for um polinómio de grau igual a i.



Propriedades dos polinómios ortogonais

Os polinómios ortogonais Pn(x) são também linearmenteindependentes. Assim, qualquer polinómio pn(x), de grau n, pode serexpresso na seguinte forma única

pn(x) = c0P0(x) + c1P1(x) + · · ·+ cnPn(x),

como uma combinação linear de uma sequência de polinómiosortogonais.Os polinómios Pn(x) têm zeros reais e distintos que pertencem a[x1, xm].



Determinação dos polinómios ortogonais

Pi+1(x) = Ai(x−Bi)Pi(x)− CiPi−1(x), para i = 0, . . . , n− 1

sendo P−1(x) = 0, P0(x) = 1 e os coeficientes da relação

Ai = 1, para todo o i,

Bi =〈xPi(x), Pi(x)〉〈Pi(x), Pi(x)〉

, para todo o i,

C0 = 0 e Ci =〈Pi(x), Pi(x)〉〈Pi−1(x), Pi−1(x)〉

para i > 0.



Determinação dos coeficientes

c0 =∑m

i=1 fiP0(xi)∑mi=1 P0(xi)2

, c1 =∑m

i=1 fiP1(xi)∑mi=1 P1(xi)2

, . . . ,

cn =∑m

i=1 fiPn(xi)∑mi=1 Pn(xi)2

sendo o modelo

pn(x) = c0P0(x) + c1P1(x) + · · ·+ cnPn(x).



Exemplo

Determinação da recta (polinómio de grau 1) que melhor se ajusta (nosentido dos mínimos quadrados) aos dados da tabela

xi 20 40 50 60 60 70 80fi 5.5 5.6 5.7 5.9 5.85 6.1 7.5

O modelo a determinar será p1(x) = c0P0(x) + c1P1(x). Em primeiro lugardetermina-se os polinómios ortogonais. P0(x) = 1 por definição e

P1(x) = A0(x−B0)P0(x)− C0P−1(x)

com A0 = 1, C0 = 0, P−1(x) = 0 e

B0 =〈xP0(x), P0(x)〉〈P0(x), P0(x)〉

=∑7

i=1 xiP20 (xi)∑7

i=1 P 20 (xi)

=3807

= 54.285714



Cont.

Temos então que p1(x) = c0 + c1(x− 54.285714) e falta determinar oscoeficientes.

c0 =∑7

i=1 fiP0(xi)∑7i=1 P0(xi)2

=42.15

7= 6.021429

c1 =∑7

i=1 fiP1(xi)∑7i=1 P1(xi)2

=5.5(20− 54.285714) · · · 7.5(80− 54.285714)

(20− 54.285714)2 · · · (80− 54.285714)2

=62.5714412371.4286

= 0.026386 (0.026506 CoNum)

ficando p1(x) = 6.021429 + 0.026386(x− 54.285714)



Exemplo - Interpretação gráfica

20 30 40 50 60 70 805

5.5

6

6.5

7

7.5

8

p1(x)

p2(x)

p2(x) = 6.021429 + 0.026506(x− 54.285714)+0.000946 ∗ ((x− 44.991394)(x− 54285714)− 338.775510)



Modelo linear não polinomial - Caso discreto

Pretende-se determinar o modelo, linear nos coeficientes, que melhor seaproxima (no sentido dos mínimos quadrados) à função f(x). Sendo omodelo linear nos coeficientes pode-se escrever como

M(x) = c1φ1(x) + c2φ2(x) + · · ·+ cnφn(x)

ExemploM(x) = c1 + c2e

x

em que φ1(x) = 1 e φ2(x) = ex.



Dedução das equações normais

Pretende-se

minimizarS ≡m∑

i=1

(fi − c1φ1(xi)− · · · − cnφn(xi))2

e derivando S em ordem aos ci, i = 1, . . . , n e igualando a zero, obtém-se

∂S

∂c1=

m∑i=1

(fi − c1φ1(xi)− · · · − cnφn(xi))φ1(xi) = 0

· · ·

∂S

∂cn=

m∑i=1

(fi − c1φ1(xi)− · · · − cnφn(xi))φn(xi) = 0



Sistema das equações normais

Na forma matricial vem0BBBBBBBBBBBB@

mXi=1

φ1(xi)φ1(xi)

mXi=1

φ1(xi)φ2(xi) ...

mXi=1

φ1(xi)φn(xi)

mXi=1

φ2(xi)φ1(xi)

mXi=1

φ2(xi)φ2(xi) ...

mXi=1

φ2(xi)φn(xi)

...... ......mX

i=1

φn(xi)φ1(xi)

mXi=1

φn(xi)φ2(xi) ...

mXi=1

φn(xi)φn(xi)

1CCCCCCCCCCCCA

0BBB@c1

c2

...

cn

1CCCA =

0BBBBBBBBBBBB@

mXi=1

fiφ1(xi)

mXi=1

fiφ2(xi)

...mX

i=1

fiφn(xi)

1CCCCCCCCCCCCA



Exemplo

Consideremos o exemplo já apresentado

xi(velocidade - km/h) 20 40 50 60 60 70 80fi(consumo l/100km) 5.5 5.6 5.7 5.9 5.85 6.1 7.5

pretendendo-se ajustar o modelo M(x) = c1 + c2ex20 à tabela dada. Temos

que φ1(x) = 1 e φ2(x) = ex20 , resolvendo o sistema linear (EGPP)( ∑7

i=1 1∑7

i=1 exi20

∑7i=1 fi∑7

i=1 exi20

∑7i=1 e

xi10

∑7i=1 fie

xi20

)

vem c1 = 5.231132, c2 = 0.036838 e consequentemente

M(x) = 5.231132 + 0.036838ex20 .



Exemplo - Gráfico

10 20 30 40 50 60 70 80 905

5.5

6

6.5

7

7.5

Velocidade (km/h)

Con

sum

o (l/

100k

m)



Resíduo

O resíduo é determinado por

m∑i=1

(fi − c1φ1(xi)− · · · − cnφn(xi))2 .

No caso do polinómio de grau um, p1(x), temos um resíduo de 1.123193.Para o polinómio de grau 2 temos um resíduo de 0.302736 e no modelolinear um resíduo de 0.247494.O melhor modelo é o linear, porque tem menor resíduo.



Exemplo - Gráficos

10 20 30 40 50 60 70 80 905

5.5

6

6.5

7

7.5

Velocidade (km/h)

Con

sum

o (l/

100k

m)

p1(x)

p2(x)

M(x)


Mínimos quadrados não lineares

Contents




Forma geral do problema - Caso discreto

Dado um conjunto de valores (xi, fi), i = 1, . . . ,m, pretende-se determinarum modelo M(x) que aproxima o melhor possível a função dada, ou seja,

minimizarS =m∑

i=1

(fi −M(xi))2

em que o modelo M(x) é não linear nos coeficientes.



Exemplo

Suponhamos que se pretende estimar o consumo de um automóvel emfunção da velocidade. Através da realização de várias experiênciaschegou-se aos seguintes valores:

xi(velocidade - km/h) 20 50 60 80fi(consumo l/100km) 5.5 5.7 5.9 7.5

Pretende-se ajustar o modelo

M(x) = c1 + ec2x

aos pontos da tabela, no sentido dos mínimos quadrados.



Dedução das equações normais

Pretende-se

minimizarS ≡m∑

i=1

(fi −M(xi))2

e derivando S em ordem aos ci, i = 1, . . . , n e igualando a zero, obtém-se

∂S

∂c1= −

m∑i=1

(fi −M(xi))∂M(xi)

∂c1= 0

· · ·

∂S

∂cn= −

m∑i=1


∂cn= 0



Sistema das equações normais

Uma vez que M(x) é não linear nos coeficiente o sistema resultante étambém não linear nos coeficientes

F1(c) = −m∑

i=1


∂c1= 0

· · ·

Fn(c) = −m∑

i=1


∂cn= 0

e vamos aplicar o método de Newton para sistemas não lineares.



Método de Newton

A equação iterativa do método de Newton é

J(c)∆c = −F (c)

com ck+1 = ck + ∆c e em que o cada elemento do Jacobiano é

Jjk =∂Fj

∂ck=

m∑i=1

{∂M(xi)

∂ck

∂M(xi)∂cj

− (fi −M(xi))∂2M(xi)∂ck∂cj

},

para j, k = 1, . . . , n.



Método de Gauss-Newton

Como, próximo da solução, se espera que

(fi −M(xi))

seja próximo de zero, o método de Gauss-Newton despreza o segundotermo dos elementos do Jacobiano, tomando como aproximação aoJacobiano a matriz A cujos elementos são

∂Fj

∂ck≈ Ajk =

m∑i=1

{∂M(xi)

∂ck

∂M(xi)∂cj

},

para j, k = 1, . . . , n.



Resíduo

O resíduo é determinado por

S =m∑

i=1

(fi −M(xi))2 ,

sendo um resultado obtido em cada iteração do algoritmo deGauss-Newton.



Exemplo - Uma iteração

Considere novamente o modelo M(x) = c1 + ec2x que se pretende ajustaraos pontos da tabela (c(1) = (3.7, 0.015)T e ε1 = ε2 = 0.1)

xi(velocidade - km/h) 20 50 60 80fi(consumo l/100km) 5.5 5.7 5.9 7.5

Temos que∂M(x)

∂c1= 1 e

∂M(x)∂c2

= xec2x

e consequentemente

F (c) =

−

4∑i=1

(fi − c1 − ec2xi)

−4∑

i=1

(fi − c1 − ec2xi) xiec2xi

.



Exemplo - Cont.

A matriz aproximação do Jacobiano é

A(c) =

∑4i=1

(∂M(xi)

∂c1

)2 ∑4i=1

∂M(xi)∂c1

∂M(xi)∂c2∑4

i=1∂M(xi)

∂c2

∂M(xi)∂c1

∑4i=1

(∂M(xi)

∂c2

)2

A(c) =( ∑4

i=1 1∑4

i=1 xiec2xi∑4

i=1 xiec2xi

∑4i=1 (xie

c2xi)2

)



Exemplo - 1a iteração

c(1) = (3.7, 0.015)T

xi fi M(xi)∂M(xi)

∂c2

(∂M(xi)

∂c2

)2

− (fi −M(xi))

20 5.5 5.0499 26.9972 728.8475 −0.450150 5.7 5.8170 105.8500 11204.2227 0.117060 5.9 6.1596 147.5762 21778.7309 0.259680 7.5 7.0201 265.6094 70548.3288 −0.4799

546.0328 104260.1299 −0.5534

− (fi −M(xi))∂M(xi)

∂c2(fi −M(xi))2

−12.1514 0.202612.3845 0.013738.3108 0.0674−127.4659 0.2303−88.9220 0.5140



Cont.

Temos então que S(1) = 0.5140 e o seguinte sistema linear para resolver(por EGPP)(

4 546.0328 0.5534546.0328 104260.1299 88.9220

)→ ∆c =

(0.07690.0005

)e consequentemente

c(2) = c(1) + ∆c =(

3.70.015

)+(

0.07690.0005

)=(

3.77690.0155

)Falta-nos confirmar que há decréscimo da função objectivo, i.e.,S(2) < S(1) e o critério de paragem.



Cont.

c(2) = (3.7769, 0.0155)T

xi fi M(xi)∂M(xi)

∂c2− (fi −M(xi)) − (fi −M(xi))

∂M(xi)∂c2

20 5.5 5.1403 27.2685 −0.3597 −9.808550 5.7 5.9475 108.5296 0.2475 26.861160 5.9 6.3114 152.0706 −0.4114 −62.561880 7.5 7.2325 276.4491 0.2675 73.9501

−0.2561 28.4409

(fi −M(xi))2

0.12940.06130.16920.07160.4315




Temos então que 0.4315 = S(2) < S(1) = 0.5140,

F (c(2)) =(−0.256128.4409

)e∥∥∥F (c(2))

∥∥∥ = 28.4420 > ε2 = 0.01

por outro lado também temos que

‖∆c‖∥∥c(2)∥∥ =

∥∥∥∥( 0.07690.0005

)∥∥∥∥∥∥∥∥( 3.77690.0155

)∥∥∥∥ =0.07693.7769

= 0.0204 > ε1 = 0.01

e temos que passar para a próxima iteração.



Gráfico com c(2)

O resíduo em c(2) é S(2) = 0.4314.

10 20 30 40 50 60 70 80 905

5.5

6

6.5

7

7.5

Velocidade (km/h)

Con

sum

o (l/

100k

m)


Integração numérica

Contents





Pretende-se calcular uma aproximação ao integral definido

I =∫ b

af(x)dx

com a e b constantes.A técnica a utilizar consiste na aproximação da função f(x) por umpolinómio interpolador, pn(x), e posteriormente aproxima-se I por∫ ba pn(x)dx.



Motivação para a integração numérica

As situações mais frequentes onde se torna necessário calcular umaaproximação ao integral definido são:

a função primitiva não pode vir expressa em termos de funçõeselementares;a expressão da primitiva é muito complexa;a função integranda é conhecida apenas num conjunto discreto depontos.



Fórmulas com intervalos de amplitudes constantes

Fórmulas Newton-Cotes (simples)As fórmulas simples são aplicadas a um intervalo que contém o númeromínimo de pontos para a interpolação entre a e b.Regra do Trapézio (n = 1)∫ b

af(x)dx ≈ b− a

2[f(a) + f(b)]



Cont.

Regra de Simpson (n = 2)∫ b

af(x)dx ≈ b− a

6

[f(a) + 4f

(a + b

2

)+ f(b)

]

Regra dos 38 (n = 3, regra de Newton dos três oitavos)∫ b

af(x)dx ≈ b− a

8

[f(a) + 3f

(2a + b

3

)+ 3f

(a + 2b

3

)+ f(b)

]



Interpretação geométrica - Trapézio

0 0.5 1 1.5 2 2.5 3 3.50

0.2

0.4

0.6

0.8

1

1.2

1.4

x

sin(

x)

p1(x)

sin(x)

I

p1(x) =sen(1) + sen(1)−sen(1.5)

1−1.5 (x− 1)



Erro de truncatura

As fórmulas do erro de truncatura são deduzidas a partir da fórmula para oerro da interpolação polinomial.Regra do Trapézio

ETT = −(b− a)3

12f ′′(ξ), ξ ∈ [a, b]

Uma vez que ξ é um valor desconhecido calcula-se um majorante do erroabsoluto, através da expressão∣∣∣∣−(b− a)3

12M

∣∣∣∣ , em que M ≥ maxξ∈[a,b]

f ′′(ξ)



Cont.

Regra de Simpson

ETS = −(b− a)5

2880f (iv)(ξ), ξ ∈ [a, b]

Regra dos 38

ET 38

= −(b− a)5

6480f (iv)(ξ), ξ ∈ [a, b]



Fórmulas compostas - caso do Trapézio

Suponhamos que se pretende aplicar a regra do Trapézio a um conjunto depontos, igualmente espaçados, x0, x1, x2, . . . , xn, para determinar∫ xn

x0f(x)dx (dados os valores de f(x0) = f0, . . . , f(xn) = fn).

Como∫ xn

x0

f(x)dx =∫ x1

x0

f(x)dx +∫ x2

x1

f(x)dx + · · ·+∫ xn

xn−1f(x)dx

e ∫ x1

x0

f(x)dx ≈ x1 − x0

2[f0 + f1] ,∫ xi+1

xi

f(x)dx ≈ xi+1 − xi

2[fi + fi+1]



Cont.

Temos então que∫ xn

x0

f(x)dx ≈ x1 − x0

2[f0 + f1] +

x2 − x1

2[f1 + f2] + . . .

+xn − xn−1

2[fn−1 + fn]

Usando o facto de que h = x1 − x0 = x2 − x1 = · · · = xn − xn−1, ecolocando em evidencia o termo h

2 vem que∫ xn

x0

f(x)dx ≈ h

2[f0 + 2f1 + 2f2 + · · ·+ 2fn−1 + fn]



Cont.

As fórmulas compostas de Simpson e 38 são deduzidas de forma semelhante

à do Trapézio, mas no caso da regra de Simpson consideram-se múltiplosde 2 intervalos e no caso dos 3

8 múltiplos de 3 intervalos.

Composta de Simpson∫ xn

x0

f(x)dx ≈ h

3[f0 + 4f1 + 2f2 + 4f3 + · · ·+ 2fn−2 + 4fn−1 + fn]

Composta dos 38∫ xn

x0

f(x)dx ≈ 3h

8[f0 + 3f1 + 3f2 + 2f3 + · · ·+

+ · · ·+ 2fn−3 + 3fn−2 + 3fn−1 + fn]



Erros de truncatura

As fórmulas dos erros de truncatura são deduzidas a partir da fórmula doerro de truncatura simples.Trapézio

ETT (h) =−n−1∑i=0

(xi+1 − xi)3

12f ′′(ξi) = −h2

12(b− a)

n

n−1∑i=0

f ′′(ξi)

=− h2

12(b− a)f ′′(η), η ∈ [a, b].



Cont.

Simpson

ETS(h) = − h4

180(b− a)f (iv)(η), η ∈ [a, b]

38

ET 38(h) = −h4

80(b− a)f (iv)(η), η ∈ [a, b]



Intervalos de amplitudes variadas

Os intervalos de amplitudes variadas devem ser divididos em intervalos deamplitudes constantes e posteriormente aplicar-se as fórmulasNewton-Cotes.

Da análise das fórmulas do erro de truncatura conclui-se a aplicação dasseguintes regras (para valores de h ≤ 1):

quando o número de intervalos é par aplica-se a regra de Simpson;quando o número de intervalos é múltiplo de 3 aplica-se a regra dos 3

8 ;aplica-se a regra do trapézio nos restantes casos.



Exemplo [Edite Fernandes, 1998, adaptado]

Um carro inicia um percurso, num dia de Inverno, e um aparelho mede oconsumo de gasolina no instante em que percorreu x km. Os resultadosregistados são:

x km 0.00 1.25 2.50 3.75 5.00 6.50 8.00 9.50 10.00f(x) l/hm 0.260 0.208 0.172 0.145 0.126 0.113 0.104 0.097 0.092

em que f(x) designa o consumo no fim do percurso, naquele instante, eml/km. Calcule o consumo total de gasolina no fim do percurso de 10km.∫ 10

0f(x)dx ≈1.25

3[0.260 + 4× 0.208 + 2× 0.172 + 4× 0.145 + 0.126]

+3× 1.5

8[0.126 + 3× 0.113 + 3× 0.104 + 0.097]

+0.52

[0.097 + 0.092]



Erro absoluto de truncatura

É a soma dos majorantes das fórmulas aplicadas. Como a função f(x) édesconhecida usamos uma tabela das diferenças divididas para as estimar.

ET =∣∣∣∣−1.254

180(5.00− 0.00)0.000102× 4!

∣∣∣∣+∣∣∣∣−1.54

80(9.50− 5.00)0.000016× 4!

∣∣∣∣+∣∣∣∣−0.52

12(10− 9.5)(−0.002667)× 2!

∣∣∣∣



Cont.

x f(x)0.00 0.260

-0.0416001.25 0.208 0.005120

-0.028800 -0.0005972.50 0.172 0.002880 0.000102

-0.021600 -0.0000853.75 0.145 0.002560 0.000007

-0.015200 -0.0000465.00 0.126 0.002376 -0.000055

-0.008667 -0.0003506.50 0.113 0.000889 0.000044

-0.006000 -0.0000998.00 0.104 0.000444 0.000016

-0.004667 -0.0000009.50 0.097 -0.002667

-0.01000010.00 0.092



Falta cálculo de espaçamento dado o majorante do erro detruncatura

Pois...


Optimização não linear sem restrições

Contents





A formulação matemática de um problema de optimização, na sua formamais geral, é

minx∈Rn

f(x)

s.a ci(x) = 0, i = 1, . . . ,m

cj(x) ≥ 0, j = m + 1, . . . , t

onde f(x) é a função objectivo, ci(x) = 0 são as restrições de igualdade ecj(x) ≥ são as restrições de desigualdade.



Equivalência entre problemas

O problema de optimização (maximização)

maxx∈Rn

g(x)

s.a ci(x) = 0, i = 1, . . . ,m

c̃j(x) ≤ 0, j = m + 1, . . . , t

é equivalente ao problema de optimização (minimização)

minx∈Rn

f(x) ≡ −g(x)

s.a ci(x) = 0, i = 1, . . . ,m

cj(x) ≡ −c̃j(x) ≥ 0, j = m + 1, . . . , t



Interpretação geométrica

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5−6

−4

−2

0

2

4

6

x

f(x)

, −f(

x)

x*

f(x*)

−f(x*)

f(x) = (x− 0.5)2 + 2g(x) = −f(x) = −(x− 0.5)2 − 2



Exemplo

Pretende-se determinar o volume máximo de uma lata (cilindro), fechadanas duas extremidades, sabendo que a quantidade de chapa a usar é de1000 cm2. Sendo r o raio da tampa e h a altura da lata, uma possívelformulação do problema de optimização é

max(r,h)∈R2

πr2h

s.a 2πr2 + 2πrh = 1000

que pode ser transformado no problema de minimização

minx∈R2

−πx21x2

s.a 2πx21 + 2πx1x2 = 1000



Optimização sem restrições

Apenas iremos considerar problemas de minimização e sem restrições. Asua formulação é pois

minx∈Rn

f(x).

Classificação dos problemas (mais usuais)

Problemas unidimensionais (n = 1, ou seja, x ∈ R);

Problemas multidimensionais (n > 1, ou seja, x = (x1, . . . , xn)T ∈ Rn);

Problemas de programação linear (f(x) e c(x) são funções lineares, i.e.,f(x) = Ax, c(x) = Ax− b);

Problemas de programação quadrática (f(x) é uma função quadrática, i.e.,f(x) = 1

2xT Gx + dT x, e c(x) são funções lineares);

Problemas com limites simples (restrições nas variáveis do tipo al ≤ xl ≤ bl,l = 1, . . . , n);

Problemas de programação não linear (pelo menos uma das funçõesenvolvidas, f(x), c(x) é não linear).



Classificação de mínimos

x∗ éminimizante local forte se ∃δ tal que f(x∗) < f(x̄), ∀x̄ ∈ Vδ(x∗);minimizante local fraco se ∃δ tal que f(x∗) ≤ f(x̄), ∀x̄ ∈ Vδ(x∗);minimizante global forte se f(x∗) < f(x̄), ∀x̄ ∈ Rn;minimizante global fraco se f(x∗) ≤ f(x̄), ∀x̄ ∈ Rn;

Onde Vδ(x∗) é uma vizinhança de x∗ de raio δ (||x̄− x∗|| < δ).



Mínimo global

Mínimo global forte Função ilimitada Mínimo global fraco

f(x∗) < f(x̄) f(x∗) ≤ f(x̄)∀x̄ ∈ R ∀x̄ ∈ R



Mínimo local

∃δ : f(x∗) < f(x̄), ∀x̄ ∈ Vδ(x∗).∃δ : f(x∗) ≤ f(x̄), ∀x̄ ∈ Vδ(x∗).



Conceitos

Máximo e maximizante;Mínimo e minimizante;Óptimo local ou global;Convergência local e global de algoritmos. Um algoritmo diz-se globalse determina um minimizante (maximizante) dada uma qualqueraproximação inicial. Um algoritmo diz-se local se determina umminimizante partindo apenas de uma aproximação inicialsuficientemente perto do minimizante. (Não confundir com adeterminação de mínimos locais ou globais).



Condições de optimalidade

Condições necessárias para a existência de um mínimof ′(x∗) = 0;f ′′(x∗) ≥ 0.

Condições suficientes para a existência de um mínimof ′(x∗) = 0;f ′′(x∗) > 0.



Exemplos

f(x) = (x− 1.5)2 f(x) = sin(x)f ′(1.5) = 2× (1.5− 1.5) = 0 f ′(π

2 ) = cos(π2 ) = 0

f ′′(1.5) = 2 > 0 f ′′(π2 ) = − sin(π

2 ) = −1 < 0

1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 20

0.05

0.1

0.15

0.2

0.25

1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 20.84

0.86

0.88

0.9

0.92

0.94

0.96

0.98

1

1.02

Pelas condições necessária e suficiente



Exemplos

f(x) = x4 f(x) = x3

f ′(0) = 3× (0)3 = 0 f ′(0) = 3× (0)2 = 0f ′′(0) = 12× (0)2 = 0 f ′′(0) = 6× (0) = 0

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Verifica-se a condição necessária, mas não a condição suficiente



Alguma notação

Gradiente de f(x) : Rn → R, x = (x1, . . . , xn)T , vector de dimensão n

∇f(x) = g(x) =

∂f∂x1∂f∂x2

. . .∂f∂xn

=(

∂f

∂x1,

∂f

∂x2, . . . ,

∂f

∂xn

)T

Matriz Hessiana, matriz de dimensão n× n

∇2f(x) = G(x) =

∂2f∂x2

1. . . ∂2f

∂xn∂x1

. . . . . .∂2f

∂x1∂xn. . . ∂2f

∂x2n



Condições de optimalidade

Condições necessárias para a existência de um mínimog(x∗) = 0 (sistema não linear);G(x∗) � 0 (semi-definida positiva).

Condições suficientes para a existência de um mínimog(x∗) = 0 (sistema não linear);G(x∗) � 0 (definida positiva).



Exemplo

Pretende-se determinar todos os pontos óptimos do seguinte problema deoptimização

minx∈R2

x21 + x3

2 + 2x1x2 ≡ f(x)

Da condição de necessária e suficiente de primeira ordem temos queg(x) = (2x1 + 2x2, 3x2

2 + 2x1)T = (0, 0)T ,

ou seja,{2x1 + 2x2 = 0

3x22 + 2x1 = 0

⇔

{x1 = −x2

3x22 − 2x2 = 0

⇔

x1 = −x2

x2 = 0 ∨ x2 =23

Os pontos x̄ = (0, 0)T e x̂ = (−23 , 2

3)T são pontos estacionários de f(x).



Cont.

Para verificar as condições de segunda ordem temos que estudar G(x̄) eG(x̂).

G(x) =(

2 22 6x2

), G(x̄) =

(2 22 0

), G(x̂) =

(2 22 4

)

det(|2|) = 2, det

(∣∣∣∣ 2 22 0

∣∣∣∣) = −4, det

(∣∣∣∣ 2 22 4

∣∣∣∣) = 4

e temos que G(x̄) é indefinida (x̄ é ponto sela - descanso) e G(x̂) édefinida positiva (x̂ é mínimo local forte).



Representação gráfica/Curvas de nível

−1.5−1

−0.50

0.51

1.5

−2

−1

0

1

2−10

−5

0

5

10

15

x1x2

f(x)

−1.5 −1 −0.5 0 0.5 1 1.5−1.5

−1

−0.5

0

0.5

1

1.5

f(x) = x21 + x3

2 + 2x1x2



Motivação para os métodos numéricos

Na determinação analítica dos pontos estacionários é necessário resolverum sistema não linear, que é quase sempre de difícil resolução.

ExemploConsidere-se a função f(x) = x1e

x2 − 2x1x2.Os pontos estacionários de f(x) obtêm-se através da resolução do sistemanão linear {

ex2 − 2x2 = 0x1e

x2 − 2x1 = 0


Método de Davies Swann e Campey

Contents





A formulação matemática de um problema de optimização unidimensional,sem restrições é

minx∈R

f(x),

com f(x) : R→ R (n = 1).



Exemplo

Pretende-se determinar o volume máximo de uma lata (cilindro), fechadanas duas extremidades, sabendo que a quantidade de chapa a usar é de1000 cm2. Sendo r o raio da tampa e h a altura da lata, uma possívelformulação do problema de optimização é

max(r,h)∈R2

πr2h

s.a 2πr2 + 2πrh = 1000

A restrição 2πr2 + 2πrh = 1000 pode ser usada para eliminar h na funçãoobjectivo, originando o seguinte problema de minimização unidimensional

minx∈R−πx2

(10002πx

− x

)= −500x + πx3



Interpolação quadrática

O método DSC procura três pontos igualmente espaçados, x1 < x2 < x3,que formam uma zona convexa da função objectivo. Os três pontosigualmente espaçados (x1, x2 e x3 com espaçamento δ) são usados paraestimar o mínimo da função f(x), usando uma interpolação quadrática.

x∗(q) = x2 + δf(x1)− f(x3)

2 (f(x3)− 2f(x2) + f(x1))



Método DSC

O método DSC gera uma sequência de pontos de procura definidos por

x1

x2 = x1 + pδ

x3 = x2 + p2δ

x4 = x3 + p4δ

. . .

xn = xn−1 + p2n−2δ,

com p = 1 se a procura é no sentido positivo (para a direita) e p = −1 nosentido negativo (para a esquerda).



Cont.

A procura pára no ponto xk se f(xk) > f(xk−1). Nessa altura tem-se

xk−2 < xk−1 < xk (quando p = 1. Sendo análogo para p = −1.)

em que f(xk−2) ≥ f(xk−1), f(xk−1) < f(xk) e a distância entre xk exk−1 é o dobro da distância entre xk−1 e xk−2. O último valor é o pontomédio do último intervalo,

xm =xk + xk−1

2

Para a interpolação quadrática é necessário escolher três dos quarto pontosencontrados. Se f(xk−1) ≤ f(xm) os três pontos escolhidos são xk−2,xk−1 e xm. Caso contrário escolhe-se os pontos xk−1, xm e xk.



Cont.

O algoritmo começa a procura no sentido positivo e caso f(x2) > f(x1) aprocura dá-se no sentido negativo. Se por sua vez obtivermosf(x̄2 ≡ x1 − δ) > f(x1) procede-se à aproximação do mínimo da funçãousando, na interpolação quadrática, os três pontos igualmente espaçados.O algoritmo necessita de uma aproximação inicial (x1) e usa nas próximasiterações a última aproximação ao mínimo encontrada (x∗(q)). O algoritmotermina quando o valor de δ usado na interpolação quadrática for inferior aε. O valor de δ é reduzido em cada iteração por um factor M (M < 1).



Exemplo

Considere-se o problema de minimização da função f(x) = −500x + πx3,usando x1 = 7.5, δ = 0.1, M = 0.5 e ε = 0.1.1a iteração

x1 = 7.5 f1 = −2.4246e + 003x2 = x1 + δ = 7.6 f2 = −2.4209e + 003Como f2 > f1, inverte-se a procurax̄2 = x1 − δ = 7.4 f̄2 = −2.4270e + 003x̄3 = x̄2 − 2δ = 7.2 f̄3 = −2.4274e + 003x̄4 = x̄3 − 4δ = 6.8 f̄4 = −2.4122e + 003Como f̄4 > f̄3, pára-se a procura

xm = x̄4+x̄32 = 7.0 fm = −2.4224e + 003



Interpretação gráfica

6.5 7 7.5 8−2430

−2428

−2426

−2424

−2422

−2420

−2418

−2416

−2414

−2412

−2410

x

f(x)

x1

x2

x2 x3

x4

xm



Interpolação quadrática

Os pontos escolhidos para a interpolação são: x1 = 7.0, x2 = 7.2 ex3 = 7.4 com f1 = −2.4224e + 003, f2 = −2.4274e + 003 ef3 = −2.4270e + 003. O espaçamento entre pontos é δ = 0.2.Vem então que

x∗(q) = 7.2 + 0.2×−2.4224e + 003 + 2.4270e + 003

2 (−2.4270e + 003− 2× (−2.4274e + 003)− 2.4224e + 003))= 7.2852,

valor que deve inicial a próxima iteração, uma vez que δ = 0.2 ≮ ε = 0.1.Na próxima iteração temos então x1 = 7.2852 e δ = 0.1× 0.5 = 0.05.Não confundir o δ da interpolação quadrática com o δ da procura



Cont.

2a iteração

x1 = 7.2852 f1 = −2.4279e + 003x2 = x1 + δ = 7.3352 f2 = −2.4277e + 003Como f2 > f1, inverte-se a procurax̄2 = x1 − δ = 7.2352 f̄2 = −2.4277e + 003Como f̄2 > f1, pára-se a procura.

Temos três pontos igualmente espaçados e procede-se à interpolaçãoquadrática. x1 = 7.2352, x2 = 7.2852 e x3 = 7.3352 comf1 = −2.4277e + 003, f2 = −2.4279e + 003 e f3 = −2.4277e + 003. Oespaçamento entre pontos é δ = 0.05 e vem quex∗(q) = 7.2852 + 0.05−2.4277e+003+2.4277e+003

... = 7.2852. Como0.05 = δ < ε = 0.1 pára-se com x∗ = 7.2852. (A solução analítica é√

5003π = 7.283656.)




7.22 7.24 7.26 7.28 7.3 7.32 7.34 7.36−2427.9

−2427.85

−2427.8

−2427.75

−2427.7

−2427.65

x

f(x)

x1

x2

x2


Método de Nelder Mead

Contents





A formulação matemática de um problema de optimizaçãomultidimensional, sem restrições é

minx∈Rn

f(x),

com f(x) : Rn → R (n > 1).



Exemplo - Poluição atmosférica

Assumindo que a dispersão do penacho segue uma distribuição Gaussiana,a concentração C, de gás ou aerosol (partículas com menos de 20 micronsde diâmetro) na posição x, y e ao nível do solo, de uma fonte contínua deemissão é dada por (modelo muito simplificado)

C(x, y) =1

πσyσze− 1

2

“y

σy

”2 (e− 1

2

“1

σz

”2)

com σy = σz ={ √

x2 se x > 0

0 se x ≤ 0.



Exemplo - Cont.

O cálculo da poluição máxima pode ser formulado no seguinte problema

minx∈R2

{− 2

πx1e− 1

x1(y2

2+1) se x > 00 se x ≤ 0

0.5 1 1.5 2 2.5 3 3.5 4−2

−1.5

−1

−0.5

0

0.5

1

1.5

2



Algoritmo de Nelder-Mead

O algoritmo de Nelder-Mead destina-se a problemas de optimizaçãomultidimensional e é um método de procura directa (apenas usainformação da função objectivo, não usa derivadas nem as estima).

Seja n a dimensão do problema. O algoritmo usa um conjunto de n + 1pontos no início de cada iteração. Os pontos x1, x2, . . . , xn+1 sãoconsiderados os vértices de um simplex de dimensão n. Em R2, os 3(n + 1) pontos formam um triângulo.

Em cada iteração considera-se o simplex

Sk = 〈x1, x2, . . . , xn+1〉



Cont.

Em cada iteração considera-se sempre que o simplex está ordenado porordem crescente dos valores da função objectivo, i.e.,

Sk = 〈X1, X2, . . . , Xn+1〉

em que f(X1) ≤ f(X2) ≤ · · · ≤ f(Xn+1).

O algoritmo consiste em determinar um novo simplex, através dasubstituição do ponto Xn+1 por um ponto com melhor valor da funçãoobjectivo (valor menor) ou encolhendo o simplex.

A determinação do novo ponto pode ser feita através de pontos auxiliaresque podem definir vértices reflectidos, expandidos, contraídos (para ointerior ou para o exterior) ou de um simplex encolhido.



Pontos auxiliares

Vértice reflectido xr = (1 + α)x̄− αXn+1, com x̄ = 1n

∑ni=1 Xi e

α = 1.Se xr for bom (f(X1) ≤ f(xr) < f(Xn)) aceita-se xr.Se xr for muito bom (f(xr) < f(X1)) faz-se uma expansão dosimplex.

Vértice expandido xe = γxr + (1− γ)x̄ com γ = 2.Se xe for muito bom (f(xe) < f(X1)) aceita-se xe, senão aceita-se xr.

Se xr for fraco (f(Xn) ≤ f(xr) < f(Xn+1)) faz-se uma contracçãopara o exterior.

Calcula-se x̂c = βxr + (1− β)x̄ com β = 0.5.Se x̂c for bom (f(x̂c) < f(Xn)) aceita-se x̂c, senão encolhe-se osimplex.

Se xr for muito fraco (f(xr) ≥ f(Xn+1)) faz-se uma contracção parao interior.

Calcula-se xc = βXn+1 + (1− β)x̄ com β = 0.5.Se xc for bom (f(xc) < f(Xn)) aceita-se xc, senão encolhe-se osimplex.



Encolher o simplex - Critério de paragem

Encolher o simplex consiste em substituir os vértices Xi, i = 2, . . . , n + 1,pelo ponto médio do segmento que os une a X1, i.e.

xi =Xi + X1

2.

O critério de paragem consiste em verificar se o tamanho relativo dosimplex não é superior a uma quantidade pequena, i.e., o processo iterativopára se

1∆

max2≤i≤n+1

||Xi −X1||2 ≤ ε com ∆ = max(1, ||X1||2).




0 2 4 6 8 10−1

−0.5

0

0.5

1

1.5

2

2.5

3

3.5

4

X1

X2

X3

xr xe

xc

xc

x x2

x3 S = 〈(4, 0)T , (2, 3)T , (0, 1)T 〉x̄ = (3, 1.5)T

xr = (6, 2)T

xe = (9, 2.5)T

xc = (1.5, 1.25)T

x̂c = (4.5, 1.75)T



Exemplo

Considere-se o problema de minimização

minx∈R2

{− 2

πx1e− 1

x1(y2

2+1) se x > 00 se x ≤ 0.

Pretende-se determinar a solução usando o método de Nelder-Mead. Osimplex inicial é 〈(2,−1)T , (0.5,−0.5)T , (1.25, 1)T 〉 e ε = 0.1.

O primeiro passo é ordenar o simplex pelos valores da função objectivo.Temos f(x1) = −0.1171, f(x2) = −0.1045 e f(x3) = −0.1028, o quesignifica que o simplex ordenado na primeira iteração é

S1 = 〈(2,−1)T , (0.5,−0.5)T , (1.25, 1)T 〉



Cont.

1a iteração

x̄ =12((2,−1)T + (0.5,−0.5)T

)= (1.25,−0.75)T

exr = 2x̄−X3 = 2(1.25,−0.75)T − (1.25, 1)T = (1.25,−2.5)T

com f(xr) = −0.0015. Como xr é muito fraco f(xr) ≥ f(X3) faz-se umacontracção para o interior.

xc = 0.5X3 + 0.5x̄ = 0.5(1.25, 1)T + 0.5(1.25− 0.75)T = (1.25, 0)T

com f(xc) = −0.2288 e como f(xc) < f(X2) aceita-se xc.O novo simplex é

S2 = 〈(1.25, 0)T , (2,−1)T , (0.5,−0.5)T 〉



Cont.


∆ = max(1, ||X1||2) = max(1,∥∥(1.25, 0)T

∥∥2) = 1.25

11.25

max(||X2 −X1||2, ||X3 −X1||2) =

11.25

max(∥∥(0.75,−1)T

∥∥2,∥∥(−0.75,−0.5)T

∥∥2) =

11.25

max(√

1.5625,√

0.8125) =

1 � ε = 0.1

e continua-se com a próxima iteração.




0.5 1 1.5 2 2.5 3 3.5 4−3

−2

−1

0

1

2

3


Método de Segurança de Newton

Contents





A formulação matemática de um problema de optimizaçãomultidimensional, sem restrições é

minx∈Rn

f(x),

com f(x) : Rn → R (n > 1) duas vezes diferenciável.



Notação

Gradiente de f(x) : Rn → R, x = (x1, . . . , xn)T , vector de dimensão n

∇f(x) = g(x) =

∂f∂x1∂f∂x2

. . .∂f∂xn

=(

∂f

∂x1,

∂f

∂x2, . . . ,

∂f

∂xn

)T

Matriz Hessiana, matriz de dimensão n× n

∇2f(x) = G(x) =

∂2f∂x2

1. . . ∂2f

∂xn∂x1

. . . . . .∂2f

∂x1∂xn. . . ∂2f

∂x2n



Alguns conceitos

O vector gradiente ‘aponta’ no sentido de subida da função.

−10−5

05

10 −10

−5

0

5

10

−200

−100

0

100g(x)

−g(x)

f(x) =

− x21 − x2

2 − 2x1x2 + 10g(x) =

(−2x1 − 2x2,−2x2 − 2x1)T

g(1, 1) = (−4,−4)T



Alguns conceitos - Cont.

A matrix Hessiana indica a concavidade (convexa ou côncava).

−10−5

05

10 −10

−5

0

5

10−200

−150

−100

−50

0

50

f(x) =

− x21 − x2

2 − 2x1x2 + 10

G(x) =(−2 −2−2 −2

)Semi-definida negativa.



Método de Newton

A função f(x), em x∗ = x + d pode ser aproximada por

f(x∗) ≈ f(x) + g(x)T d +12dT G(x)d (1)

que resulta da expansão em série de Taylor de f(x), com x∗

suficientemente perto de x.

A aproximação quadrática (1) pode ser usada para determinar o vector dem que x é um vector fixo. Derivando em ordem a d e igualando a zeroobtemos

g(x) + G(x)d = 0 ⇔ G(x)d = −g(x) (2)



Cont.

Quando a função f(x) é quadrática obtém-se a solução resolvendo osistema linear (2). No caso em que f(x) não é quadrática, o novo pontox + d não é mínimo e o processo deve ser repetido iterativamente. Asequações iterativas do processo são

x(k+1) = x(k) + d(k)

G(x(k))d(k) = −g(x(k)), para k = 1, 2, . . .

Nota: O método de Newton possui terminação quadrática, i.e., se f(x) foruma função quadrática convexa o método de Newton necessita no máximode n iterações para encontrar a solução exacta.



Método de Newton - Falhas de convergência

O método de Newton pode falhar nas seguintes condições:A matriz G(x(k)) é singular e d(k) não é sequer definido.O vector direcção d(k) é quase ortogonal a g(x(k)) e não é possívelprogredir ao longo de d(k).O vector direcção d(k) não aponta no sentido descendente de f e nãoé possível garantir a descida do valor da função.A matriz G(x(k))−1 existe e é definida positiva, o vector direcção d(k)

é de descida, no entanto o comprimento é tal quef(x(k+1)) > f(x(k)), e o novo ponto não é melhor que o anterior.



Método de segurança de Newton

O método de segurança de Newton resolve as possíveis falhas do métodode Newton.

A matriz G(x(k)) é singular e d(k) não é sequer definido. Neste casotoma-se como direcção de procura a direcção de descida máxima(d(k) = −g(x(k))).

Como a direcção de descida máxima resolve os restantes problemas(excepto o problema do comprimento da direcção) não e necessárioverificar a quase-ortogonalidade e a descida da função objectivo.



Cont.

O vector direcção d(k) é quase ortogonal a g(x(k)) e não é possívelprogredir ao longo de d(k).

−6 −4 −2 0 2 4 6

−6

−4

−2

0

2

4

6

−g(1,1)

g(1,1)

Quase ortogonal se

|g(x(k))T d(k)| ≤ η‖g(x(k))‖‖d(k)‖Se for quase ortogonal então

d(k) = −g(x(k))



Cont.

O vector direcção d(k) não aponta no sentido descendente de f e não épossível garantir a descida do valor da função.

d(k) é direcção de descida se

g(x(k))T d(k) ≤ η‖g(x(k))‖‖d(k)‖.

Caso d(k) não seja direcção de descida faz-se

d(k) = −d(k).



Cont.

A matriz G(x(k))−1 existe e é definida positiva, o vector direcção d(k) é dedescida, no entanto o comprimento é tal que f(x(k+1)) > f(x(k)), e o novoponto não é melhor que o anterior.

O método de Newton tem convergência local, i.e., x(k) tem de sersuficientemente próximo de x∗ para que o método funcione.

A convergência global obtém-se através da introdução da procuraunidimensional (regiões de confiança!!).

x(k+1) = x(k) + αd(k)

em que o α deve ser calculado para garantir que

f(x(k+1)) < f(x(k)) Decréscimo simples



Procura unidimensional exacta

Na procura unidimensional exacta pretende-se determinar (exactamente)qual o valor de α que minimiza a função

φ(α) = f(x(k+1)) com x(k+1) = x(k) + αd(k),

usando as condições de optimalidade

φ′(α) = 0 e φ′′(α) > 0.

No entanto a solução para o problema minα∈R φ(α) não é de fácilresolução (difícil implementação e cálculos computacionais pesados).



Procura unidimensional

Critério de Armijo e divisões sucessivas de α por dois.

Pressupondo que a direcção de procura é de descida, gera-se umasequência de valores,

{ωjα}, j = 0, 1, 2, . . . com α = 1 e ω =12

até se encontrar um elemento que origine uma redução (significativa) novalor de f

f(x(k))− f(x(k) + ωjαd(k)) ≥ −µ1ωjαg(x(k))T d(k).

O primeiro elemento encontrado é usado como o comprimento do passo naiteração k (α(k) = ωjα).




Considera-se as três condições para o critério de paragem

‖x(k+1) − x(k)‖‖x(k+1)‖

≤ ε1

|f (k+1) − f (k)||f (k+1)|

≤ ε2

‖g(k+1)‖ ≤ ε3



Exemplo

Considere-se o seguinte problema de optimização

minx∈R2

x41 + x2

2 − 3x1

partindo de x(1) = (0, 1)T e com ε = 0.5.Temos que

g(x) = (4x31 − 3, 2x2)T

e

G(x) =(

12x21 0

0 2

)



1a iteração

g(1) = g(x(1)) = (−3, 2)T G(1) = G(x(1)) =(

0 00 2

)(

0 0 30 2 −2

)→ Impossível

Como a matriz G(x(1)) é singular temos que d(1) = −g(1) = (3,−2)T .

Não é necessário verificar a quase ortogonalidade e passa-se para a procuraunidimensional.




x(1) = (0, 1)T f (1) = 1 g(1)T d(1) = −13

α = 1 x̄ = x(1) + d(1) = (0, 1)T + 1(3,−2)T = (3,−1)T f(x̄) = 73

1− 73 = f(x(1))− f(x̄) � 10−3 × 1× 13

α = 0.5 x̄ = (0, 1)T + 0.5(3,−2)T = (1.5, 0)T f(x̄) = 0.5625

1− 0.5625 = f(x(1))− f(x̄) ≥ 10−3 × 0.5× 13

Aceita-se α(1) = 0.5 e tem-se x(2) = (1.5, 0)T .




‖x(2) − x(1)‖‖x(2)‖

=√

1.52 + 12

1.5= 1.201 � 0.5

Logo passa-se à próxima iteração. As restantes condições seriam (nestecaso não é necessário verificar)

|f (2) − f (1)||f (2)|

=1− 0.5625

0.5625= 0.7778 � 0.5

e‖g(2)‖ = ‖(10.5, 0)T ‖ = 10.5 � 0.5



2a iteração x(2) = (1.5, 0)T

g(2) = (10.5, 0)T G(2) =(

27 00 2

)(

27 0 −10.50 2 0

)→ d(2) = (−0.3889, 0)T

d(2) é quase ortogonal com o gradiente?

‖d(2)‖ = 0.3889 ‖g(2)‖ = 10.5

(g(2))T d(2) = (10.5, 0)(−0.3889, 0)T = −4.0835

4.0835 = |(g(2))T d(2)| � 10−4 × 0.3889× 10.5 = 4.0835× 10−4,

logo d(2) não é quase ortogonal com o gradiente (se fosse d(2) = −g(2)).



2a iteração - Cont.

d(2) é direcção de descida?

‖d(2)‖ = 0.3889 ‖g(2)‖ = 10.5

(g(2))T d(2) = (10.5, 0)(−0.3889, 0)T = −4.0835

− 4.0835 = (g(2))T d(2) ≤ 10−4 × 0.3889× 10.5 = 4.0835× 10−4,

logo d(2) é direcção de descida (se não fosse d(2) = −d(2)).Inicia-se a procura unidimensional.


Método quasi-Newton

Contents




Método Quasi-Newton

O método Quasi-Newton usa uma matriz aproximação à matrizHessiana (ou à sua inversa) da função objectivo.O uso de uma matriz aproximação evita o cálculo da matriz Hessiana(segundas derivadas) que pode ser difícil de obter.A aproximação à inversa da Hessiana, em vez da própria Hessiana,substituí a resolução de um sistema linear em cada iteração, por umproduto matriz vector. (G(x)d = −g(d)→ d = −G(x)−1g(x)).



Cont.

A matriz aproximação é actualizada em cada iteração usando a informaçãodas derivadas (gradiente) da iteração anterior.

A fórmula mais conhecida é devida a Broyden, Fletcher, Goldfarb e Shanno(B.F.G.S.)

H(k+1) =

(I − s(k)y(k)T

s(k)T y(k)

)H(k)

(I − y(k)s(k)T

y(k)T s(k)

)+

s(k)s(k)T

s(k)T y(k)

em que s(k) = α(k)d(k) = x(k+1) − x(k) e y(k) = g(k+1) − g(k).

Quando s(k)T y(k) > 0 e H(k) é simétrica e definida positiva, a formula deactualização garante que a matriz H(k+1) é simétrica e definida positiva.

A fórmula B.F.G.S. satisfaz a propriedade de terminação quadrática.



Cont.

Na primeira iteração temos que H(1) = I (simétrica e definida positiva).Quando se usa a técnica de recomeço a matriz H(k) = I sempre que(k − 1) mod n = 0.

Como H(k) é simétrica e definida positiva não é necessário verificar a quaseortogonalidade e se a direcção calculada é de descida para a funçãoobjectivo.

Os problemas numéricos com a matriz H(k), tais como‘overflow’ na actualização de H(k),um deslocamento ao longo da direcção de procura muito longo devidoà quase ortogonalidade da direcção com o gradiente,

podem ser ultrapassados usando a técnica do recomeço.



Exemplo

Considere-se o seguinte problema de optimização (x(1) = (0, 1)T e ε = 0.5)

minx∈R2

x41 + x2

2 − 3x1

Temos que g(x) = (4x31 − 3, 2x2)T .

1a iteração

g(1) = g(x(1)) = (−3, 2)T H(1) = I d(1) = −Hg(1) = (3,−2)T .


. . . (ver exemplo do segurança de Newton)

Aceita-se α(1) = 0.5 e vem que x(2) = (1.5, 0)T .




‖x(2) − x(1)‖‖x(2)‖

=√

1.52 + 12

1.5= 1.201 � 0.5

Logo passa-se à próxima iteração.2a iteração x(2) = (1.5, 0)T e g(2) = (10.5, 0)T

H(2) =

(I − s(1)y(1)T

s(1)T y(1)

)H(1)

(I − y(1)s(1)T

y(1)T s(1)

)+

s(1)s(1)T

s(1)T y(1)

s(1) = x(2) − x(1) = (1.5, 0)T − (0, 1)T = (1.5,−1)T

y(1) = g(2) − g(1) = (10.5, 0)T − (−3, 2)T = (13.5,−2)T



Cont.

s(1)y(1)T =(

1.5−1

)(13.5,−2) =

(20.25 −3−13.5 2

)s(1)T y(1) = (1.5,−1)(13.5,−2)T = 22.25

I − s(1)y(1)T

s(1)T y(1)=(

1 00 1

)−(

0.9101 −0.1348−0.6067 0.0899

)=(

0.0899 0.13480.6067 0.9101

)

s(1)s(1)T =(

1.5−1

)(1.5,−1) =

(2.25 −1.5−1.5 2

)H(2) =

(0.0899 0.13480.6067 0.9101

)H(1)

(0.0899 0.60670.1348 0.9101

)+(

0.1011 −0.0674−0.0674 0.0899

)

H(2) =(

0.1274 0.10980.1098 0.8202

)



Cont.

d(2) = −H(2)g(2) = −(

0.1274 0.10980.1098 0.8202

)(10.5

0

)d(2) =

(−1.3377−1.1529

)Procura unidimensional. . .


métodos numéricos c - · pdf filemétodos numéricos c a. ismael f....

Documents