minimização de arrependimento - instituto de computação€¦ · minimiza˘c~ao de...
TRANSCRIPT
![Page 1: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/1.jpg)
Minimizacao de Arrependimento
Vinıcius Pimentel CoutoProf. Rafael Schouery
IC/UNICAMP
Dezembro 2014
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 1 / 22
![Page 2: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/2.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 3: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/3.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 4: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/4.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 5: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/5.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno t
I pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 6: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/6.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 7: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/7.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])
I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 8: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/8.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 9: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/9.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 10: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/10.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 11: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/11.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 12: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/12.jpg)
Problema e modelo
Problema: decisoes repetidas com resultados incertos.
Modelo:
X = {1, ..., N} = Conjunto das N acoes disponıveis
pti = probabilidade da acao i no turno tI pt = distribuicao de probabilidade nas N acoes no turno t
`ti = prejuızo da acao i no turno t (∈ [0, 1])I `t = vetor de prejuızo das N acoes
`tH =∑N
i=1 pti`
ti = Prejuızo do algoritmo H no passo t
LTi =
∑Tt=1 `
ti = Prejuızo da acao i nos primeiros T turnos
LTH =
∑Tt=1 `
tH =
∑Tt=1
∑Ni=1 p
ti`
ti = Prejuızo do algoritmo H nos
primeiros T turnos
R = LTH − LT
G = Arrependimento (Regret)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 2 / 22
![Page 13: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/13.jpg)
Problema e modelo
Theorem
Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:
R ≥ T (1− 1/N)
PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.
Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:
R = LTH − LT
min, onde LTmin = miniL
Ti
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22
![Page 14: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/14.jpg)
Problema e modelo
Theorem
Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:
R ≥ T (1− 1/N)
PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.
Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:
R = LTH − LT
min, onde LTmin = miniL
Ti
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22
![Page 15: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/15.jpg)
Problema e modelo
Theorem
Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:
R ≥ T (1− 1/N)
PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.
Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:
R = LTH − LT
min, onde LTmin = miniL
Ti
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22
![Page 16: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/16.jpg)
Problema e modelo
Theorem
Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:
R ≥ T (1− 1/N)
PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.
Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:
R = LTH − LT
min, onde LTmin = miniL
Ti
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22
![Page 17: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/17.jpg)
Problema e modelo
Theorem
Para qualquer algoritmo H existe uma sequencia de T vetores de prejuızotais que:
R ≥ T (1− 1/N)
PROVA: a cada turno t a acao de menor probabilidade it recebe prejuızo 0enquanto as outras recebem prejuızo 1. Como mini{pti} ≤ 1/N o prejuızoa cada turno e pelo menos 1−1/N e o prejuızo em T turnos e T (1−1/N).Por outro lado, existe o algoritmo g(t) = it com um prejuızo total de 0.
Solucao: comparar somente com algoritmos que jogam sempre uma unicaacao. Em particular, comparar H com o melhor desses algoritmos. Assim,temos o conceito do external regret:
R = LTH − LT
min, onde LTmin = miniL
Ti
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 3 / 22
![Page 18: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/18.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 19: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/19.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 20: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/20.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 21: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/21.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 22: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/22.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 23: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/23.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:
I Lt−1min = mini∈XL
t−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 24: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/24.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 25: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/25.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}
I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 26: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/26.jpg)
Algoritmo Guloso (Greedy)
Ideia do algoritmo: a cada turno escolher uma acao com o menorprejuızo acumulado ate o momento.
Por simplicidade, assumimos que `ti = {0, 1}
Algoritmo:
Inicializacao: x1 = 1
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I xt = min{St−1}
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 4 / 22
![Page 27: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/27.jpg)
Algoritmo Guloso (Greedy)
Theorem
Para qualquer sequencia de prejuızos o algoritmo guloso tem:
LTGreedy ≤ N · LT
min + (N − 1)
PROVA: a cada turno t em que ha prejuızo na acao escolhida pelo algoritmo,mas Lt
min nao aumenta, entao ao menos uma acao e removida de St. Issoocorre no maximo N vezes antes que Lt
min aumente em 1. Portanto, oalgoritmo causa um prejuızo de no maximo N entre cada vez que Lt
min
aumenta.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 5 / 22
![Page 28: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/28.jpg)
Algoritmo Guloso (Greedy)
Theorem
Para qualquer sequencia de prejuızos o algoritmo guloso tem:
LTGreedy ≤ N · LT
min + (N − 1)
PROVA: a cada turno t em que ha prejuızo na acao escolhida pelo algoritmo,mas Lt
min nao aumenta, entao ao menos uma acao e removida de St. Issoocorre no maximo N vezes antes que Lt
min aumente em 1. Portanto, oalgoritmo causa um prejuızo de no maximo N entre cada vez que Lt
min
aumenta.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 5 / 22
![Page 29: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/29.jpg)
Algoritmo Guloso (Greedy)
Theorem
Para qualquer sequencia de prejuızos o algoritmo guloso tem:
LTGreedy ≤ N · LT
min + (N − 1)
PROVA: a cada turno t em que ha prejuızo na acao escolhida pelo algoritmo,mas Lt
min nao aumenta, entao ao menos uma acao e removida de St. Issoocorre no maximo N vezes antes que Lt
min aumente em 1. Portanto, oalgoritmo causa um prejuızo de no maximo N entre cada vez que Lt
min
aumenta.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 5 / 22
![Page 30: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/30.jpg)
Prejuızo de algoritmos determinısticos
Theorem
Para qualquer algoritmo determinıstico D existe uma sequencia de prejuızopara a qual LT
D = T e LTmin = bT/Nc.
(O que implica que LTD ≥ N · LT
min + (TmodN), o que e proximo dolimite do Greedy).
PROVA: D escolhe a acao xt no turno t. Construımos os vetores de prejuızoda seguinte maneira: no turno t o prejuızo de xt e 1 e das outras acoes e0. Portanto, D tem um prejuızo de 1 a cada turno e, assim, LT
D = T .Como existem N acoes diferentes, existe alguma acao que o algoritmo
D escolheu no maximo bT/Nc vezes e, por construcao, somente essas acoesgeraram prejuızo. Portanto, LT
min ≤ bT/Nc.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 6 / 22
![Page 31: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/31.jpg)
Prejuızo de algoritmos determinısticos
Theorem
Para qualquer algoritmo determinıstico D existe uma sequencia de prejuızopara a qual LT
D = T e LTmin = bT/Nc.
(O que implica que LTD ≥ N · LT
min + (TmodN), o que e proximo dolimite do Greedy).
PROVA: D escolhe a acao xt no turno t. Construımos os vetores de prejuızoda seguinte maneira: no turno t o prejuızo de xt e 1 e das outras acoes e0. Portanto, D tem um prejuızo de 1 a cada turno e, assim, LT
D = T .Como existem N acoes diferentes, existe alguma acao que o algoritmo
D escolheu no maximo bT/Nc vezes e, por construcao, somente essas acoesgeraram prejuızo. Portanto, LT
min ≤ bT/Nc.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 6 / 22
![Page 32: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/32.jpg)
Prejuızo de algoritmos determinısticos
Theorem
Para qualquer algoritmo determinıstico D existe uma sequencia de prejuızopara a qual LT
D = T e LTmin = bT/Nc.
(O que implica que LTD ≥ N · LT
min + (TmodN), o que e proximo dolimite do Greedy).
PROVA: D escolhe a acao xt no turno t. Construımos os vetores de prejuızoda seguinte maneira: no turno t o prejuızo de xt e 1 e das outras acoes e0. Portanto, D tem um prejuızo de 1 a cada turno e, assim, LT
D = T .Como existem N acoes diferentes, existe alguma acao que o algoritmo
D escolheu no maximo bT/Nc vezes e, por construcao, somente essas acoesgeraram prejuızo. Portanto, LT
min ≤ bT/Nc.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 6 / 22
![Page 33: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/33.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I pti =
1|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 34: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/34.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I pti =
1|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 35: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/35.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I pti =
1|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 36: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/36.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I pti =
1|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 37: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/37.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:
I Lt−1min = mini∈XL
t−1i
I St−1 = {i : Lt−1i = Lt−1
min}I pti =
1|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 38: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/38.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I pti =
1|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 39: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/39.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}
I pti =1
|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 40: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/40.jpg)
Algoritmo guloso randomizado
Ideia: semelhante ao algoritmo guloso, mas, em caso de empate,distribui a probabilidade entre as acoes empatadas ao inves deescolher uma unica acao.
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: p1i = 1/N para todo i ∈ X.
A cada passo t:I Lt−1
min = mini∈XLt−1i
I St−1 = {i : Lt−1i = Lt−1
min}I pti =
1|St−1| , se i ∈ St−1;
ou 0, caso contrario.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 7 / 22
![Page 41: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/41.jpg)
Algoritmo guloso randomizado
Theorem
O algoritmo guloso randomizado (RG), para quaisquer sequencias deprejuızo, tem:
LTRG ≤ (1 + lnN)LT
min + (lnN)
PROVA: seja tj o turno em que Ltmin atinje um prejuızo j. A qualquer
turno t temos que 1 ≤ |St| ≤ N . Alem disso, se no turno t ∈ (tj , tj+1]o tamanho de St diminui em k de n′ para n′ − k, entao o prejuızo de RGe k/n′, ja que cada acao tem peso 1/n′. Por resultados conhecidos, k/n′
pode ser limitado por 1n′ +
1n′−1 + ... + 1
(n′−k+1) . Portanto, ao longo do
intervalo (tj , tj+1], o prejuızo do RG e no maximo:
1
N+
1
N − 1+ ...+
1
1≤ 1 + lnN.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 8 / 22
![Page 42: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/42.jpg)
Algoritmo guloso randomizado
Theorem
O algoritmo guloso randomizado (RG), para quaisquer sequencias deprejuızo, tem:
LTRG ≤ (1 + lnN)LT
min + (lnN)
PROVA: seja tj o turno em que Ltmin atinje um prejuızo j. A qualquer
turno t temos que 1 ≤ |St| ≤ N . Alem disso, se no turno t ∈ (tj , tj+1]o tamanho de St diminui em k de n′ para n′ − k, entao o prejuızo de RGe k/n′, ja que cada acao tem peso 1/n′. Por resultados conhecidos, k/n′
pode ser limitado por 1n′ +
1n′−1 + ... + 1
(n′−k+1) . Portanto, ao longo do
intervalo (tj , tj+1], o prejuızo do RG e no maximo:
1
N+
1
N − 1+ ...+
1
1≤ 1 + lnN.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 8 / 22
![Page 43: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/43.jpg)
Algoritmo guloso randomizado
Theorem
O algoritmo guloso randomizado (RG), para quaisquer sequencias deprejuızo, tem:
LTRG ≤ (1 + lnN)LT
min + (lnN)
PROVA: seja tj o turno em que Ltmin atinje um prejuızo j. A qualquer
turno t temos que 1 ≤ |St| ≤ N . Alem disso, se no turno t ∈ (tj , tj+1]o tamanho de St diminui em k de n′ para n′ − k, entao o prejuızo de RGe k/n′, ja que cada acao tem peso 1/n′. Por resultados conhecidos, k/n′
pode ser limitado por 1n′ +
1n′−1 + ... + 1
(n′−k+1) . Portanto, ao longo do
intervalo (tj , tj+1], o prejuızo do RG e no maximo:
1
N+
1
N − 1+ ...+
1
1≤ 1 + lnN.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 8 / 22
![Page 44: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/44.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I Se `t−1i = 1, wt
i = wt−1i (1− η); senao, wt
i = wt−1i .
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 45: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/45.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I Se `t−1i = 1, wt
i = wt−1i (1− η); senao, wt
i = wt−1i .
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 46: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/46.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I Se `t−1i = 1, wt
i = wt−1i (1− η); senao, wt
i = wt−1i .
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 47: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/47.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I Se `t−1i = 1, wt
i = wt−1i (1− η); senao, wt
i = wt−1i .
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 48: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/48.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I Se `t−1i = 1, wt
i = wt−1i (1− η); senao, wt
i = wt−1i .
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 49: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/49.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:
I Se `t−1i = 1, wti = wt−1
i (1− η); senao, wti = wt−1
i .I pti = wt
i/Wt, onde W t =
∑i∈X wt
i .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 50: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/50.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I Se `t−1i = 1, wt
i = wt−1i (1− η); senao, wt
i = wt−1i .
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 51: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/51.jpg)
Randomized weighted majority
Ideia: uma das fraquezas do RG e quando |St| e pequeno. O RWMda um peso a acoes que sao proximas do otimo, ao inves de ignora-lascompletamente.Assim, cada acao i com um prejuızo total Li tem umpeso wi = (1− η)Li .
Ainda assumimos que `ti = {0, 1}.
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I Se `t−1i = 1, wt
i = wt−1i (1− η); senao, wt
i = wt−1i .
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 9 / 22
![Page 52: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/52.jpg)
Randomized weighted majority
Theorem
Para η ≤ 1/2 o prejuızo do Randomized Weighted Majority(RWM), paraquaisquer sequencias de prejuızos, satisfaz:
LTRWM ≤ (1 + η)LT
min +lnN
η
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 10 / 22
![Page 53: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/53.jpg)
Randomized weighted majority
Theorem
Para η ≤ 1/2 o prejuızo do Randomized Weighted Majority(RWM), paraquaisquer sequencias de prejuızos, satisfaz:
LTRWM ≤ (1 + η)LT
min +lnN
η
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 10 / 22
![Page 54: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/54.jpg)
Polynomial weights algorithm
Ideia: generalizacao do RWM para prejuızos em [0, 1].
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I wt
i = wt−1i (1− η`t−1i ).
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22
![Page 55: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/55.jpg)
Polynomial weights algorithm
Ideia: generalizacao do RWM para prejuızos em [0, 1].
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I wt
i = wt−1i (1− η`t−1i ).
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22
![Page 56: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/56.jpg)
Polynomial weights algorithm
Ideia: generalizacao do RWM para prejuızos em [0, 1].
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I wt
i = wt−1i (1− η`t−1i ).
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22
![Page 57: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/57.jpg)
Polynomial weights algorithm
Ideia: generalizacao do RWM para prejuızos em [0, 1].
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:
I wti = wt−1
i (1− η`t−1i ).I pti = wt
i/Wt, onde W t =
∑i∈X wt
i .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22
![Page 58: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/58.jpg)
Polynomial weights algorithm
Ideia: generalizacao do RWM para prejuızos em [0, 1].
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I wt
i = wt−1i (1− η`t−1i ).
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22
![Page 59: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/59.jpg)
Polynomial weights algorithm
Ideia: generalizacao do RWM para prejuızos em [0, 1].
Algoritmo:
Inicializacao: w1i = 1 e p1i = 1/N , para todo i ∈ X
A cada passo t:I wt
i = wt−1i (1− η`t−1i ).
I pti = wti/W
t, onde W t =∑
i∈X wti .
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 11 / 22
![Page 60: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/60.jpg)
Polynomial weights algorithm
Theorem
Para η ≤ 1/2, qualquer `ti ∈ [0, 1] e qualquer k o prejuızo do PolynomialWeights Algorithm satisfaz:
LTPW ≤ LT
k + ηQTk +
lnN
η
onde QTk =
∑Tt=1(`
tk)
2.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 12 / 22
![Page 61: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/61.jpg)
Constant sum game
Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .
M = Conjunto de m jogadores
Xi = Conjunto de N acoes do jogador i
si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]
P ti = distribuicao de probabilidade do jogador i no turno i
P t−i = distribuicao de probabilidade dos outros jogadores
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22
![Page 62: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/62.jpg)
Constant sum game
Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .
M = Conjunto de m jogadores
Xi = Conjunto de N acoes do jogador i
si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]
P ti = distribuicao de probabilidade do jogador i no turno i
P t−i = distribuicao de probabilidade dos outros jogadores
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22
![Page 63: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/63.jpg)
Constant sum game
Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .
M = Conjunto de m jogadores
Xi = Conjunto de N acoes do jogador i
si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]
P ti = distribuicao de probabilidade do jogador i no turno i
P t−i = distribuicao de probabilidade dos outros jogadores
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22
![Page 64: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/64.jpg)
Constant sum game
Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .
M = Conjunto de m jogadores
Xi = Conjunto de N acoes do jogador i
si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]
P ti = distribuicao de probabilidade do jogador i no turno i
P t−i = distribuicao de probabilidade dos outros jogadores
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22
![Page 65: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/65.jpg)
Constant sum game
Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .
M = Conjunto de m jogadores
Xi = Conjunto de N acoes do jogador i
si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]
P ti = distribuicao de probabilidade do jogador i no turno i
P t−i = distribuicao de probabilidade dos outros jogadores
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22
![Page 66: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/66.jpg)
Constant sum game
Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .
M = Conjunto de m jogadores
Xi = Conjunto de N acoes do jogador i
si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]
P ti = distribuicao de probabilidade do jogador i no turno i
P t−i = distribuicao de probabilidade dos outros jogadores
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22
![Page 67: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/67.jpg)
Constant sum game
Um jogador i joga um jogo G = 〈M, (Xi), (si)〉 por T turnos usando oalgoritmo ON .
M = Conjunto de m jogadores
Xi = Conjunto de N acoes do jogador i
si = Funcao de prejuızo do jogador i; si : Xi × (×j 6=iXj)→ [0, 1]
P ti = distribuicao de probabilidade do jogador i no turno i
P t−i = distribuicao de probabilidade dos outros jogadores
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 13 / 22
![Page 68: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/68.jpg)
Constant sum game de dois jogadores
G = 〈{1, 2}, (Xi), (si)〉s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.
Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22
![Page 69: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/69.jpg)
Constant sum game de dois jogadores
G = 〈{1, 2}, (Xi), (si)〉
s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.
Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22
![Page 70: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/70.jpg)
Constant sum game de dois jogadores
G = 〈{1, 2}, (Xi), (si)〉s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.
Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22
![Page 71: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/71.jpg)
Constant sum game de dois jogadores
G = 〈{1, 2}, (Xi), (si)〉s1(x1, x2) + s2(x1, x2) = c, para alguma constante c e quaisqueracoes x1 e x2.
Qualquer jogo de soma constante tem um valor vi, tal que o jogador item uma estrategia mista que garante um prejuızo esperado de nomaximo vi, independente da estrategia do outro jogador.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 14 / 22
![Page 72: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/72.jpg)
Constant sum game de dois jogadores
Theorem
Seja G um jogo de soma constante de valor (v1, v2). Se o jogadori ∈ {1, 2} jogar por T turnos usando um algoritmo ON de external regretR, entao seu prejuızo medio sera no maximo vi +R/T .
PROVA: Pela teoria de jogos de soma constante, para qualquer estrategiamista q do jogador 2, o jogador 1 tem alguma acao xk que garante umprejuızo esperado de no maximo v1. Ou seja, se o jogador 1 sempre jogar aacao xk, seu prejuızo seria no maximo v1T e, portanto, LT
min ≤ LTk ≤ v1T .
Como o jogador 1 esta usando um algoritmo ON de external regret R,temos que LT
ON ≤ LTmin +R ≤ v1T +R.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 15 / 22
![Page 73: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/73.jpg)
Constant sum game de dois jogadores
Theorem
Seja G um jogo de soma constante de valor (v1, v2). Se o jogadori ∈ {1, 2} jogar por T turnos usando um algoritmo ON de external regretR, entao seu prejuızo medio sera no maximo vi +R/T .
PROVA: Pela teoria de jogos de soma constante, para qualquer estrategiamista q do jogador 2, o jogador 1 tem alguma acao xk que garante umprejuızo esperado de no maximo v1. Ou seja, se o jogador 1 sempre jogar aacao xk, seu prejuızo seria no maximo v1T e, portanto, LT
min ≤ LTk ≤ v1T .
Como o jogador 1 esta usando um algoritmo ON de external regret R,temos que LT
ON ≤ LTmin +R ≤ v1T +R.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 15 / 22
![Page 74: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/74.jpg)
Constant sum game de dois jogadores
Theorem
Seja G um jogo de soma constante de valor (v1, v2). Se o jogadori ∈ {1, 2} jogar por T turnos usando um algoritmo ON de external regretR, entao seu prejuızo medio sera no maximo vi +R/T .
PROVA: Pela teoria de jogos de soma constante, para qualquer estrategiamista q do jogador 2, o jogador 1 tem alguma acao xk que garante umprejuızo esperado de no maximo v1. Ou seja, se o jogador 1 sempre jogar aacao xk, seu prejuızo seria no maximo v1T e, portanto, LT
min ≤ LTk ≤ v1T .
Como o jogador 1 esta usando um algoritmo ON de external regret R,temos que LT
ON ≤ LTmin +R ≤ v1T +R.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 15 / 22
![Page 75: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/75.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 76: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/76.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 77: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/77.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 78: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/78.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 79: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/79.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 80: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/80.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 81: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/81.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 82: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/82.jpg)
Swap regret
Consiste em comparar o seu algoritmo com um algoritmo parecido, quemodifica algumas das suas acoes por outras segundo uma modification rule.
F = Funcao que recebe o historico de acoes e a acao atual e devolveuma nova acao.
f ti =∑
j:F t(j)=i ptj = Nova probabilidade de escolher a acao i.
I f t = F t(pt) = Nova distribuicao de probabilidade
Por exemplo, podemos ter a seguinte regra de modificacao (que troca x1por b2) e calculo de arrependimento:
switchi(x1, b1, b2) = b2, se x1 = b1;ou x1, caso contrario.
regreti(x, f) = si − si(f(xi), x−i)
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 16 / 22
![Page 83: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/83.jpg)
Correlated Equilibrium
Definition
Uma probabilidade conjunta P em X e um equilıbrio correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:
Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ 0
Definition
Uma probabilidade conjunta P em X e um equilıbrio ε-correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:
Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ ε
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 17 / 22
![Page 84: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/84.jpg)
Correlated Equilibrium
Definition
Uma probabilidade conjunta P em X e um equilıbrio correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:
Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ 0
Definition
Uma probabilidade conjunta P em X e um equilıbrio ε-correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:
Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ ε
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 17 / 22
![Page 85: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/85.jpg)
Correlated Equilibrium
Definition
Uma probabilidade conjunta P em X e um equilıbrio correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:
Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ 0
Definition
Uma probabilidade conjunta P em X e um equilıbrio ε-correlato se, paratodo jogador i e quaisquer acoes b1, b2 ∈ X, temos que:
Ex∼P [regreti(x, switchi(·, b1, b2))] ≤ ε
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 17 / 22
![Page 86: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/86.jpg)
Swap Regret e Correlated Equilibrium
Theorem
Dado o jogo G = 〈{1, 2}, (Xi), (si)〉 e assumindo que, por T turnos todojogador segue uma estrategia de swap regret no maximo R. Entao adistribuicao empırica Q das acoes conjuntas jogadas e um(R/T )-equilıbrio.
Ou seja, se todos os jogadores jogarem uma estrategia com arrependimentoR, o jogo convergira para um equilıbrio correlato.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 18 / 22
![Page 87: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/87.jpg)
Swap Regret e Correlated Equilibrium
Theorem
Dado o jogo G = 〈{1, 2}, (Xi), (si)〉 e assumindo que, por T turnos todojogador segue uma estrategia de swap regret no maximo R. Entao adistribuicao empırica Q das acoes conjuntas jogadas e um(R/T )-equilıbrio.
Ou seja, se todos os jogadores jogarem uma estrategia com arrependimentoR, o jogo convergira para um equilıbrio correlato.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 18 / 22
![Page 88: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/88.jpg)
Swap Regret e Correlated Equilibrium
Theorem
Dado o jogo G = 〈{1, 2}, (Xi), (si)〉 e assumindo que, por T turnos todojogador segue uma estrategia de swap regret no maximo R. Entao adistribuicao empırica Q das acoes conjuntas jogadas e um(R/T )-equilıbrio.
Ou seja, se todos os jogadores jogarem uma estrategia com arrependimentoR, o jogo convergira para um equilıbrio correlato.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 18 / 22
![Page 89: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/89.jpg)
Reducao de External para Swap Regret
E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.
Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:
I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;
I Calculamos pt de modo que ptj =∑
i ptiq
ti,j .
I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai
um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q
ti · `t).
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22
![Page 90: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/90.jpg)
Reducao de External para Swap Regret
E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.
Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:
I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;
I Calculamos pt de modo que ptj =∑
i ptiq
ti,j .
I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai
um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q
ti · `t).
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22
![Page 91: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/91.jpg)
Reducao de External para Swap Regret
E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.
Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.
A cada turno t:I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;
I Calculamos pt de modo que ptj =∑
i ptiq
ti,j .
I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai
um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q
ti · `t).
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22
![Page 92: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/92.jpg)
Reducao de External para Swap Regret
E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.
Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:
I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;
I Calculamos pt de modo que ptj =∑
i ptiq
ti,j .
I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai
um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q
ti · `t).
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22
![Page 93: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/93.jpg)
Reducao de External para Swap Regret
E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.
Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:
I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;
I Calculamos pt de modo que ptj =∑
i ptiq
ti,j .
I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai
um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q
ti · `t).
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22
![Page 94: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/94.jpg)
Reducao de External para Swap Regret
E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.
Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:
I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;
I Calculamos pt de modo que ptj =∑
i ptiq
ti,j .
I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai
um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q
ti · `t).
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22
![Page 95: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/95.jpg)
Reducao de External para Swap Regret
E possıvel, a partir de qualquer A algoritmo com um bom external regret,obter um algoritmo H com um bom swap regret.
Considere N copias do algoritmo A de external regret R,{A1, ..., AN}.A cada turno t:
I Cada Ai devolve uma distribuicao qti , onde qti,j e a porcentagem queAi atribuir a acao j;
I Calculamos pt de modo que ptj =∑
i ptiq
ti,j .
I Quando recebermos o vetor de prejuızos `t, repassamos para cada Ai
um ”prejuızo ponderado” pi`t. Portanto, Ai tem um prejuızo pti(q
ti · `t).
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 19 / 22
![Page 96: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/96.jpg)
Reducao de External para Swap Regret
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 20 / 22
![Page 97: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/97.jpg)
Reducao de External para Swap Regret
Como Ai e um algoritmo de arrependimento R, temos que:
T∑t=1
pti(qti · `t) ≤
T∑t=1
pti`ti +R
Somando os N algoritmos e considerando uma regra de modificacaoF : {1, ..., N} → {1, ..., N}, temos que:
LTH ≤
N∑i=1
T∑t=1
pti`tF (i) +NR = LT
H,F +NR
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 21 / 22
![Page 98: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/98.jpg)
Reducao de External para Swap Regret
Como Ai e um algoritmo de arrependimento R, temos que:
T∑t=1
pti(qti · `t) ≤
T∑t=1
pti`ti +R
Somando os N algoritmos e considerando uma regra de modificacaoF : {1, ..., N} → {1, ..., N}, temos que:
LTH ≤
N∑i=1
T∑t=1
pti`tF (i) +NR = LT
H,F +NR
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 21 / 22
![Page 99: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/99.jpg)
Reducao de External para Swap Regret
Como Ai e um algoritmo de arrependimento R, temos que:
T∑t=1
pti(qti · `t) ≤
T∑t=1
pti`ti +R
Somando os N algoritmos e considerando uma regra de modificacaoF : {1, ..., N} → {1, ..., N}, temos que:
LTH ≤
N∑i=1
T∑t=1
pti`tF (i) +NR = LT
H,F +NR
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 21 / 22
![Page 100: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/100.jpg)
Reducao de External para Swap Regret
Assim, temos os seguintes teorema:
Theorem
Dado um algoritmo com external regret R e qualquer funcaoF : {1, ..., N} → {1, ..., N}, H tem prejuızo:
LH ≤ LH,F +NR
Ou seja, o swap regret de H e no maximo NR.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 22 / 22
![Page 101: Minimização de Arrependimento - Instituto de Computação€¦ · Minimiza˘c~ao de Arrependimento Vin cius Pimentel Couto Prof. Rafael Schouery IC/UNICAMP Dezembro 2014 (IC/UNICAMP)](https://reader034.vdocuments.mx/reader034/viewer/2022043008/5f96f7219bb7f7362d10610e/html5/thumbnails/101.jpg)
Reducao de External para Swap Regret
Assim, temos os seguintes teorema:
Theorem
Dado um algoritmo com external regret R e qualquer funcaoF : {1, ..., N} → {1, ..., N}, H tem prejuızo:
LH ≤ LH,F +NR
Ou seja, o swap regret de H e no maximo NR.
(IC/UNICAMP) Minimizacao de Arrependimento Dezembro 2014 22 / 22