from predictive to prescriptive analytics

Post on 13-Apr-2017

101 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

From  Predic+ve  to  Prescrip+ve  Analy+cs  by  D.  Bertsimas  (MIT)  &  N.  Kallus  (Cornell)  

Presenters:    Nathan  Kallus      Asst.  Professor,  Cornell    Amjad  Hussain    CEO,  Silkroute  

Produc+on  and  Opera+ons  Management  Society  Applied  Research  Challenge  

May  6th,  2016  

Applied  ML  in  Data  Science  

Web  Search   Predict  video  game  demand  (Goel  et  al.  ’10)  

TwiXer   Predict  box-­‐office  gross  (Asur  &  Huberman  ‘10)  

Blogs   Predict  amazon  book  sales  (Gruhl  et  al.  ‘05)  

TwiXer  &  News  

Predict  civil  unrest  (Kallus  ’14)  

Data   Predic+on  Problem   Prescrip+on  Problem  

Inventory  management  for  video  game  +tles  

Assign  capaci+es  (cinemas)  

Supply  chain  management  

Facility  loca+on,  shipment  planning  

…  …  …  

A  general  problem  

•  Data                                                  on  quan+ty(ies)  of  interest  E.g.  demands  at  loca+ons/of  products,  %  returns  

•  Data                                                      on  associated  covariates              E.g.  recent  sales  figures,  search  engine  aXen+on  

•  Decision                              to  minimize  uncertain  costs  ader  observing                          

 

Y

Xx

1, . . . , x

N

y1, . . . , yN

z 2 Z c(z;Y )X = x

The  predic+ve  prescrip+on  problem  •  Problem  of  interest:  

 •  Hypothe+cal  full-­‐informa+on  op+mum  –  Uses  knowledge  of                        to  leverage                            to  greatest  possible  extent  in  reducing  costs  

•  Our  task:  use  data                                                                                                              to  construct  a  data-­‐driven  predic+ve  prescrip+on  

µX,Y X = x

SN = {(x1, y

1), . . . , (xN, y

N )}

zN (x) : X ! Z

z

⇤(x) 2 argminz2Z

E⇥c(z;Y )

��X = x

Standard  Data-­‐Driven  Op+miza+on  •  Data                                                  on  quan+ty(ies)  of  interest  •  Decision                              to  minimize  uncertain  costs  •  Problem  of  interest  is  •  Standard  data-­‐driven  solu+on  is  sample  average  

approxima+on  (SAA)  

–  Also:  SA  (Robins  ‘51),  Robust  SAA  (Bertsimas,  Gupta,  Kallus  ‘14),  Data-­‐Driven  RO  (Bertsimas,  Gupta,  Kallus  ‘13),  Data-­‐Driven  DRO  (Delage  &  Ye  ’10,  Calafiore  &  El  Gahoui  ’06)  

•  In  our  problem,  standard  data-­‐driven  op+miza+on  accounts  for  uncertainty  but  not  for  auxiliary  data  

   

Yy1, . . . , yN

z 2 Z c(z;Y )minz2Z

E [c(z;Y )]

zSAAN 2 argmin

z2Z

1

N

NX

i=1

c(z; yi)

Standard  Supervised  Learning  in  ML  •  Data                                                  on  quan+ty(ies)  of  interest  •  Data                                                      on  associated  covariates              •  Problem  of  interest  is  predic+on,  i.e.,    •  Standard  approaches:  linear  regression,  random  forest  •  Standard  use  in  decision  making  (as  taught  in  15.060):  –  Fit  a  predic+ve  model                                                                                    to  data  (e.g.  a  random  forest)  and  op+mize  determinis+cally      

•  In  our  problem,  ML  point-­‐predic+on-­‐driven  decisions    account  for  auxiliary  data  but  not  for  uncertainty    

 

Yy1, . . . , yN

Xx

1, . . . , x

N

E⇥Y

��X = x

mN (x) ⇡ E⇥Y

��X = x

z

point-pred

N (x) 2 argminz2Z

c(z; mN (x))

Shipment  planning  example  •  Stock  4  warehouses  to  fulfill  demand  in  12  loca+ons  •  Observe  predic+ve  features  X  about  demand  in  a  week  

c(z; y) = p1

dzX

i=1

zi + min

0

@p2

dzX

i=1

ti +dzX

i=1

dyX

j=1

cijsij

1

A

s.t. ti � 0 8isij � 0 8i, jdzX

i=1

sij � yj 8j

dyX

j=1

sij zi + ti 8i

Ê

Ê

ÊÊ

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

-1.0 -0.5 0.5 1.0

-1.0

-0.5

0.5

1.0

(lower  is  beXer)  

Shipment  planning  example  •  Stock  4  warehouses  to  fulfill  demand  in  12  loca+ons  •  Observe  predic+ve  features  X  about  demand  in  a  week  

Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê

‡‡

‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡

10 100 1000 104 1051000

1500

2000

2500

4000

Training sample size

TrueRiskH$L

Ê zNSAAHxL‡ zN

point-pred.HxLz*HxL

Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê

‡‡

‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡

10 100 1000 104 1051000

1500

2000

2500

4000

Training sample size

TrueRiskH$L

Ê zNSAAHxL‡ zN

point-pred.HxLz*HxL

Methodological  gap  to  fill  

Contribu+ons  •  A  new  framework  –  General  purpose  –  Coefficient  of  prescrip+veness  

•  Theory  –  Computa+onal  tractability  –  Asympto+c  op+mality  

•  Prac+ce  –  Case  study  of  huge  media  distributor  –  In  collabora+on  with  Silkroute  –  Study  prescrip've  power  of  large-­‐scale  data  

Our  approach  

•  A  local  learning  approach  to  prescrip+on  •  Re-­‐weight  Y  data  using  data-­‐driven  weights  –  Emphasize  data  that  is  similar  to  new  observa+on  (Analogy  breaks  down  in  general)  

•  Construct  predic+ve  prescrip+ons  of  the  form  

•  Draws  on  ideas  from  non-­‐parametric  predic+ve  sta+s+cs  (Stone  ‘77)  and  extends  to  op+miza+on  

zN (x) 2 argminz2Z

NX

i=1

w

iN (x)c(z; yi)

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

Ê

Ê

ÊÊÊ

Ê

ÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

Ê

ÊÊ

Ê

Ê

ÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

Ê

1 2 3 4X1

-2

-1

1

2

3

4X2

Weights  using  nearest  neighbors  z

kNN

N

(x) 2 argminz2Z

X

x

iis kNN of x

c(z; yi)

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

Ê

Ê

ÊÊÊ

Ê

ÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

Ê

ÊÊ

Ê

Ê

ÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

Ê

ÊÊ

1 2 3 4X1

-2

-1

1

2

3

4X2

Weights  using  nearest  neighbors  z

kNN

N

(x) 2 argminz2Z

X

x

iis kNN of x

c(z; yi)

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊÊ

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

Ê

ÊÊ

Ê

Ê

ÊÊ

Ê

Ê

Ê Ê

ÊÊ

Ê

Ê

Ê

Ê

ÊÊÊ

Ê ÊÊ

ÊÊ

Ê

ÊÊ

ÊÊ

Ê

Ê

ÊÊ

1 2 3 4X1

-2

-1

1

2

3

4X2

Weights  using  nearest  neighbors  z

kNN

N

(x) 2 argminz2Z

X

x

iis kNN of x

c(z; yi)

Weights  using  Parzen  windows  

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

-1 1 2 3 4X1

-1

1

2

3

4X2

z

KRN (x) 2 argmin

z2Z

NX

i=1

K((xi � x)/hN )c(z; yi)

Weights  using  recursive  Parzen  

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

-2 -1 1 2 3 4 5X1

-1

1

2

3

4X2

z

Rec-KRN (x) 2 argmin

z2Z

NX

i=1

K((xi � x)/hi)c(z; yi)

Weights  using  LOESS  

⌅(x) =nX

i=1

ki(x)(xi � x)(xi � x)T ki(x) =

⇣1�

�����x

i � x

����/hN

�3⌘3I⇥����

x

i � x

���� hN

x0=20 1 2 3 4 5 6

X0

1

2

3

4

5

cHz0; YL

z

LOESSN (x) 2 argmin

z2Z

NX

i=1

ki(x)

0

@1�nX

j=1

kj(x)(xj � x)T⌅(x)�1(xi � x)

1

Ac(z; yi)

2 5 100

1

2

Weights  using  recursive  par++ons  x1 5

R1 = {x : x1 5} x2 1

R2 = {x : x1 > 5, x2 1} R3 = {x : x1 > 5, x2 > 1}

R(x) = (j s.t. x 2 Rj)Implied  binning  rule  

z

CARTN

(x) 2 argminz2Z

X

R(xi)=R(x)

c(z; yi)

Weights  using  bagging  •  Train  T  tree  par++ons  on  bootstrapped  samples  and  random  feature  subsets  

•  Get  T  binning  rules  

 

R

t(x) =�j s.t. x 2 R

tj

z

RFN

(x) 2 argminz2Z

TX

t=1

1

| {j : Rt(xj) = R

t(x)} |X

R

t(xi)=R

t(x)

c(z; yi)

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

ÊÊ

X dataGiven x

-2 -1 1 2 3 4X1

-4

-3

-2

-1

1

2X2

(lower  is  beXer)  

Shipment  planning  example  •  Stock  4  warehouses  to  fulfill  demand  in  12  loca+ons  •  Observe  predic+ve  features  X  about  demand  in  a  week  

Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê

‡‡

‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡

10 100 1000 104 1051000

1500

2000

2500

4000

Training sample size

TrueRiskH$L

Ê zNSAAHxL‡ zN

point-pred.HxLz*HxL

(lower  is  beXer)  

Shipment  planning  example  •  Stock  4  warehouses  to  fulfill  demand  in  12  loca+ons  •  Observe  predic+ve  features  X  about  demand  in  a  week  

Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê

‡‡

‡‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡ ‡

Ï

Ï Ï ÏÏ Ï

ÏÏ

ÏÏ Ï Ï Ï Ï Ï

Ú

ÚÚ Ú

Ú

Ú Ú Ú Ú ÚÚ Ú Ú

Ú Ú

ÙÙ

Ù

Ù Ù

Ù ÙÙ Ù Ù Ù

ÙÙ Ù Ù

Ì

Ì

Ì Ì Ì ÌÌ

Ì Ì Ì Ì Ì Ì Ì Ì

· ··

··

· · · · · · · · · ·

10 100 1000 104 1051000

1500

2000

2500

4000

Training sample size

TrueRiskH$L

Ê zNSAAHxL‡ zN

point-pred.HxLz*HxL

Ï zNkNNHxLÚ zNKRHxLÙ zNRec.-KRHxLÌ zNCARTHxL· zNRFHxL

Data-­‐poor  prescrip+on  

Perfect  foresight  (determinis+c)  

Our  prescrip+on  

Coefficient  of  Prescrip+veness  

•  Measures  the  prescrip+ve  value  of  X  and  of  the  of  the  prescrip+on  trained  

•  To  be  measured  out  of  sample  

P =

minz2Z

NX

i=1

c(z; yi)�NX

i=1

c(zN (xi); yi)

minz2Z

NX

i=1

c(z; yi)�NX

i=1

minz2Z

c(z; yi)

1! [0, 1]

(higher  is  beXer)  

Shipment  planning  example  •  X  can  get  us  43%  of  the  way  from  no  data  to  perfect  foresight  –  less  if  prescrip+on  is  not  well  trained  /  insuff.  data  

Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê Ê

ÊÊÊ

Ï ÏÏ

Ï Ï

Ï

Ï

ÏÏ

Ï Ï Ï Ï Ï

Ú

Ú

Ú

Ú ÚÚ

ÚÚ

ÚÚ Ú

ÚÚ

Ù

Ù Ù

Ù Ù

ÙÙ

ÙÙ

Ù

ÙÙ Ù

ÌÌ

ÌÌ

Ì

ÌÌ

ÌÌ

ÌÌ Ì Ì

·

·

·

·

· ·· · · · · · · · Û

100 1000 10000 100000

-0.2

0.0

0.2

0.4

Training sample size

CoefficientofPrescriptivenessP

Ê zNSAAHxLÏ zNkNNHxLÚ zNKRHxLÙ zNRec.-KRHxLÌ zNCARTHxL· zNRFHxL

Asympto+c  Op+mality  •  Want  

•  Need  

Assump+on  2:                                is  equicon+nuous  in        .  zc(z; y)

Assump+on  1:  The  full-­‐info  problem  is  well  defined,  i.e.,              

E [|c(z;Y )|] < 1

Assump+on  3:            is  closed  and  either  (a)  also  bounded,            (b)                              is  coercive,  or  (c)                            is  convex.  

Zc(z; y) c(z; y)

Def:  predic+ve  prescrip+on                                is  asympto'cally  op'mal  if,  with  probability  1,  for  almost  everywhere        ,  as            

zN (x)x N ! 1

limN!1

E⇥c(zN (x);Y )

��X = x

⇤= min

z2ZE⇥c(z;Y )

��X = x

L ({zN (x) : N 2 N}) ⇢ argminz2Z

E⇥c(z;Y )

��X = x

Asympto+c  Op+mality  

Thm:  If  Assump+ons  1-­‐3  hold  and                                                                                        ,    then                                      is  asympto+cally  op+mal.  

k = min�dCN �e, N � 1

z

kNNN (x)

Weights  using  Nearest  Neighbors:  

Thm:  If  Assump+ons  1-­‐3  hold,                                                      ,  and  costs  sa+sfy          I                                                                                                            ,  then                                is  asympto+cally  op+mal.  E [|c(z;Y )| (log |c(z;Y )|)+] < 1

hN = CN��

z

KRN (x)

Weights  using  Parzen  windows:  

Thm:  If  Assump+ons  1-­‐3  hold  and                                            ,  then                                                  is  asympto+cally  op+mal.  

hi = Ci��

z

Rec-KRN (x)

Weights  using  Recursive  Parzen  windows:  

Thm:  If  Assump+ons  1-­‐3  hold,                is  abs.  cts.,  costs  dominated,  and                                                  .  Then                                                is  asympto+cally  op+mal.  

µX

hN = CN��z

LOESSN (x)

Weights  using  LOESS:  

Computa+onal  tractability  

•  Construct  predic+ve  prescrip+ons  of  the  form  

zN (x) 2 argminz2Z

NX

i=1

w

iN (x)c(z; yi)

Thm:  if                          is  convex  +  subgrad  oracle,            is    convex  and  separa+on  oracle  is  given,  then  we  can  compute                              in  polynomial  +me  and  oracle  calls.    

c(z; y)

zN (x)

Z

Case  Study:  Distribu+on  Arm  of  Interna+onal  Media  Conglomerate  

•                                               provides  analy+cs  solu+ons  for  manufacturers,  distributors  and  retailers  

•  Client  is  Fortune  Global  100  company  –  100+  million  units  of  entertainment  media  shipped  per  year  –  Sells  1/2  million  different  +tles  on  CD/DVD/Bluray  at  over  40,000  retailers  worldwide  

–  Need:  SaaS  solu+on  for  Vendor-­‐Managed  Inventory  with  Scan-­‐Based  Trading  

•  Our  target:  Maximize  number  media  sold  

•  Want  to  maximize  number  of  items  sold.  •  Focus  on  video  media,  Europe  

max E

2

4dX

j=1

min {Yj , ztrj}

�����X = xtr

3

5

s.t.

dX

j=1

ztrj Kr

ztrj � 0 8j = 1, . . . , d

Case  Study:  Distribu+on  Arm  of  Interna+onal  Media  Conglomerate  

Case  Study:  Distribu+on  Arm  of  Interna+onal  Media  Conglomerate  

•  Key  issues:  – Limited  shelf  space  at  retail  loca+ons  

– Huge  array  of  poten+al  +tles  – Highly  uncertain  demand  for  new  releases    

Case  Study:  Distribu+on  Arm  of  Interna+onal  Media  Conglomerate  

•  Key  issues:  – Limited  shelf  space  at  retail  loca+ons  

– Huge  array  of  poten+al  +tles  – Highly  uncertain  demand  for  new  releases    

???  

Release  date:  5/24/16  

Internal  Company  Data  •  Sales  by  item/loca+on,  2010  to  present  •  ~50GB  a5er  aggrega+ng  transac+on  records  by  week  

0 10 20 30 40 50 60 700%

2%

4%

6%

8%

10%

Week number on sale

Percentageoftotalsales

Percentage  of  all  sales  in  Berlin  for  13  +tles  from  the  point  of  release  to  home  entertainment  

Dealing  with  Censored  Data  •  Observe  sales,  not  demand  (quan+ty  of  interest  Y )      

•  Adjust  weights  for  right-­‐censored  data  U = min {Y, V }

wN,(i)(x) =

8>>>>>><

>>>>>>:

wN,(i)(x)

PN`=i wN,(`)(x)

!Y

ki�1 : u(k)<v(k)

PN`=k+1 wN,(`)(x)PN

`=k wN,(`)(x)

!if u

(i)< v

(i),

0 otherwise.

Thm:  Under  same  assump+ons  as  before  and  if  in  addi+on  (a)  Y  and  V  condi+onally  independent  given  X,  (b)  Y  and  V  share  no  atoms,  and  (c)  upper  support  of  V  greater  than  that  of  Y  given  X  =  x,  then                              is  asympto'cally  op'mal.    

zN (x)

Internal  Company  Data  •  Sales  by  item/loca+on,  2010  to  present  •  ~50GB  a5er  aggrega+ng  transac+on  records  by  week  

•  Loca+on  info:  –  Address  

•  Google  Geocoding  API  

•  Item  info:  – Medium  (DVD/BLU)  –  Obfuscated  +tle  

•  Disambigua+on  

Beyond  internal  company  data:  Harves+ng  public  data  (more  X)  

•  Movie/series  •  Actors  (find  actor  communi+es;  Blondel  et  al  2008)  •  Plot  summary  (cosine  similari+es,  hierarchically  clustered)  •  Box  office  gross,  US  •  Oscar  wins  and  nomina+ons  and  other  awards  •  Professional  (meta-­‐)ra+ngs,  user  ra+ngs  •  Num  of  user  ra+ngs  •  Genre  (can  be  mul+ple)  •  MPAA  ra+ng  

Beyond  internal  company  data:  Harves+ng  public  data  (more  X)  

0 100 200 300 4000

0.5

1

100000 300000 5000000

0.5

1

0 2 4 6 80

0.5

1

Box  office  gross  ρ  =  0.32  

IMDb  ra+ng  ρ  =  0.02  

Number  user  votes  ρ  =  0.25  

“Skyfall”  vs  “@”  

Beyond  internal  company  data:  Harves+ng  public  data  (more  X)  

Released  in  theaters  

Released  on  DVD  

Beyond  internal  company  data:  Harves+ng  public  data  (more  X)  

World

North Rhine-Westphalia

Baden-Württemberg

18ê03ê12 22ê04ê12 27ê05ê12 01ê07ê12 05ê08ê12 09ê09ê12 14ê10ê12 18ê11ê12 23ê12ê12 27ê01ê13

1

2

3

USTheatricalRelease

GermanTheatrical

Release

USHERelease

GermanHERelease

Beyond  internal  company  data:  Harves+ng  public  data  (more  X)  

World

North Rhine-Westphalia

Baden-Württemberg

12ê05ê13 16ê06ê13 21ê07ê13 25ê08ê13 29ê09ê13 03ê11ê13 08ê12ê13 12ê01ê14 16ê02ê14 23ê03ê141

3

5

7

9USTheatricalRelease

German

TheatricalRelease

USHERelease

GermanHERelease

Beyond  internal  company  data:  Harves+ng  public  data  (more  X)  

World

North Rhine-Westphalia

Baden-Württemberg

29ê09ê13 03ê11ê13 08ê12ê13 12ê01ê14 16ê02ê14 23ê03ê14 27ê04ê14 01ê06ê14 06ê07ê14 10ê08ê14

0.5

1.

1.5

USTheatricalRelease

GermanTheatrical

Release

USHERelease

GermanHERelease

Prescribing  Order  Quan++es  

•  Using  our  bagged  prescrip+on  trees  and  all  our  data…  

•  Out-­‐of-­‐sample  P  =  0.88  

0.6 0.7 0.8 0.9 1.0

500

1500

2500

3500

Coefficient of Prescriptiveness P

Count

Munich  

2012 2013 2014

14Kr

12Kr

34Kr

Kr

P = 0.89

Our prescription SAA++ Perfect foresight

Paris  

2012 2013 2014

14Kr

12Kr

34Kr

Kr

Our prescription SAA++ Perfect foresight

P = 0.90

Waterloo  

2012 2013 2014

14Kr

12Kr

34Kr

Kr

Our prescription SAA++ Perfect foresight

P = 0.85

The  Hague  

2012 2013 2014

14Kr

12Kr

34Kr

Kr

Our prescription SAA++ Perfect foresight

P = 0.86

Contribu+ons  •  A  new  framework  –  General  purpose  –  Coefficient  of  prescrip+veness  

•  Theory  –  Computa+onal  tractability  –  Asympto+c  op+mality  

•  Prac+ce  –  Case  study  of  huge  media  distributor  –  In  collabora+on  with  Silkroute  –  Study  prescrip've  power  of  large-­‐scale  data  

Thank  you!  

top related