ml final - blog.kakaocdn.net

18
ML - Final

Upload: others

Post on 02-May-2022

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ML Final - blog.kakaocdn.net

ML - Final

Page 2: ML Final - blog.kakaocdn.net

8. logistic.RegressionlRegro.sion : 회귀지만 logisticRega.im 분류기임

로지스틱 회귀분류기는 분류알고리즘이 회계모델을 바탕으로 해서 회게 단어들어감

Index 1. 로지스틱회귀분류에 개요

2. 비용함수 / 경사하강법 1 정규와

3 .다중클래스로 확장

1. 로지스틱 회귀분류기 개요

. 로지스틱 회귀분류기 : 로지스틱 함수 ( 시그노이드함수 ) 사용하는 분류가L*로지스틱 함수이다 . J : 입력값 → 001로반완

g미1 추가된 전편 ( BIas ) i 특성벡터의 선영변환만으론

• SCI) = 분류에 용이한 특성공간으로 매핑 어려움' ' '"냪 H 이미

o LTEWox.tw ix, t.twmxm = W대2

TL Z감소 → SCI1 = 0

2증가 → S1지지 . W: 입력특성 X를 분류문제에 용이한 특성으로 변환

L10.0.51 기울기 크다= Z변화에 따른 비리편마크다

✗ . W.

X2

WIIX3 W3z 새사이트함수

새 W4

10사나이트• SCI) = J =H의 p 1 . Wood

N 시그나이트 함수 0N1 사이값 반환하므로

야미니의 1 ×) 로 볼 수 있다 .

Page 3: ML Final - blog.kakaocdn.net

2동작방식 : ① 비용함수 ② 경사하강법 ③ 정규화

① 비용함수 : 최적의가중치를 찾기위해 . 학습데이터에대해 예측에 J과 신제값 Y가가지는 차이를 측정11W)

(1) MSE ( Mean Squared error)

: 최적의 w 찾기위해 현재 W성능 알아야함 .

따라서 성능이 낮은 정도를측정 i cost Func 父二 성능이 낮다

○ Cl 편차제곱의 평균1 하번째실제값W번째 예측치

최소 . . . .. . . .

:최적의 w

7W

But. 특성공간 복잡할수록 - 모든 lw.IN)) 알기 어려움 ⇒ 경사하강법 ( cost Function과 타겟 W필요)

. MSE에서 경사하강법

4J'(WK9 //Next W 증가 1, ni J4W) 70 ,

Next W 감소•

최적의 W

이지에가 0에서 멀수록 ( = 클수록 , 기울기가 가파른수록) text W 이동량 증가

. MSE에서 경사하강법 사용시 미분에서 깔끔한 계산위해 늘 추가

0L 경사하강법에서만 .

But MSE - 경사하강법 사용위해① 비용함수 무조건 wnvex 해야함 V ( o ) hl ix)

⇒ Cross Entry

② MS5호 제곱식인데 non linear J 제정해도 on에 X

Page 4: ML Final - blog.kakaocdn.net

(2) Cross 杜凡凹

분류문제에서는 (제급식 사용 M5E보다

10G 사용 Cross En批町 권장

값에

- Binary Cross Entry (BCE)

정보량 ( 확률 역수의 로그)의 기대값=확률 -10g ⇒ con에

y'이는 0 or 1

vi) = 1일경우J씨의 일수록 LOSS 갔소 .

J '" E0 일수록 Loss 증가

BCE(w) =方比州 In IT),

If'가까움 = 1 In卵川 t

②경사하장법( W, J (W) ) 에서 최적의 W찾기위해 ,

gradient.deSaintJ'

(w) 의 부호와 크기에 따라 다음 W 결정하는 방법

i 최적화대상 변수값을 비용함수의 가장 작은 값위해 반복적으로 이동

자음W 홰w Q- 9해배지기울기)

학습률

. 7 Large i 건너뛰는 폭大 . 최적부근서 Jump → 최적W 찾기어려움

Small : 너무 오래걱림

→권장값 사용

of) (W) : 비용함수 기울기

I는 벡터이므로 각특성별로 Win이 업데이트되기위해서는 ⇒ 편미분 !

(유도) 11W) - BCE 사용

기먀諂一 19배n (I에 + 11-5에 1n ( 1 7]

0M¥ 幽了 = im 諂一 19배n (I에 + ( 1-5에 1n (卜秒了酬覓i. 方絆 [ dd

.이에n (i) t.im (卜州 In ( 1-5배 )

沾紅i핿代艸 ) + ni' ) adm 1만5%)'訓二 viii, In 미분시 역수

- ii, 一緋'

iioiiil.gl이沾紇 " 卜兩幽

"

→뒷장서계속 . .. .

.

Page 5: ML Final - blog.kakaocdn.net

ii) t.gl" d Ji)011W에 沾絆 1g에 ' 卜扁誌

Id J =

dwmltexpttldwmiddm.clHeinz) (城卜 一繒

iewodottltwmxn.nl( H와마리) "= Xm . -

( Ha마리가 의미가)'> 오시기가)

= xm.tt 이미지( He시가지가

' ' I=

" |

Hexpc.nl/tlteXPt2)j=XmoI1l-J)yai0J1WmI河絆列

一艸ljmj.MY 11Y )

河剖州 .li') -

T.mil/.xni'-=jI1-y1i1+I1i1).xni)iMW1TnBut로지스틱 회귀모델에서 경사하강 기법은

매 반복시행마다 W 업데이트위해 학습데이터 모두사용 →데이터 커질수록 학슁 비용 . 시간

T.GGD : W업데이트시 한번당 학슁데이터 전체1사용X .

(극단적 업데이트당 데이터한개D사용 → 한개씩 적용해서 전체학습데이터 적용시 - ep.ch 한 번 수행 ( 보통 wgistlc-epa.lk 10 )

@Mini-Bach GP 샘플데이터 여러개

- 전체는 아니어도 메모리에 들어가는 한 여러개D 사용 (빠몌 : M2 T 32개 샘플로 그래디언트 평균_구해 업데이트)

Page 6: ML Final - blog.kakaocdn.net

⑦정규화 . Normalration i 정규분포

LRegularizae.im

비용함수 ( MSE.BE : 학습데이터 에러 지표) 가 최적화의 대상인 목적함수가되면~ 지금까지

W는 학습데이터에 대한 에러를 줄이는방향으로만 업데이트 의 오버퍼팅( W 크기고려X )

* 오버퍼팅 : 학습된 모델이 학습데이터에만 특화 . 테스트데이터에서 성능 저하

( W에대한 제약 ✗ )Over杜上凹 예)

만약 W값이 (엄청 커지거나

이 작아지면

※ 입력데이터 t 가질수있는 범위 한정W,

- 원리나 패턴 찾지 않고 단순 암기 ⇒ 오버퍼팅야기

ㅕ 이때 W가 커지면 이 입력데이터에 민감하게 반응 . .

기!" 0001

. Bi as 와 Variable 로 표현하기도 함

예측값정답값 간 차이 입력값에 따라

예측값 변화되는 정도

이문저1 하서실의상니 바이이✗ but 민감 ⇒ 오버평은 Low Bass High Variable

기민 (0아= ""

鄕慨竗北

예췞玔聊학습데이터에서

* 정규화 : cost 줄이기는 하되 되도록 크기가작은 W 사용 유도, 오버대팀 예방

d

cost에 w값 크기 추가

( W 커지면 WH 증가)

다) BCEr벡터의 크기

908 : N0m의크기 - q= 1

: H NOrm- 1w1

'= EN 1

- 8=2 : L2 Norm - v12 = I ni정규화 반영 정도

1이 값에 예밋

: 적당한 값 사용

.LI 정규화 VS L2 정규화

예시 ) W, = ( 1.0 ) W2 = (0.5,0.5)

W,,1W1 ,2

W2, 1 W2,2

위 시

normlw.lk 111 t 101 = 1

1 W21'= 10.51+10.51=1

# L2

mormlw.PE 12+02=11 W212 = 0.52+0.52=0.5

迦 w벡터가 一琺 작은-값 가지면 전체값쯔 , 한쪽 쏠리면 증가.

정리)

(H : 전체 크기만 작으면 됨

어느특성은 가중치 극단적 크게 어느특성은 영향 없게 ( 주요특성 고르기 )

L2 : 전체크기도 작아야하지만 특성별가중치가 골껴 작아야함( 특성 골고루 다 고려 )

Page 7: ML Final - blog.kakaocdn.net

' 다중클래스확장

① 시그노이드 > softMax

③ 가중치 I → i

3. 다중클래스로 확장 ③ 비용함수 BCE t (E

지금까지 : 이진분류 - Signoil (0

1

• 다중로지스틱 회귀 알고리즘 = 소프트맥스회귀

① 프프트맨스 함수 사용

jt r 관심클래스전체

1 OClass : K일확륄 늪

K개의 클래스 존재

class i - - - class: 1일P → I

해O와매)

" 2 . . . " 2 " → W'2 .I = Z2 "

,,M . . . ., 3 "

p→ In I In "

a Cross Entry

0 O정보량식, ,

⑨ ( 咐訶y"가 ; → I

그외 ,→ 0 반환하는함수

i번째 정답값 : ; → y j 일때 .정보량만 더해지도록하는 내

-1 or O

0가중치배기울기 4개

Y"" 일때 , K에대한 P 높이거나

배차일때 ,K에대한 P 낮으면 그래디언트 0에가까워짐

비만K여서 기반환시에 솏씨가 1에가까워야 제디먼트 감소

→ 작가중에 별 기웨에 따라서 재해 벡터 업데이트 - 비용변화없으면 업데이트 정지

T.lt. f. .ir softMAX ⇒ ㅑma셰wix~si.tn I,

Page 8: ML Final - blog.kakaocdn.net

• 뉴럴네트워크(인공신경망)는인간의신경세포구조에서영감을받음• 인간의몸에는많은신경세포(neuron)가존재하며이들은서로시냅스(synapse)를 통해 연결되어 있음.• 각신경세포는어떤전기적인자극이들어오면각세포의특성에따라다르게 반응하고 새로운 전기적 자극을 만들어 연결된 신경세포에 전달

뉴럴 네트워크의 기본 요소가 되는 퍼셉트론(Perceptron)은 신경세포 하나를 나타냄• 퍼셉트론은 값들(벡터)을 입력 받아 가중치에 따라 합산 한뒤 활성화 함수(Activation Function)값을 다음 퍼셉트론에 전달

9 Neural Network

Index 1 . 뉴럴네트워크

2역전파 알고리즘

1. 뉴럴네트워크 Teen

위항 l활성화함수쎼哺0

퍼셉트론 하나뉴런

' 만약 1퍼셉트론에 활성화함수 : 시그모이도 ⇒ 20gㅵ

*뉴럴네트워크 : 여러 퍼셉트론이 레이어1층을이뤄 구성 →레이어 여러개 쌓임 = MLP ( Multi Layer person)

\ 1퍼셉트론레이어

,(가중합진행 Active II) = 吐吐

吐咐* 레이어

가중치없음 ,- InPut Layer " 특성값 입력받음 . 가중합X 2대로전달

- OutPut a : 최종속력값 (예측값1 반환

- Hidden " : 은닉층 , InPut ~ 예제 사이 모든 레이어

같은레이어 내퍼셉트론 연결X

다른레이어 " ' ' 모두 연타

(예시) XOR

/ XOR ①

1 피셉트론 깨

g,/N"" ㅇㅇ 가 각각 구분

겹친 부분이 마지막 펩이 구분

i예"

( 0<[email protected]毬地 하나의 퍼셉으로도 - y∴!

났의퍠慨예능 ㅕ비선형적요소필요

구분가능하Mb

Page 9: ML Final - blog.kakaocdn.net

뉴럴 네트워크에서 순전파(Feed Forward)는 입력 특성을 받아 출력결과를 내는 것을 말한다.(즉, Input Layer에서 Output Layer 방향으로 값이 흐름)• 역전파(Backpropagation)는 반대로 Output Layer에서 Input Layer 방향으로 값이 흐르는 것을 말함

1. 순전파단계 :주어진입력특성값에대해순전파를통해예측값계산2. 역전파단계: 각 퍼셉트론의 가중치의 그레디언트로 가중치 업데이트− Output Layer 부터 시작해서 Input Layer 방향으로 업데이트가 순차적으로 진행

2.역전파알고리즘 뉴럴네트워크에서 그래디언트디센트 알고리즘 적용위한 알고리즘 : 역전파알고리즘

&

뉴럴네트워크학습 : 여러 피셉트론 ,레이어 있어 학습썌야할 파라미터 AA →역전파알고리즘 필요

' 순전파와 역전파

grdimt값이 역전다 전달인자

* 뉴럴네트워크에서의 학습

Remnd-Regre.sionI

Model

I → O @ → j(학습>

( 예측결과 바탕 정답과 비교해 W업데이트'

I

'뉄

✗. → o → o

사) o茁얢 ① → j

>

순전파

( Cost FunC 이용 .)

Page 10: ML Final - blog.kakaocdn.net

정규분포기반 . Random

"순전파단계 : 맨처음 가중치는 임의의 초기값할당 (예 : Standard Normal distribution)

# 1#2_E.nl?wi레이어번호 品斌' 다음레이어

T

예측값여러개d

히든레이어

' 가중치 벡터 절편고려X

6예시에서 Active 함수 시그모이드사용

기." .at?w..FTaI'?wis= 0.2510-05

a," : 0-5 A미다가. 0.6 = 0.11 .at 실제값

쎲이o.ME 예측값

= 0.9/ 9.뗆,

A10.061: AI0.15.0.5-a.

"

2역전파단계 aget 가중치

b,o

d" = A(DO

'보통 (E사용 . 간단하게 하기위해 MsE 사용 ,비용함수TV 기에

""영향 → Z영향굷사영향

MSI 비용함수 사용해서 가중치 업데이트

ziis.w.in?aTtwijcex)wf=O.5=a," = 0.5

w們'

.ws ."

-7711W們 ) a仕門o.GLl 幽dd.is dz.atd] (W) d] (W)

d 자"

'

dw.is= 0.5×0.24 .

dw.in=

di'

d 자"

'

dw.is= 05

dans d 자"

dw.is

-

TA.관련부분 Active Fune = T

마고이드= 0.5×0.24×0.5=0.06Wii짤 0.5 - 1 * 0.06 Matrix) . ( 1-TH))

→ a.다채 ,

d T1자2)= 0.440 = 0.60.li = T1자") ( 1- T1자

"

) )at

mode ! = 0.5 = 0.6*0.4=0.24

Page 11: ML Final - blog.kakaocdn.net

(ex- 2 ) W i, ,"

= 0.3 업데이트

* 뻬다" 바로 업데이트해서 계산X

W고정해두고 일단해야함 . 다음라운드에 W'사용

w.in w們 -70J (Wii"

OJ.tw)

051W)

L

바로미붓Xd J(W)

.

dd.tl] d 자"d 91W)

= dai.JO d_.

"'

d W . , ," dw 們了

d째f다"

.at?wi.itai?w.i23dJdw)dJa1wyt"=

(d ois + da" "'

aw n ,"

da,다] dz.IT

da.is'

d.is'

Tn@"- y) .lt (로다이사이도

"

Yd J21W)

sow.is/.Tki7=a(zi2')=af2J:o7L=_O.2X0.2lX07=-O.07dJ,Cw)dJ. (W)

da,"

고 dqcs.de" dz

2]

d Z,다]-

d 9,다]

dz.다]

yain_yn.TK."' ) . ( 1- T1자

"

) '

da"

11 242euro

05 0.24I,門二t.wi_ta.int

= 0.5

0.5×0.24×0.5=0.06

d자 ''

'= ( 0.06-a03 )

da"

d IF''

'

d W n ,"

0.03 × 0.25 × 0.002

Page 12: ML Final - blog.kakaocdn.net

• Hidden Layer가 많은 뉴럴 네트워크를 딥 뉴럴 네트워크라 부름 − 명확한 기준은 없지만 Hidden Layer가 3개 이상인 뉴럴 네트워크를 보통딥뉴럴네트워크라함• Hidden Layer 수가 많아질 수록 그만큼 더 복잡한 특성 공간을 표현할수있음

• 이상적으로는 레이어를 여러 개 둘 수록 더복잡한(어려운)문제를잘풀수있을것• 하지만레이어를여러개두면발생하면문제가있다.

• 말 그대로 그레디언트가 사라지는 문제 (즉, 0이 돼버리는...)• 학습이 잘 되어서 그레디언트가 0에 가까워진 경우는 문제될 것이 없지만, 학습이 잘 되지 않은 상황에서도 그레디언트가 0에 가깝게 값을가질수있는위험이존재한다.

학습 과정에서 사용하는 그레디언트 식을 보면 Sigmoid의 도함수가 자주 곱해짐특히층이깊어질수록더자주곱해진다.도함수가1보다작기때문에곱하면곱할수록0에가까운값이된다! (가장 기울기가 클 때도 0.25배 감소...)

10 Deep Neural Network

Index 1 . Deep Neural Network

2 . VanIstring 9radint : 활성화함수 . 가중치 초기화 .배치 정규화

I. Dem Neural Network : 딥러닝

i 뉴럴네트워크 일종

레이어 지날수록더 나은 vectorSpace로

변환 ⇒ 레이어지날수록 예측값도정답값

i i

'고

① 레이어朋二 학습해야할 때 ③ Vanbhi ng 9rad1대I문제(퍼셉트로 have W )

→ 어떤 W 적합한지 보려면 → 데이터수많아야함cmccn

② 깊어질수록 역전파 계산 朋

→학습시키기위한 비용卄

→ pat_a.com/sutingNS0urI 발달ㅋ DNN 발전토대 - 하지만 무한히 늘리기 불가능 →학습쁘 만들어짐

( 주로 Vanis being Grant 방지하기위해 )

avanist.ing 9rad빼

(W'= w - 7P기에O의

→ 해결방안 : 활성화함수 , 가중치 초기화 . 배치정규화

2. vanish.mg 9radint - 활성화 함수

( ex ) 시그모이도

r도함수최대값 :0.250

매매

Page 13: ML Final - blog.kakaocdn.net

[주의] 마지막 활성화 함수는 Sigmoid• 마지막 출력 레이어를 위한 활성화 함수는0~1 사이 값을 반환하게 하기 위해서 Sigmoid 사용(Multiclass는 Softmax 사용)• 문제에 따라서 -1~1 사이 값을 반환하도록 Tanh를 쓰기도 함

가중치값이초창기에매우큰값이나작은값을갖게되면 각 퍼셉트론의 시그모이드 함수의 입력값이 작은음수혹은큰양수를가질수있다. 처음부터 Gradient가 0을 가질 위험 존재

sigmoidtvanist.ing 9rad1대문제발생 Max 1011w) ) 가

0.25

→급할수록 20

de새로운 활성화함수

: Tank ( X) , ReLU (X )

o Tank ( X) -1 이 사이값 반환

✓도함수 최대값 : I

o ReLU (x) 0 ~N 값 반환

7.도함수 : 0 or I → 학습시 빠르고 연산과정 간단

→볘 t 입력값 부호만화인

But : ReLU 가 음수값 가지면 .그레리언트 0으로 학습시 반영 ✗ 단점

!god에 크게 반영 ( 7해한 것과 비슷)

ha씨 R와U : 음무구간 없애지 않게 조절

→ teakyR.LU 도함수 Left喇珪r

( 혹은 soft Max)

* 상황에따라차이

3. vanishinggradlent.tl명치 초기화恥昨론

미→ ter

"

"

1 학습진행 멈춤 고도함수초기 w: 정규분포 rand.com값

oo黔→벀고 작은값 가질수있음

ii.(2) 사이와 1사11에2세에 (3) He Intelration

0에가까워짐( 1 ) 표준편차 줄이기N (M= o , T ) ( n : 폡트론 뼈 ) N ( ME9 Ft )

N(0, 1 ) X IL미

N (o, smatterF) 0 一颱 ∴ ReLU와 사용

← 같은원리 .

n 클수록 T감소시킴← .

( n 이크면 정규분포에서 값이 튈P서

- sigmoid.lanh와 사용

Page 14: ML Final - blog.kakaocdn.net

초기값 뿐만 아니라학습 과정에서도 여러 층이 쌓이게 되면뒤쪽 레이어로 갈 수록 활성화함수의 입력값이 작은음수혹은큰양수를가지기쉽다. 이를 근본적으로 해결하기 위한 방안이 배치 정규화

• 각 퍼셉트론에 입력으로 들어가는 입력 값(x)을 정규화 (예: 평균이 0, 표준편차 1이 되도록 표준화)• 단,모든데이터를가지고하는것이아니라학습 때 사용하는 배치 단위(배치의 평균과 표준편차)에서 정규화➔ 퍼셉트론에 입력되는 데이터의 분포가 레이어에 상관없이 동일

4. vanishinggradient.HU치정규화

adf.io/denlager라면

시그노이드에 크기나 작은값→ A브스부g의( W ) d ( 소수 곱 )

a, i 이에 사이값 갖도록

( Mini ButCh)

레이어에 관계없이 입력값꺼가

Page 15: ML Final - blog.kakaocdn.net

• 회귀는 주어진 특성값에 대한 연속형 결과값을 예측 − 결과값의 데이터 타입이 다른 것이 분류기와 차이• 회귀도 분류와 같이 지도학습의 대표적인 기법

회귀는 정량적인 평가/응답을 예측하는 곳에 사용 가능− 주택가격예측(지리적위치,평방미터,침실개수,욕실개수등을고려) − 시스템의 프로세스와 메모리 정보를 바탕으로 한 전력 사용량 평가− 소매업 재고 예측− 주가 예측

• 특성과 연속형 결과값 사이 관계를 설명하는 선형 방정식 (선형결합) 혹은 가중치 합의 함수를 찾는 알고리즘• 입력 특성 벡터 𝐱 = (𝑥1, 𝑥2, ... , 𝑥𝑚) 가 있고 이에 대응되는 결과값𝑦가있을때,𝑦를가능한잘맞출수있는 선형 방정식을 찾는다.

11 Recession

이전 - 데이터 클래스 예측 목적

Index 1 .회귀

2 -선형회귀

3 . 트리기반회귀 ) 회귀모델4 . 서포트 벡터 회귀

5.회귀 성능평가

분류 : 데이터가 속하는클래스예측1.회귀

연속형

1 1

'

특성 - 정답 필요

T2

연속형 : is Nos

'분류'

.Class IaD의

r회귀모델

알고리즘통칭명

o

2 . 선형회귀

logisticregressi.is 과 비슷함 ( 로지스틱에서는 시그모이드함수로 0N1 사이 변환 과정 존재) i'

분류'

모델이었어서 ! 회귀에서는 X

소프트맥스

J = i x = wo.lt . .twm Xm (절편추가)

혜측값

모델 ( w )평가 xsfiQI.fi( 학습 ) ①목적함수 (비용 Fund

② 최적화

fw① 비용함수 : M5E 주로 사용긊訌主 (T.it ③ 최적의 w찾았다면

새로운 입력벡터 X'에대한

② 경사하강법 예측값이 구할수있음

II.訟竹'" +5"1×1

"= △W

W의 기울기y'= i i

W'= w +7 冷工

( y세I'川心

Page 16: ML Final - blog.kakaocdn.net

• CART:각노드에서왼쪽자식노드와오른쪽자식노드로 반복적으로 분할하고 확장시켜 트리 생성• 각 분할 단계에서 최적의 분할을 만드는 특성-값 기준을 탐욕적 탐색 방법으로 찾아감− 이과정에서어떤조합이분할을잘해내는지측정하기위한기준으로 ‘지니 계수’, ‘정보 이득’ 기법 등이 있었음의사결정 트리 회귀도 기본적으로는 분류 상황과 동일 타겟이 카테고리가 아니라 “연속형 변수”라는 점만 차이(분류와 회귀 모두 사용할 수 있어서 이름이 CART)

의사결정 트리 회귀 Decision Tree Regression• CART:각 노드에서 왼쪽 자식노드와 오른쪽 자식노드로 반복적으로 분할하고 확장시켜 트리 생성• 각 분할 단계에서 최적의 분할을 만드는 특성-값 기준을 탐욕적 탐색 방법으로 찾아감− 한노드에대한대표예측값으로그노드에속한데이터정답값의평균을사용− 한노드에서대표예측값(평균)에정답값들이가까울수록순도높은노드로평가(=노드내정답값분산이작을수록잘분할되었다고평가) ∙ 분산은 예측값을 평균으로 사용하는 MSE와 동일

3.의사결정 트리회귀

* 1분류) 의사결정트리

o蠶

리프노트가 클래스 레이블 아닌 값지정

1 ' Regionon

ClassI flat ion

1 1 1 1o

과정수행에서 분류와차이

* ( ART → 자식노드로 분할 →트리생성

- 노트 : 대표예측값도정답의 평균 사용

대표예측값 (평균 ) 고 정답 →유사할수록 순도높은 노드

"

평균과 값. 유사점도 분산이 작다11

= 불산 = MSE잘분할됐다

言工 (XTV

예시 )

하나의 노드

① 트리분할 어떻게할지 정하기위해 가능한 MSE 계산 (기준점하기 )MSESemi ?

10333 7

600 . 400 .

11N) = 方工主 ( J '이 - 9'"가 "

.io.700.800

13000

분학에대한 전체 MSE = 분할된 노드의 M5E 가중평균17500

:OpusEyemi) t 즉 MSE ( 15대"

V

= 즉M챺스뜨알뜨쁘엔t 즉 MSE ( I700.8001) = 10333

type01 in나눠짐

semi와동일 분산

② 분산이 작을수록 좋은 분할 ③ 같은방식으로 자식모드에 분할

( 예측값1평균 )에 모여있다 순도있다)"

彎跳""

서야 (王衣二 mi) 가가장 Good MIE ( bedro.ME33=6667

Q노드데이터평균

Page 17: ML Final - blog.kakaocdn.net

(복습) 서포트 벡터 머신/분류기• 입력데이터를서로다른클래스로가장잘나눌수있는최적의 하이퍼플레인을 찾는 알고리즘• 하이퍼플레인은 기울기 벡터(slope) 𝐰와 절편(interception) 𝑏로 결정 • 하이퍼플레인으로 분리된 공간 각각에서 하이퍼플레인과 가장 가까운 데이터포인트(SupportVector)와하이퍼플레인사이의거리 2 이 𝐰 최대가 되게 하는 하이퍼플레인을 탐색−조건:𝑦 𝑖 (𝐰∙𝐱(𝑖) +𝑏)≥1 −목적: 𝐰 를최소화

서포트 벡터 회귀 Support Vector Regression• 분류 때와 마찬가지로 회귀에서도 기울기 벡터(slope)𝐰와 절편(interception) 𝑏로 결정되는 하이퍼플레인을 찾는다.• 다만,분류때는데이터를클래스별로잘구분하는 하이퍼플레인이었는데, 회귀는 데이터를 잘 품을 수 있는 하이퍼플레인을 찾는다.= 최대한 하이퍼플레인에 모든 데이터들이 가까이 있을 수 있도록• 조건:학습데이터 𝐱 1 ,𝑦 1 ,(𝐱 2 ,𝑦(2)),...,(𝐱 𝑚 ,𝑦(𝑚))에대해 𝑦(𝑖)−(𝐰∙𝐱𝑖 +𝑏) ≤𝜀+ 𝜁(𝑖) 을만족한다.• 목적: 𝐰 +𝐶σ𝑛 𝜁(𝑖) 를최소화

4. 서포트 벡터회귀: SUM

一忌

11

marg.in 최대 .

(꾀하이존재(즒)

argine.tt Wxtb

서포트벡터회귀에서 하이퍼플레인 : 하이퍼플레인 - 데이터 가까이 있도록

0

f-wxtby.se.

:.gr. . .io 엡실론

X : 입력! (

y :정답 !"

,Dedsionhyperplane.in ) 를반환

j :예측'' 이 하이퍼플레인 찾기 : 서포터 벡터회계i

拉玎AT You j 오차존재

이 오차가 어느정도까지 A때HA미오한지 bond에 정하는 것 ! 서포트 벡터회귀의 조건MI형 1

¥51 < 15배 E이 결정viii.'

ni' 힌지로스추가 - 못맞춰도0- 얘네들조건 완화

坦列 SUM과동일썅- 힌지로스 최소화 목적

a試 n.it'

씨 가급적 작은값 사용하도록

8세톃.int

iii.

Page 18: ML Final - blog.kakaocdn.net

• 정확히맞췄다못맞췄다기준이명확한분류와는달리 회귀는 얼마나 정답과 비슷한 값으로 예측했는지 중요(가능한값의범위가넓기때문에값자체를완전정확하게맞추는것은거의불가능)

5.회귀성능평가

-des

° 회귀성능 평가

치.MSE가 비용함수일때만

投煎.球煎

o절대값

f) ← 예측값

_7 t 평균

작으면 못마춤