modern gpu optimize blog

Modern GPU

OptimizeIn

DirectX 9

http://ozlael.egloos.com

사실은 GPU 프로그래밍 가이드 문서 정리ATI Radeon HD 2000 programming guide

GPU Programming Guide GeForce 8 and 9 Series

http://ozlael.egloos.com/

Modern GPU

OptimizeIn

DirectX 9

현대의 H/W의 기준 이야기이므로 석기시대의 H/W에서는 역효과인 것도 존재

이미지 출처 : ndc11

Modern GPU

OptimizeIn

DirectX 9

열린글도 아니고 DX10도 아니고 DX11도 아니고...

병목 측정API OverheadVertex ProcessingShadersTextureETC

병목 측정

병목을 찾기 위해서는 정확한 측정 환경 필요

이미지 출처 : http://www.hellodd.com

병목 측정

DirectX retail runtime DirectX 최종 version

어플리케이션 release versions

디스플레이 컨트롤 패널 기본 값 Anisotropic filtering, Anti aliasing, Vertical sync

평균 값으로 벤치마킹

타겟 하드웨어에서 실행 하드웨어마다 병목이 다름

병목 측정

DirectX retail runtime DirectX 최종 version

어플리케이션 release versions

디스플레이 컨트롤 패널 기본 값 Anisotropic filtering, Anti aliasing, Vertical sync

평균 값으로 벤치마킹

타겟 하드웨어에서 실행 하드웨어마다 병목이 다름

심지어 프레임 마다도 바뀜

병목을 찾는다 =현 시나리오에서의 병목을 찾는다

병목 측정

간단한 테스트

병목 측정

CPU 스피드를 낮춰서 돌려본다.

속도가 저하되면 CPU limited

병목 측정

GPU 코어 클럭을 낮춰서 돌려본다.

속도가 저하되면 Shader Limited

Vertex ShaderPixel ShaderRasterization

병목 측정

GPU 메모리 클럭을 낮춰서 돌려본다.

속도가 저하되면 Bandwidth Limited

TextureFrame buffer

병목 측정

PerfHUD

이미지 출처 : PurfHUD6 UserGuide

병목 측정

Ctrl + T: 텍스쳐 유닛을 고립. 2x2 사이즈로 바꾸어 텍스쳐 대역폭 제한인지 확인

Ctrl + V: 버텍스 유닛을 고립. 버텍스 트랜스폼, CPU 워크로드, 버스 트랜잭션 제한인지 확인

Ctrl + N: GPU 제거 모든 DP calls을 무시하여 로직 오버헤드인지 확인

병목 측정

타이밍 그래프

Driver Time (ms) CPU가 처리한 드라이버 코드 시간. Driver Sleeping 포함.GPU Idle (ms) GPU가 idle였던 시간.Driver Sleeping (ms) 드라이버가 GPU를 위해 기다린 시간


병목 측정

CPU

GPU

Push Buffer Queue

command command command

Q :드라이버가 GPU를 기다리는 이유 ?

command command

command

command

병목 측정

CPU

GPU

Push Buffer Queue

command command

A :요게 꽉 차서

command

command

command command command

* Lock(): 은 Push Buffer가 비워지길 기다림

병목 측정

이미지 출처 : http://www.patsnap.com/patents/view/US7773090.html

병목 측정

Driver Sleeping이 높다면 CPU의 할 일을 추가해도 FPS가 줄지 않을 것. Driver Sleeping이 적당하지 않다면 GPU 로드를 가볍게 하기 위해 장변의 복잡도를 줄여야 함.

GPU Idle이 존재한다면 GPU로 데이터를 보내지 않고 있는 경우 발생.

컬링, 물리, 로직, AI

병목 측정

Driver Time과 Frame Time이 같이 튄다면, 드라이버가 텍스쳐 등을 CPU에서 GPU로 업로딩 중..

Driver Time은 정상이고 Frame Time만 튄다면, CPU가 빡신 일 하던가, 하드를 긁거나, OS가 딴짓 하거나..

Driver Time과 Frame Time의 차이가 크다면, CPU 의존적

병목 측정

프레임 프로파일러

병목 측정

PerfStudio

이미지 출처 : http://developer.amd.com/

병목 측정

PIX

이미지 출처 : http://mynameismjp.wordpress.com/

API Overhead 는 CPU 병목

이미지 출처 : http://blog.naver.com/seiclub

API Overhead

배치를 줄이자

상태 및 상수 변화를 줄일 것.

필요치 않을 시 상태를 재 설정 하지 말 것.

셰이더 상수를 개개로 많이 설정 하는 것 보다는 그룹으로 한번에.

API Overhead

텍스쳐 아틀라스 여러 텍스쳐를 하나로 묶어서 상태 변화 및 call 절약

이미지 출처 : http://www.gamasutra.com/view/feature/2530/practical_texture_atlases.php

API Overhead

인스턴싱 여러 DP call을 하나의 DP call로 합침

이미지 출처 : http://http.developer.nvidia.com/GPUGems2, http://blog.csdn.net/

API Overhead

Vertex Processing

이미지 출처 : http://blog.naver.com/seiclub

Indexed Primitive 사용.

버텍스 캐시 성능을 위해 ID3DXMesh Optimize() 사용.

Attribute 병목 제거 (input assembly)

Vertex Processing

Attribute 병목이 뭐야 ?

Vertex Processing

Setup 시 각 버텍스의 float 데이터를 버텍스 스트림과 오프셋 정보에 기반하여 비디오 메모리의 적절한 위치에서 가져옴.

Setup : single data chunk에 assembled vertex를 설정

Vertex Processing

Setup 시 각 버텍스의 float 데이터를 버텍스 스트림과 오프셋 정보에 기반하여 비디오 메모리의 적절한 위치에서 가져옴.

Setup : single data chunk에 assembled vertex를 설정

Attribute한 싸이클 내 처리양이 정해져 있음.

Vertex Processing

Attribute 병목 탐지

버텍스 선언의 사이즈 늘림 : 셰이더 코드를 변경하지 말고 더미 데이터만 추가

버텍스 선언의 사이즈 줄임 : 셰이더 로직이 변경되지 않게 주의. 셰이더 바운드와 겹치면 시ㅋ망ㅋ

Vertex Processing

Attribute 병목 해결

미 사용 Attribute 제거 : ex> 포지션으로 float4를 사용하지만 w 속성을 사용 안하는 경우

하나의 벡터에 그룹화: ex> 텍스쳐 좌표 float2 두개를 하나의 float4에 담기

Attribute 재 연산: ex> 노말과 탄젠트만 데이터에 담고 바이노말은 셰이더에서 재 연산

Shaders

최신 셰이더 모델 사용:석기 시대에는 낮은 버젼을 사용 하는 것이 미덕이였으나,통합(Unified) 모델 이후부터는 최신 버젼을 권장

SM 2 SM 3

최신 버젼의 fxc 사용: 최적화

Shaders

낮은 정밀도 사용: 위치 등 고 정밀 연산은 float. 색상 등의 연산은 half로도 충분

필요시에만 Uniform 파라미터: 런타임 동안 변하지 않는 값은 const 키워드로 사용

Uniform 파라미터 접기: Ex > return tex2d( sampler, uv) * g_color * 3.0f;

애초에 3.0을 곱해서 셋팅

Shaders

대수학 사용

연산 최적화

Shaders

대수학 사용

연산 최적화

노말라이즈가 딱 !

Shaders

범용 함수 남발 금지

float3 reflect(float3 I, float3 N) { Return ( 2 * dot(I,N) / dot(N,N) ) * N – I;}

Shaders

단위 벡터의 길이를 구하지 않도록

범용 함수 남발 금지

float3 reflect(float3 I, float3 N) { Return ( 2 * dot(I,N) / dot(N,N) ) * N – I;}

2 * dot(I,N) * N - I

노말라이즈가 딱 !

Shaders

병렬 코드 사용

float x = a + b + c + d;

float x = ( a + b ) + ( c + d );

== ?

Shaders

병렬 코드 사용

float x = a + b + c + d;

float x = ( a + b ) + ( c + d );

! =

3 operation

2 operation

Shaders

타입 혼용 금지

int4 main(int4 a: TEXCOORD){ return a + 1.0f;}

== ?

int4 main(int4 a: TEXCOORD){ return a + 1;}

Shaders

타입 혼용 금지

int4 main(int4 a: TEXCOORD){ return a + 1.0f;}

int4 main(int4 a: TEXCOORD){ return a + 1;}

! =

타입 캐스팅을 위한 추가 연산

Shaders

스탠다드 라이브러리 함수: Ex > 벡터와 매트릭스의 곱은 mul().

어드레싱 직접 구현 금지: saturate()대신 D3DTADDRESS_CLAMP

적절한 타입 사용: tex2d()가 float4 리턴한다고 해서 꼭 float4로 사용 할 필요 없음

Shaders

픽셀 셰이더 병목

Early Z: 한 패스를 추가하여 깊이만을 먼저 그려서 은면의 비싼 연산 방지

Front to Back 정렬: 앞의 오브젝트에 의해 가려지는 픽셀의 오버드로우 방지

지연 랜더: 보이는 픽셀만 라이팅 연산

스카이 박스를 마지막에: 대부분의 스카이는 가려지므로 최후에 랜더하여 픽셀 연산 및 대역폭 절약

Shaders

PS 연산의 VS로 이동

픽셀 셰이더의 연산은 비싸다. 그러므로, 선형 보간으로 가능 한 연산은 무조건 버텍스 셰이더에서 연산하고 픽셀 셰이더로 넘겨줘라!

Shaders


그건 옛날 이야기!요즘은 셰이더 연산이 짱 쎄서 오히려버텍스 캐시 퍼포먼스나 어트리뷰트 병목이방해가 될 수 있다구요!밸런스를 잘 판단하고 사용해야되욧!

픽셀 셰이더의 연산은 비싸다. 그러므로, 선형 보간으로 가능 한 연산은 무조건 버텍스 셰이더에서 연산하고 픽셀 셰이더로 넘겨줘라!

Shaders


VS:Out.position = mul(mvp, In.vertex);Out.lightVec = lightPos - In.vertex.xyz;Out.viewVec = camPos – In.vertex.xyz;

VS:Out.position = mul(mvp, In.vertex);Out.vertex = In.vertex.xyz;

PS:float3 lightVec = lightPos – In.vertex;float3 viewVec = camPos – In.vertex;

Shaders

Vertex Texture Fatch: VTF를 죄악으로 여기던 시절은 지남.통합 셰이더 모델에서는 VTF가 느리지 않음.

GPU gems 3

NDC11, VPPF

Shaders

통합 셰이더( Unified Shader) 모델


Shaders


DX10을 지원하기 위한 아키텍쳐모든 셰이더 타입이 같은 하드웨어 유닛을 사용GPU가 셰이더 로드 밸런싱을 조절

Shaders

현대의 GPU는 다이나믹 브랜치의 퍼포먼스가 우왕ㅋ굿이를 이용하여 성능 향상을 볼 수 있음

ex> -라이팅 연산이 필요 없는 그림자 영역은 연산을 건너 뜀-N dot L 이 0 이하면 스페큘라 연산 건너 뜀

동적 분기

Shaders

주의점:

최소 64개의 버텍스 또는 픽셀(8x8)이 연속적이어야 함.아니면 오히려 성능 저하를 초래 할 수도 있음

ex> -라이팅 연산이 필요 없는 그림자 영역은 연산을 건너 뜀-N dot L 이 0 이하면 스페큘라 연산 건너 뜀

고 주파 노말맵에는 부적합

넓은 범위가 아닐 경우는 부적합

Shaders

동적 분기의 성능을 활용여러 매터리얼의 처리를 한 셰이더로 몰아넣어셰이더 설정 비용을 줄임.

셰이더가 길어지면 셰이더 캐시 문제가 발생 할 수도 있음

Uber-shaders

Shaders

라이팅 등 복잡한 연산을 텍스쳐에 미리 그려넣어 사용

텍스쳐 룩업

Tera StarWars : The Old Republic

log(), exp()로등은 마이크로 인스트럭션이므로 그냥 사용 해도 됨

Texture

밉맵 사용

비싼 필터링은 필요 시만 사용

• Trilinear • Anisotropic • Wide texture formats • Volume • Cubemap • Texture projection

Bilinear의 두배

Max anisotropic 만큼 느림

Texture

RGBA8예전 세대의 하드웨어는 한 싸이클에 32bit 처리

RGBA16F요즘 세대의 하드웨어는 한 싸이클에 64bit 처리

Fixed poinf RGBA16은 여전히 두 싸이클

ETC

clear()석기 시대에는 clear()를 건너 뛰는 것이 트릭 중 하나였음.하지만, 현대의 하드웨어에서는 항상 클리어 되어야 함.

풀 스크린 쿼드 시에는 불필요.

nVIDIA : Hyper ZATI : Fine-grained Z

ETC

메모리 할당

다음과 같은 순위로 메모리 할당

1. 랜더타겟 pitch ( 폭 X 픽셀비트 ) 에 의한 정렬로 할당2. 셰이더 생성3. 남은 텍스쳐 로드

To be continue :벤더 의존적인 최적화 기법

끗

modern gpu optimize blog

Documents