Оптимизирующий компилятор

Основные характеристики приложения, влияющие на его производительность:

• Эффективность вычислений.• Эффективность работы с памятью.• Правильное предсказание переходов.• Эффективность использования векторных

инструкций.• Эффективность параллелизации.• Уровень инструкционного параллелилизма.

10/17/10

Место и роль компилятораКомпилятор — транслятор, который осуществляет перевод всей исходной

программы в эквивалентную ей результирующую программу на языке машинных

команд или на языке ассемблера.

Основная задача оптимизирующего компилятора – получение кода максимально

эффективного для используемого вычислительного комплекса.

С точки зрения разработчика программа должна быть:• Легко читаемой и модифицируемой.• Легко отлаживаемой.• Быстро исполняемой.

Разработчику необходима • надежная унифицированная среда разработки;• возможность варьировать уровни отладки и быстродействия;• возможность получать высокоэффективный код для различных операционных

систем и микропроцессорных архитектур.

Компилятор должен удовлетворить эти требования.

Оптимизирующий компилятор

Это программный комплекс, работа которого варьируется в зависимости от требований к результирующему коду.

Возникают следующие проблемы:• Сложность доказательства допустимости тех или иных оптимизаций.• Сложность расчет выгодности оптимизаций.• Отсутствие во время компиляции представления о типичных входных данных.

Для достижения хороших результатов требуется тесное сотрудничество с разработчиком.

Чтобы использовать умело средства компилятора, программист должен:

• иметь представления об архитектуре, на которой будет использоваться его программа;

• ознакомиться с настройками компилятора;• ознакомиться с основными техниками улучшения производительности, которые

использует компилятор;• ознакомиться с основными проблемами, вызывающими замедление работы

программы;• знать примерные данные, с которыми будет работать программа;• уметь пользоваться инструментами для анализа производительности программы.

10/17/10

Компиляторы Intel

С/C++ и Fortran дляоперационных систем Windows,Linux и Mac OS

Для Windows компилятор можетбыть интегрирован в Microsoft VisualStudio

Главной целью корпорацииявляется высокаяпроизводительность компиляторови совместимость с Microsoft VisualStudio на Windows и с gcc на Linux иMac OS.

www.intel.com/software/products

10/17/10

FE (C++/C или Fortran)

Внутреннее представление

Профилировщик

Скалярные оптимизации HPO

Генератор кода

Исходные файлы

Обьектные файлы

Временный файл или Obj с ВП

IP/IPO оптимизации

Скалярные оптимизации

HPO Генератор кода

Исполняемый файлБиблиотека

Архитектура компилятора

10/17/10

Front End

Синтаксический анализ (parsing) — это процесс анализа входной последовательности символов с целью разбора грамматической структуры, обычно в соответствии с заданной формальной грамматикой.

При этом исходный текст преобразуется в структуру данных, обычно — в дерево, которое отражает синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.

Обычно синтаксический анализ делится на два уровня:Лексический анализ — входной поток символов разбивается на линейную последовательность токенов — «слов» языка (напр. целые числа, идентификаторы, строковые константы и т. д.); Семантический анализ — из токенов выделяются «предложения» языка согласно грамматическим правилам, и создается дерево разбора.

На выходе FE мы получаем взаимосвязанные таблицы, которые называются внутренним представлением программы. Обычной практикой является использование общего внутреннего представления для разных языков высокого уровня.

10/17/10

Внутреннее представление. (Дерево разбора)

void sub(int *a,int k,int r) { int i;

for(i=0;i<k;i++) a[i]=r;}

(Statements)STMT_ENTRYSTMT_ASSIGNSTMT_WHILE_DOSTMT_RETURN

Процесс лексического разбора (parsing) – это процесс создания некоторого

внутреннего представления компилятора.

Внутреннее представление компилятора - это различные структурированные данные,

связанные друг с другом. Базовой единицей является

лист утверждений (statements)

Утверждения используются для отображения присваиваний, команд

управления потоком (таких как IF,GOTO,CALL,RETURN), Phi-statements

для SSA, вызовов функций и т.д.

10/17/10

Утверждения (statements) обычно представлены в виде списка и могут быть связаны двумя способами:

1) Лексически. Каждое утверждение имеет предшественника (predecessor) и

потомка (successor).2) Графом потока управления.

struct STMT { common_members: int type; STMT * pred; STMT *succ; BBLOCK bblock; … }Union { stmt_1_members; stmt_2_members; … }}

Макросы помогают получать доступ к различным полям данной структуры. Оптимизации часто базируются на полном проходе через весь лист утверждений. Например:FOR_ALL_ENTRY_STMT(entry,stmt) { if(STMT_type(stmt) == STMT_ASSIGN { //обработка присваиваний }}

Внутреннее представление. (Дерево разбора)

10/17/10

Выражения

a = b + c;

STMT_ASSIGN

lval rval

EXPR_VAR

‘a’

EXPR_ADD

EXPR_VAR

‘b’

EXPR_VAR

‘c’

Выражения (expressions) представляют собой дерево выражений.

Граничные выражения, то есть те, которые находятся на конце дерева выражений, могут быть: переменной (ссылка на область памяти), значением (константа).

10/17/10

Переменная и ее свойства• имя• информация о классе (для членов класса)• размер в памяти• выравнивание (alignment)• тип (например, ссылка на элемент из таблицы типов)• размер (для массива)• указатель на описание структуры массива• указатель на родительскую структуру (для полей структуры)• область хранения (локальная, статическая, глобальная)• область видимости Атрибуты:• является ли элементом объединения• брался ли адрес этой переменной• тип доступа (для членов класса)• специальная конструкция Fortran• имеет специальные атрибуты для Fortran• является аргументом• переменная отмечена как совместно используемая в OPENMP директиве

Многие оптимизации и компоненты компилятора для ускорения работы заводят специальные ссылки и атрибуты используемые только ими.

10/17/10

Функции и их свойства

• имя;• указатель на родительский класс;• выравнивание (alignment);• ссылки на тело функции;• Call convention (Для разных OS);• Intrinsic (библиотечная функция компилятора);• Область видимости.

Атрибуты:• функция не имеет «побочных эффектов»;• не возвращает значение;• обязательна для подстановки (inline);• конструктор класса и т.д.

10/17/10

Граф потоков управления (Control Flow Graph) -

представление всех путей, которые могут быть пройдены в процессе выполнения программы.

Базовым узлом этого представления является базовый блок (basic blocks). Это непрерывные части кода без переходов и меток переходов. Метка перехода начинает такой блок, переход его завершает.

Некоторые определения:

Блок входа (entry block) – это блок, через который все потоки управления входят в граф.

Блок выхода (exit block) – блок, через который все потоки управления покидают граф.

10/17/10

int main() {

int sum=0;

int i=1;

while (i<11) {

sum=sum+i;

i = i+1;

}

printf(“%d\n”,sum);

}

Entry

Sum=0;

i=1;

L12:

if (i<11)

sum = sum+i;

i = i+1;

Goto L12

printf(..)

Return

Граф потока управления

10/17/10

Построениеосуществляется в два прохода по списку утверждений: 1) Находим базовые блоки

• Первое утверждение начинает базовый блок.• Каждое утверждение, которое является целью

перехода, начинает базовый блок.• Каждое утверждение следующее за переходом

начинает базовый блок. 2) Проходим повторно и связываем базовые блоки

связями или гранями (edge).

Struct BBLOCK {STMT first_stmtSTMT last_stmtBBLOCK_LIST pred_listBBLOCK_LIST succ_list…}

10/17/10

После определения базовых блоков появляется возможность обходить все утверждения программы с использованием CFG.

Например:

FOR_ALL_ENTRY_BBLOCK(entry,bblock) { FOR_ALL_BBLOCK_STMT(bblock,stmt) { // обрабатываются утверждения из одного базового блока IF(STMT_type(stmt) == STMT_ASSIGN) { EXPR lopnd; lopnd=STMT_lval(stmt); if(EXPR_type(lopnd) == EXPR_VAR) { // Обработать присваивание переменной } } }}

Обработка графа потока управления

10/17/10

FE (C++/C или Fortran)

Внутреннее представление

Профилировщик

Скалярные оптимизации HPO

Генератор кода

Исходные файлы

Обьектные файлы

Временный файл или Obj с ВП

IP/IPO оптимизации


HPO Генератор кода

Исполняемый файлБиблиотека

Архитектура компилятора

10/17/10


Свертка констант, протяжка констант, протяжка копий (Constant folding, constant propagation, copy propagation)

Свертка констант - процесс вычисления констант во время компиляции.Протяжка констант – подстановка величин известных констант в выражение

int x = 14;int y = 7 - x / 2; => constant propagation =>int x = 14;int y = 7 – 14 / 2; Протяжка копий – процесс замены переменных их значениями

y = x;z = 3 + y => copy propagation =>z = 3 + x

10/17/10


Удаление повторных вычислений (Common subexpression elimination) – поиск идентичных подвыражений и сохранение результата вычисления во временной переменной для последующего повторного использования.

a = b * c + g; d = b * c * d; => CSE =>tmp = b * c; a = tmp + g;d = tmp * d;

10/17/10


Удаление мертвого кода (Dead code elimination) это удаление кода, который не изменяет выходных данных программы. К мертвому коду относится код, который никогда не выполняется или изменяет только не влияющие на результат переменные.

int foo() { int a = 24; int b = 25; /* Присвоение не влияющей на результат переменной */ int c; c = a << 2; return c; b = 24; /* Недостижимый код */ }

Мертвый код может появится после многих оптимизаций компилятора, после протяжки констант и копий, после прямой подстановки (inlining) и т.п.

10/17/10

Скалярные оптимизации Удаление излишнего ветвления, протяжка условий

Удаляются блоки кода, которые не могут быть достижимы из-за цепочки условных ветвлений.

if(x>0) { … if(x>0) { a=x; } } else { a=-x; } …} =>if(x>0) {…a=x;…}

Также может возникнуть из-за скалярных оптимизаций или прямой подстановки.

10/17/10

Анализ потоков данных (Data Flow Analysis)

сбор информации о возможном наборе значений переменных, вычисляемых в различных точках программы.

Граф потока управления (CFG) используется для определения тех частей программы, в которые может быть передано некоторое значение, присвоенное переменной.

Граф определения/использования (definition-use graph) – это граф, который содержит дуги из каждой точки определения переменной в программе к каждой точке ее использования.

10/17/10

Построение цепочек def-use для базового блока тривиально. Каждое определение переменной связано со всеми последующими ее использованиями. Каждое последующее определение прекращает предыдущую цепочку и начинает новую.

Для того, чтобы использовать этот локальный граф, с помощью CFG вычисляются несколько множеств, которые характеризуют поведения блока:

Uses(b): Переменные, которые используются в блоке, но не имеют определений внутри блока.Defsout(b): Переменные, которые были определены в b и достигли конца блока.Killed(b): Переменные, определения которых были отменены внутри блока другими определениями.Reaches(b): Переменные, определённые в других блоках, включая b, которые могут достичь b.

Построение

10/17/10

Т.е. для понимания того, какие определения будут использоваться внутри базового блока, важно знать reaches(b).Можно построить итерационный процесс, который будет вычислять reaches(b) через перечисленные множества предыдущих блоков.

Reaches(b) = U для всех предшественников (defsout(p) U (reaches(p) ∩ ¬killed(p))

Проблема в том, что при наличии циклов, блок reaches(b) может зависеть от reaches(b). Утверждается, что многократно повторяя это вычисление в каждом базовом блоке CFG, можно получить окончательное решение.

10/17/10

Опираясь на построенное дерево, можно делать многие оптимизации. Например, удалять мертвый код и протягивать константы. Главная проблема такого подхода - большое количество дуг в Def-Use графе и большое время расчета этого дерева.

S1 X= S2 X= S3 X=

S4

S5 =X S6 =X S7 =X

Пример иллюстрирует эту проблему. Определения в S1, S2, S3 проходят через вершину S4. Поскольку каждое определение достигает каждого использования, то в данном частном случае возникает 9 дуг. Для того, чтобы решить эту проблему, была предложена SSA форма.

10/17/10

SSA (Static single assignment form)

SSA форма предполагает уникальное имя для каждого определения переменной и введение специальных псевдо-присваиваний.

X1= X2= X3=

=X4 =X4 =X4

S1 S2 S3

S4

S5 S6S7

X4=φ(X1,X2,X3)

10/17/10

SSA призвана избавить разработчиков от необходимости строить сложные use/def цепочки для локальных переменных. Сила SSA заключается в том, что каждая переменная имеет только одно определение внутри программы. Поэтому use/def цепочка очевидна. SSA представление вводит специальные Phi-функции в местах, в которых возникает неопределенность, для создания новой переменной. Это так называемые псевдо-присваивания.

При построении необходимо расставить Phi – функции и породить новые уникальные переменные.

Новые переменные порождаются путем добавления к имени переменной уникального варианта.

Для того, чтобы правильно вставить Phi функции, нужно рассмотреть некоторые понятия теории графов.

http://en.wikipedia.org/wiki/Image:SSA_example1.1.png

http://en.wikipedia.org/wiki/Image:SSA_example1.3.png

10/17/10

Границей доминирования (Dominance frontier) - узла x называется множество всех таких узлов w, что x доминирует над узлами, являющиеся предками узла w, но не является строгим доминатором узла w.

Другими словами, это граница между доминируемыми и недоминируемыми узлами.

Пример: Dom[5] = {5,6,7,8}DF[5] ={5,4,12,11}

1

2

3

4

5

6 7

8

9

11

11

12

5

6 7

810

Доминатор – узел N - доминирует над узлом M, если все пути к М идут через N.Узел N непосредственный доминатор M, если он последний доминатор на любом пути от входа до M.

10/17/10

В SSA форме каждое определение переменной должно доминировать над использованием переменной.

• Построение множества доминаторов для каждого базового блока.

Правило: Множество доминаторов для узла N есть пересечение множества доминаторов всех его предшественников и сам узел (множество доминаторов вершины содержит ее саму).

Строгий доминатор N, это доминатор !=N. Непосредственный доминатор – это ближайший узел из множества доминаторов.

idom(N) – непосредственный доминатор базового блока Nchildren(N) – множество базовых блоков для N, которые он доминирует

2

3

4

5

6

10/17/10

если блок N содержит определение переменной a, то всякий узел на границе доминирования узла N требует Phi функции для a. Каждая Phi функция - это тоже определение, поэтому необходимо применять критерий границы доминирования до тех пор, пока ни один блок более не требует вставки Phi функции.

B=A

A=x

A_2=φ(A_1,A_3)

B=A_2

A_3=x

Вставка φ функции для вершины 5 из схемы на слайде 20.

Критерий границы доминирования

10/17/10

2.) Введем 2 множества:DFlocal[n]: множество потомков узла n, для которых n не является строгим доминатором (Этот признак легко

определить для узла n.)DFup[n]: множество вершин в границе доминирования n, не доминируемыx непосредственным доминатором n

(нужно знать DF(n) чтобы построить это множество)Тогда: DF [n] = DFlocal[n] U (Uc DFup[c]),Uc – объединение по с из children [n] – узлы, непосредственным доминатором которых является узел n.Из этой формулы видно, что если узел не доминирует другие узлы (children[n] ={}) – вычисление DF –

тривиальная задача.

1

2

3

4

5

6

8

9

11

12

5

6 7

810

DF[5]={}U(DFup[6]UDFup[7]UDFup[8])

DF[5]={}U{4}U{11}U{5,12}={4,5,12,11}

children[8]={}; DF[8]={5,12}; Idom[8]={5}; DFup[8]={5,12}

children[6]={}; Idom[6]={5} ; DFlocal[6] = {4,8};

DFup[6]={4} так как Idom[8]={5}

chilren[7] ={}; Idom[7]={5}; DFlocal[7]={8,11}; DFup[7]={11} так как Idom[8]={5}

10/17/10

Алгоритм расчёта границы доминирования

computeDF(n) { s <- {};foreach(y from succ[n]) if(idom(y) !=n ) s U {y};foreach(c from children[n]) { computeDF(c); foreach(w from DF(c)) if(!(n dom w)) s U {w};}DF[n]=s;

10/17/10

1

2 3

5

6

4

A=X (A from Def(3))

Необходима ли φ функция для A в узле 6?

Функция φ необходима, поскольку при обработке определения А в узле 3 мы вставляем в узел 5 φ функцию для A, а она также

является определением.

10/17/10

Алгоритм вставки Phi функцийAorig[n] – множество определяемых переменных блока nforeach (n) foreach(a from Aorig[n]) defsites[a] =defsites[a] U {n}Определили все базовые блоки, где определяется переменная a.foreach(a) { w =defsites[a]; while(w isn’t empty) { take n from w; foreach (Y from DF[n]) { if(Y !from Aφ[n]}){ insert a=φ(a1,…,ak) at top of Y; Aφ[n] = Aφ[n] U {Y}; } if(Y !from Aorig[n]) w = w U {Y};}После этого обходится дерево доминирования, и выставляются правильные

номера версий для переменных.

10/17/10

Оптимизации, с использованием SSA формы

Удаление мертвого кода. (Dead code elimination)

Если переменная a_ver не используется, то на удаляется.

Продвижение констант (Constant propagation)

Если в коде программы есть присвоение a_ver=const, то все использования a_ver заменяются на const.

Если в коде программы есть a_next=φ(с,c), заменяем φ на с.

Продвижение копий (Copy propagation)

Если в коде программы есть присвоение a_n=b_k, заменяем все использования a_n на b_k.

Если в коде программы есть присвоение a_n=φ(b_k,b_k), заменяем a_n на b_k.

10/17/10

Спасибо за внимание!

Оптимизирующий компилятор

Documents