Москва 2008
DESCRIPTION
Институт точной механики и вычислительной техники имени С. А. Лебедева РАН. Московский физико-технический институт. Специализированное вычислительное устройство для обработки радиолокационной информации. Д.Д. Николаев , М.Л. Ремизов, А.В. Ростовцев, Чинь Куанг Киен. Москва 2008. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/1.jpg)
Москва
2008
Специализированное вычислительное устройство для
обработки радиолокационной информации
Московский физико-технический институтИнститут точной механики и вычислительной техникиимени С. А. Лебедева РАН
Д.Д. Николаев, М.Л. Ремизов, А.В. Ростовцев, Чинь Куанг
Киен
![Page 2: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/2.jpg)
Постановка задачи
Рекурсивное вычисление комплексной 64-мерной матрицы:
,IR 10
,nnn
~n
nn z~zzy
RR
111
1
,nnn yRz 11
n = 1, 2,…128
![Page 3: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/3.jpg)
Требования по производительности
За 5 секунд необходимо выполнить вычисление матрицы 1728 раз.
Вычисления программным способом > 43 мин.
![Page 4: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/4.jpg)
Этапы вычислений
nnzy~
1
k
nnnn z~wRR
11
1
ЭтапОперации
и объемвычислений
1 64х64 MAC
2 1x64 MAC
3 1DIV
4 wn= -kzn 64 MUL
5 64х64 MAC
nnn yRz 11
![Page 5: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/5.jpg)
5
Варианты реализации
• фиксированная запятая: простой алгоритм малый объем оборудования малая производительность проблема диапазона и точности• плавающая запятая: сложный алгоритм большая трудоемкость большой объем оборудования большая производительность автоматическое решение проблемы диапазона и точности
Выбран вариант с плавающей запятой
![Page 6: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/6.jpg)
6
Формат чисел
s знак
e порядок
m мантисса
31 0
1 разряд 7 разрядов 24 разряда
Порядок 7 разрядов Скрытый бит мантиссы представлен в явном виде Округление только к ближайшему Нет специальных значений Нет денормализованных чисел (при underflow - flush to zero)
Предложенный формат:
Результат вычисления матрицы R^-1 в нашем формате совпадает с вычисленным в IEEE 754 single
![Page 7: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/7.jpg)
7
Комплексный MAC - Multiply & Accumulate
FP
A1
B
FPMUL1
MU
X2A
D MU
X1
MU
X3
C
E
FP
A2
MU
X4
MU
X5
F
FPMUL2
acc_re
acc_im
(А + (А + BiBi)()(CC + + DiDi)+ )+ EE + + FiFi
![Page 8: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/8.jpg)
8
Комплексный MAC - Multiply & Accumulate
FP
A1
B
FPMUL1
MU
X2A
D MU
X1
MU
X3
C
E
FP
A2
MU
X4
MU
X5
F
FPMUL2
acc_re
acc_im
(А + (А + BiBi)()(CC + + DiDi)+ )+ EE + + FiFi
C
AC
BC
AC + E
BC + F
![Page 9: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/9.jpg)
9
Комплексный MAC - Multiply & Accumulate
FP
A1
B
FPMUL1
MU
X2A
D MU
X1
MU
X3
C
E
FP
A2
MU
X4
MU
X5
F
FPMUL2
acc_re
acc_im
(А + (А + BiBi)()(CC + + DiDi)+ )+ EE + + FiFi
D
AD
BD
AC + E - BD
BC + F + AD
AC + E
BC + F
![Page 10: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/10.jpg)
10
Структурная схема вычислителя
MAC1
……
.
MACRzn
1k=
a
Memory64x64x32x2
MU
X1
RECIPR
MU
X21
MU
X3
MAC2
MU
X2
2
MAC64
MU
X26
4
acc1
acc2
acc64
acc1
acc2
acc64
32x2x64
64x3
2x2
32x2
32x2
32x2
32x2
32x2
-znk32x2SHRZ
-k
-k 32
R-1n
……
.…
….
A
C
C
C
A
A
B
B
Bacc=A? B+
C
acc=A? B+C
acc=A? B+C
CI2F
19x2
<? 17>
MU
X4
12x2
A
B
C
acc 32
Con z
32x2
32x2
MU
X5
acc
SHRI
“1”
acc=A? B+C
64
32x2x64
R-1n-1 R-1
n-1
z
32x2x64
32x2x64
32x2x64
32x2x64
32x2x64
MUX6
MUX7
R-1n-1
<vector_out 32
32x2x64
nnzy~
Control Unit<Start
stage<addr_y
iny<
inz
i *n(y )
-znk
inz
i *n(z )
32x2
iny
![Page 11: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/11.jpg)
11
Прототип
Прототип создан на базе FPGA Virtex-5 xc5vlx330
Использовано • Триггера 25118 из 207360 12% • LUT 111907 из 207360 53%
f = 200 МГц
Вычисление одной матрицы < 1 мс
Производительность ~6,5 млрд. операций с плавающей запятой в секунду
![Page 12: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/12.jpg)
12
Пути повышения производительности
полная конвейеризация использование MAFбыстрый алгоритм умножения (без итераций)быстрый алгоритм MACиспользование нескольких узлов MACR
Эффект - увеличение производительности в 5-10 раз
![Page 13: Москва 2008](https://reader034.vdocuments.mx/reader034/viewer/2022042703/568136ec550346895d9e80f9/html5/thumbnails/13.jpg)
13
Пути повышения точности
• увеличение разрядности мантиссы• уменьшение количества округлений:
• одно округление на умножение и сложение• одно округление на два умножения и сложение