fundamental intelligencebayanbox.ir/view/3784932824693424466/neural-yazdeng.ir1.pdf · fundamental...
TRANSCRIPT
Fundamental intelligence
Machine
Learning
Computational neural
Computational fuzzy
Computational evolutionComputational
intelligence
Multi-agent
systemsExpert sysyetm
Swarm intelligence
دانشکده برق-دانشگاه خواجه نصیرالدین طوسی
بسمه تعالی
دانشکده برق-دانشگاه خواجه نصیرالدین طوسی
عصبیهایشبکه
فهرست مطالب
3
مقدمه ای بر شبکه های عصبی : فصل اول
شبکه های عصبیارائه ساختارهای مختلف : فصل دوم
شار خطابر اساس الگوریتم پس انتارائه مفاهیم پایه در آموزش شبکه های عصبی : فصل سوم
بررسی روشهای مختلف آموزش در شبکه های عصبی: فصل چهارم
بهبود الگوریتم پس انتشار خطا:پنجم فصل
شبکه های عصبی بازگشتی: فصل ششم
فهرست مطالب
4
گاماورهای حافظه داشبکه : فصل هفتم
شبکه های عصبی مدل مخچه: فصل هشتم
عصبی بیزینشبکه : فصل نهم
مثلثاتیعصبیشبکه : فصل دهم
شبکه عصبی ویولت: فصل یازدهم
کانولوشنالشبکه عصبی : دوازدهم فصل
ستم هاکاربرد شبکه های عصبی در شناسایی، پیش بینی و کنترل سی: فصل سیزدهم
5
مقدمه ای بر شبکه های عصبي : فصل اول
سیستم های پیچیده
6
یکدیگرابهابخشکلیهکهاندشدهتشکیلمختلفهایبخشازپیچیدههایسیستموکنشدروهستندارتباطدرخارجباهاسیستمهایبخشهمچنینوارتباطنددر
.باشندمیواکنش
پیچیدههایسیستمانواع(هواییودریاییزمینی،)نقلوحملهایسیستم(جهانیومحلیای،منطقه)هواشناسیهایسیستموآنهابینارتباطوتخصصهاها،بخش)بیمارستانیهایسیستم
(...وبیمهودیگربیمارستانهایدرخواستها،نیازها،چونتأثیرعواملیتحت)اقتصادیهایسیستم
(.باشدمی...بحرانهاوموجودیهاوفردیامکاناتوفقردارایی،تحصیالت،مختلف،فرهنگهای)جوامع
(اجتماعی(باشدمی...وسلولهامخچه،مغز،شامل)بیولوژیکیهایسیستم
7
شبکه عصبی:یکیبیولوژهایماشینشناسیرفتاراساسبرعصبیهایشبکه
.استشدهطراحیزندهموجودات
هدف از شبکه های عصبی مصنوعی:نرمو(مدارات)افزارهاسختازاستفادهجهتروشهائیارائه
ها،دستگاهبههوشمندهایقابلیتایجادبرای(هاالگوریتم)افزارهاندفرآیحینیادگیریبهقادرکهباشدمی....غیرهوهابرنامهها،روبوت
.باشدمیچگونگینحوهوهاالگوریتمبافقطآشناییهدفدرسایندر
راستاایندرکهباشدمیافزارسخت/نرمبهآننمودناضافه.باشندمییادگیریبهقادر(الگوریتم)هابرنامه
8
چیست؟هوشمفهومواقعدرکهانسانمغزعملکرددربارهاندنتوانستهکنونتامحققاناینکهبهتوجهبا
اخصوصزندهموجوداتبیولوژیکیماشین(فرماناتاق)تحلیلوتجزیهمحلنمیذیرپامکانسادگیبهسوالاینبهپاسخلذا،نمایندارائهواقعیتعریفانسانیکیبیولوژماشینحالهردر.نمودارائهشفافوروشنپاسخیتواننمیوباشد
:دادقراربررسیموردتوانمیزیرهایقابلیتبارا
9
چیست؟هوشمفهوم
واهدادهازترکیبییاالگوهایاو(اطالعات)هادادهدریافتطریقازپذیریآموزشیهاالگوآنهانمودنبازسازیقابلوغیرهوآموزشتجربیاتنمودننگهداریحافظهدر.هگذشتدیدهآموزشتجربیاتویادگیریبراساسمنطقیومناسبگیریتصمیم.حالوگذشتهواقعیتوجودبراساس(احساسات)نظرابراز.جمعیوفردینیازهایبراساسدرونیپذیریشکل/هیسازماندهخود.ریابهوایمثال،عنوانبهگذشته،آموزشبراساسالگوهامنطقیکردنبرقرارارتباط
.کندمیتداعیانسانذهندررابارندگیوجودامکانازتصویریمناسبیالعملعکسیکخودازخارجیهایمحرککهنحویبهمناسبپاسخیارائه
.دهندارائه
بررسی ساختمان سلول عصبی بیولوژیک
10
شکل و ساختمان جسم سلولی نورون سوما(soma)cell body
دندریت(dendrite)input cell
آکسون(axon)output cell
Biology Inspiration
Human nervous system is built of cells callneuron Each neuron can receive, process andtransmit electrochemical signals Dendritesextend from the cell body to other neurons,and the connection point is called synapseSignals received among dendrites aretransmitted to and summed in the cell body Ifthe cumulative excitation exceed a threshold,the cell fires, which sends a signal down theaxon to other neurons
11
Cell body
Axon
Synapse
Dendrites
• Neurons respond slowly
– 10-3 s compared to 10-9 s for electrical circuits
• The brain uses massively parallel computation
– »1011 neurons in the brain
– »104 connections per neuron
12
ها و تاریخچه آنهای عصبی و قابلیتای بر شبکهمقدمه
13
های عصبی چیست؟مفهوم پایه شبکههای عصبی قابلیت یادگیری دارند؟چرا شبکههای عصبی قابلیت تعمیم پذیری ساختار دارند؟چرا شبکه
بدنمختلفهایقسمتدراعصابومغزرفتارازتقریبیعصبیهایشبکه.هستندزندهموجودات
باشندمیکاربرداساسبرمختلفهایقابلیتدارایعصبیهایشبکه.آموزشدارایلحظهیکدرکهاستموازیپردازشگریکعصبیهایشبکه
.باشندمیاعمالو
های عصبیارزش و قابلیت یادگیری در شبکه
14
هستنداطالعاتودادهازارزشمندوقویمحاسباتدارای.باعثهستندزیادهایالیهوهانروندارایکهعصبیهایشبکهساختاردر
زمانولیشوندمیعصبیسیستمدرزیادآزادیدرجهوپذیریانعطاف.شدخواهدترطوالنیمحاسبات
باشندمیپذیریتعمیمواصالحدرزیادتواناییدارای.هستندنویزواغتشاشحذفقابلیتدارای.
ددارنراکاربردپایهبرهوشمندپذیرتطبیقالگوریتمتولیدقابلیت.
ویژگیهای شبکه های عصبی
15
بیعصهایشبکهازمتنوعیهایالگوریتموساختاربامختلفهایمدلتاکنوناهمدلاینتمامامادارند،تفاوتیکدیگرباهامدلاینندچهرواستشدهارائهیلتشککهعصبیهایسلولکلیطوربه.کنندمیدنبالرامشترکهدفیک
ایاجزازکههستند،محاسباتیهایماشینباشندمیعصبیشبکهیکدهنده:زیرندخواصدارایوشوندمیتشکیلایزنجیرهو(سلول)ساده
پذیریتطبیقویادگیریقابلیتپذیریتعمیمقابلیتموازیپردازشبودنمقاومعمومیتقریبقابلیت
16
پذیریتطبیقویادگیریقابلیت
منظورینابرای.عصبیشبکهپارامترهایتنظیمتوانایییعنییادگیریقابلیتنمونهایناساسبرراپارامترهاشبکه،کنندمیاعمالشبکهبهرااولیههاینمونه
شآموزطریقاینبهکهشبکهاینبهجدیدهاینمونهاگر.کندمیتنظیمها.آوردبدستتوانمیکچکوخطایدرصدبارامناسبخروجیشود،اعمالدیده،
شمندانه،هوصورتبهشرایطتغییرباتوانندمیعصبیهایشبکهترتیباینبا.نمایداصالحیاتطبیقراخود
17
پذیریتعمیمقابلیت:مقابلدرتواندمیشبکهشد،دادهآموزششبکهبهاولیههاینمونهآنکهازپس
تولیدمناسبخروجییکوگیردقرار(جدیدورودیهای)نشدهدادهآموزشورودیهایبهستنیدرونیاییفرایندجزچیزیکهتعمیم،مکانیسماساسبرخروجیاین.نماید.آیدمیدست
موازیپردازش:ترازکیدرکهسلولهاییشودمیپیادهافزارسختقالبدرعصبیشبکهکههنگامی
ژگیویاین.دهندپاسخترازآنورودیهایبههمزمانطوربهتوانندمیگیرندمیقرارکلیوظیفهسیستمی،چنیندرواقعدر.شودمیپردازشسرعتافزایشباعث
.گرددمیتوزیعیکدیگرازمستقلکوچکترهایپردازندهبینپردازش
18
بودنمقاوم:درواقعدباشمیشبکهدرسلولهررفتارازمستقلآنکلیرفتارعصبیشبکهیکدر
امراینهکباشدمیشبکهسلولهایتکتکمحلیرفتارهایبرآیندشبکهکلیرفتاراین.بماننددورنهاییخروجیچشمازسلولهامحلیهایخطاتاشودمیباعث
.گرددمیعصبیشبکهدربودنومامققابلیتافزایشباعثخصوصیت
عمومیتقریبقابلیت:الیههاینرونتعدادکهآنشرطبهمخفیالیهچندیایکباالیه،چندعصبیهایشبکه
ایفضدرراایپیوستهخطیغیرتابعهرتوانندمیباشند،داشتهکافیمخفیها.بزنندتخمینترکیبی
19
Aerospace High performance aircraft autopilots, flight
path simulations, aircraft control systems, autopilot enhancements, aircraft component simulations, aircraft component fault detectors
Automotive Automobile automatic guidance systems,
warranty activity analyzers
Banking Check and other document readers, credit
application evaluators
Defense Weapon steering, target tracking, object
discrimination, facial recognition, new kinds of sensors, sonar, radar and image signal processing including data compression, feature extraction and noise suppression, signal/image identification
Electronics Code sequence prediction, integrated
circuit chip layout, process control, chip failure analysis, machine vision, voice synthesis, nonlinear modeling
Applications
20
Applications
Financial Real estate appraisal, loan advisor, mortgage screening, corporate
bond rating, credit line use analysis, portfolio trading program, corporate financial analysis, currency price prediction
ManufacturingManufacturing process control, product design and analysis, process
and machine diagnosis, real-time particle identification, visual quality inspection systems, beer testing, welding quality analysis, paper quality prediction, computer chip quality analysis, analysis of grinding operations, chemical product design analysis, machine maintenance analysis, project bidding, planning and management, dynamic modeling of chemical process systems
Medical Breast cancer cell analysis, EEG and ECG analysis, prosthesis design,
optimization of transplant times, hospital expense reduction, hospital quality improvement, emergency room test advisement
21
Applications
Robotics Trajectory control, forklift robot, manipulator controllers,
vision systems
Speech Speech recognition, speech compression, vowel
classification, text to speech synthesis
Securities Market analysis, automatic bond rating, stock trading
advisory systems
Telecommunications Image and data compression, automated information
services, real-time translation of spoken language, customer payment processing systems
Transportation Truck brake diagnosis systems, vehicle scheduling,
routing systems
22
: فصل دوم
عصبيشبکه های ارائه ساختارهای مختلف Multi-layer Perceptron (MPL)
23
هر شبکه عصبی دارای سه ویژگی زیر می باشد:
(نوع تابع)مدل سلول عصبی (نوع توپولوژی)ساختار شبکه عصبی (نوع آموزش)آموزش در شبکه عصبی
خودسازماندهی ساختار درحین آموزش
مدل سلول عصبی
توابع انتقال
هاییارمعبایدوداردبستگیشدهانتخابکهایویژهانتقالتابعبهواقعیخروجی.کندبرآوردهرا،شودمیاستفادهآنحلبرایعصبیسلولکهایمسئلهنظرمورد:ازعبارتندآنهاترینپرکاربردازنوعسه
محدودسختانتقالتابعخطیانتقالتابعسیگموئیدلگاریتمیانتقالتابع
24
توابع انتقال
ازعموماست،اپذیرمشتقتابعیکسیگموئید،لگاریتمیانتقالتابعکهآنجاییازانتشارپسالگوریتمازاستفادهباکهشودمیاستفادهایالیهچندهایشبکهدرآن
صورتبهتابعاینازاینمونه.پذیرندمیآموزش(Backpropagation)خطا:استزیر
ینهایتبمنفیبینمقداریهرتواندمیانتقالتابعاینورودیعبارت،اینمطابق.استشدهمحدود1وصفربازهدرآنخروجیحالیکهدرباشدبینهایتمثبتتا
g
ea
gnet1
1
مدل سلول عصبی
25
26
توابع انتقال
logsig(n) = 1 / (1 + exp(-n))hardlim(n) = 1 if n >=0
=0 otherwise
poslin(n) = n, if n >= 0
= 0, if n <= 0
hardlims(n) = 1 if n >= 0, -1 otherwise.
27
توابع انتقال
purelin(n) = n
satlin(n) = 0, if n <= 0
= n, f 0 <= n <= 1
=1, if 1 <= n
satlins(n) = -1, if n <= -1
= n, if -1 <= n <= 1
= 1, if 1 <= n
28
توابع انتقال
tansig(n) = 2/(1+exp(-2n))-1tribas(n) = 1 - abs(n), if -1 <= n <= 1
= 0, otherwise
radbas(n) = exp(-n^2)
ورودیتکعصبیسلولمدلمقایسهمدادیشرحاینازپیشکهبیولوژیکیعصبیسلولباراسادهمدلایناگر
عتابوجمععملوسیلهبهسلولبدنهسیناپس،باداردمطابقتwوزنکنیم،.استآکسونسیگنالنمایانگرaهمانیاعصبیسلولخروجیوشدهبیانانتقال
29
مدل سلول عصبی
سلول عصبی چند ورودیمجزاهایورودیازکدامهر.داردورودییکازبیشعصبیسلولیکعموما
صورتبهراهاورودیتوانمیبنابراین.شوندمیضربخودمتناظروزندر.نمودتعریفWماتریسصورتبهراهاوزنوpبردار
30
عصبی با چند ورودیمدل سلول
مدل سلول عصبی با چند ورودی و چند خروجی
31
عصبیساختار های شبکه
عصبیسلولازالیهیک
زیادهایورودیباحتیعصبی،سلولیکبهمعموال.نکندبراوردهرامانیازاستممکن
دکننمیعملموازیصورتبهکهآنهاازتعدادیگفتهالیهیکشبکهیکآنبهکهباشدمینیار.شودمی
32
Layer of Neurons
33
Abbreviated Notation
34
ساختار شبکه عصبی چند الیه
R – S1 – S2 – S3 Network35
ساختار های شبکه
عصبیهای چند گانه از سلول الیه
خود،bبایاسبردارخود،ویژهWوزنماتریسالیههرالیه،چندشبکهیکدرالیه.داردراخودویژهaخروجیبرداریکوخودبهمربوطnورودیبرداریکروجیخکهایالیه.باشندداشتهمتفاوتیهاینرونتعدادتوانندمیمختلفهایهالیدیگر،هایالیه.شودمینامیدهخروجیالیهیکاست،شبکهخروجیآن،
هالیتکهایشبکهازترقدرتمندالیهچندهایشبکه.دارندنامپنهانهاییکودسیگموئیاولالیهیکشاملکهالیهدوشبکهیکنمونه،برای.هستند
وزشآماختیاریتوابعاکثرتقریبمنظوربهتواندمیباشد،میخطیدومالیه.دارندالیهسهیادوتنهاکاربردیهایشبکهبیشتر.شودداده
36
37
x1
x2
x3
1
1n
1
2n
2
1n
First
active layer
Second
active layer
1
1o2
1o
1
1o
(a) General structure with two activation layers
1W2W
2
1f
1
2f
1
1f
11w
12w
13w
∑
1
0x
1
10w
1
1n
21w
22w
23w
∑
1
0x
1
20w
1
2n
)2(
11w
)2(
12w
∑
2
0o
2
10w
2
1nx1x2x3
1
1o
1
2o
2
1o
1
1neuron
1
2neuron
2
1neuron
(b) Specific structure with two activation layers
1
1F
1
2F
2
1F
)( 0nRx
1w 2w1n 2n1o
)( 2nRy)0(1F )0(2F
Nonlinear mapping
)( 0nRx xwFwF 1122
)( 2nRy
4.3 : Two-layered neural network: nonlinear mapping for input ( ) to
output ( )
)( 0nRx
)( 2nRy
x0 =1
∑
1
1w
1
1n
1
1e
1
2w
1
2n
1
2e
1
1nw
1
1nn
1
1ne
2
1w
2
1n
1e
2
2w
2
2n
2e
2
2nw
2
2nn
2ne
1e
∑
∑
2e
2ne
2nd
2d
1d
2
1o
2
2o
2
2no
1x
2x
0nx
1
1f
1
2f
1
1nf
1
1neuron
1
2neuron
1
1nneuron
2
1neuron
2
2neuron
2
2nneuron
First activation layer Second activation layer
(Hidden layer) (Output layer)
1
1o
1
0o
1no2no
2
1o
2
0o
Neural
inputs0n
Rx
Neural
outputs
2nRo
A two-layered feedforward neural network : n1 hidden neurons, and n2 output neurons
0
0]..................[ 1
nT
ni Rxxxx 1
1]...................[ 1
nT
ni Roooo
1X
0nX
0X
1w
)1( 0n
Rx
1e
1n(.)1F
2w
)1(1 1n
Ro
∑
22 2n
Ro
e
2 nRd+_
4.8 : The matrix representation of backpropagation learning for two-layered
feedforward neural network with linear output neurons
(.)2F
Backpropagation part
Feedforward part
43
O1n
0
0
0
O12
O11
W1 W2
Xc1
Xc2
.
.
.
Xcn2
X1
X2
.
.
.
Xn1
.
.
.
f1
f1
f1
.
.
.
f2
f2
f2
d1
d2
.
.
.
dn
.
.
.
45
:فصل سوم
ارائه مفاهیم پایه در آموزش شبکه های عصبی
الگوریتم پس انتشاربر اساس
شبکه های عصبی قوانین یادگیری
مربیبدونیادگیریتقویتییادگیریمربیبایادگیری
46
مربیبایادگیری
(زشیآمومجموعة)مثالهاییمجموعةوسیلهبهیادگیریقانونمربیبایادگیریدر:شودمیایجادشبکه،مناسبرفتارهایاز
{x1 , t1} , {x2 , t2} , … , {xQ , tQ}
الگوریتم انتشار به عقب
لمسائحلبهقادرکهالیهچندپرسپترونهایآموزشدرتواندمیالگوریتماینآموزشقبعبهانتشارالگوریتمباکهالیهچندپرسپترون.رودبکارهستندغیرخطی
استفادهدهگسترطوربهکهاستعصبیشبکهترینپرکاربردحاضرحالدرباشددیده.شودمی
تابعتقریبفراوانیردهایکاربدینامیکیسیستمهایکنترلروشناساگرعنوانبهعصبیشبکه های
ناختهشعمومیگرتقریبیکعنوانبهالیهچندپرسپترونعصبیشبکه های.دارندواسبمنبسیارگزینهیکعنوانبهکهاستنهفتهآنهادرقابلیتاینومی شوند
طیغیرخسیستمهایمدلسازیوشناساییهمچنینوغیرخطیکنترلجهتمشهور.هستندمطرح
مثالبرای.روندمیکاربهتوابعهایزنندهتقریبعنوانبهعصبیهایشبکهبنابراینایهخروجیکهاستمناسببازخوردتابعیکیافتنهدفکنترل،سیستمهایدر
.کندنگاشتکنترلهایورودیبهراشدهگیریاندازه47
عقببهانتشارالگوریتممبنایبرآموزشروش
.دهدمیتشکیلرابعدیالیهورودیالیه،یکخروجیالیه،چندهایشبکهدر
os+1 = f s+1 ( Ws+1 o s + b s+1 ) For s= o,1,…, M-1
48
الگوریتم انتشار به عقب
عملکردشاخص.باشدمیمربعاتمیانگینخطایالگوریتم،ایندرعملکردشاخص
J(x) = E[eTe] = E[(t-o)T(t-o)]
نزولشیبدارترینالگوریتم(GD)میانگینخطایتقریببرای(w)
)()()( 1 kOkWknet ss
i
s
i
49
الگوریتم انتشار به عقب
For s=1, It means in first active layer the summation of weigthed input is;
)()()( 011 kOkWkNet
of is;
The size 1
01 Wnn
50
1W
0111,1
0
0
010
010
,3,2,1
,41,4
,32,31,3
,1,23,22,21,2
,1,13,12,11,1
...,,.........,,
......................
......................
.,....................,.........
....,..........,.........,
,,.....,,,
,,......,,,
nnnnn
n
n
nn
nn
wwww
ww
www
wwwww
wwwww
of is;
The size 0
0 On
51
0O
0
0 1
4
3
2
1
.
.
n
n
x
x
x
x
x
x
1O
52
1
1
1
1
3
1
2
1
1
1
1
1
1
3
1
2
1
1
1
1
1
1
3
1
2
1
1
1
1
1
1
1
1
......
......
(.),0,0,0,0,0,0
0(.),,0,0,0,0,0
..........................
..........................
0,0,0,0(.),,0,0
0,0,0,0,0(.),,0
0,0,0,0,0,0(.),
.
.
n
n
n
n
n
n
net
net
net
net
net
f
f
f
f
f
o
o
o
o
o
:
نزولشیبدارترینالگوریتم(GD)میانگینخطایتقریببرای(w)
)()()1( ,,, kwkwkw m
ji
m
ji
m
ji
53
الگوریتم انتشار به عقب
w
m
ji kw )(,)()(
)( 1
,
koksw
kJ m
j
m
im
ji
)(
)()(
knet
kJks
m
i
m
i
)(
)()(
,
1
kw
knetko
m
ji
m
im
j
نزولشیبدارترینالگوریتم(GD)خطایتقریببرای(b)میانگین
54
الگوریتم انتشار به عقب
b
m kb )( m
im
i
sb
J
)()()1( kbkbkb m
i
m
i
m
i
)(
)()(
kb
kJks
m
i
m
i
ایزنجیرهقانونمینپنهانهایالیهدرهاوزنازصریحیتابعخطاالیه،چندشبکهبرای.نیستندمحاسبهقابلآسانیبهمشتقاتبنابراینباشد،
m
ji
m
i
m
i
m
ji w
net
net
J
w
J
,,
m
i
m
i
m
i
m
i b
net
net
J
b
J
55
الگوریتم انتشار به عقب
m
i
m
j
S
j
m
ji
m
ji bownet
m
1
1
,,
1
1,1
,
m
i
m
im
jm
ji
m
i
b
neto
w
netm
i
m
inet
Js
1
,
m
j
m
im
ji
osw
J
m
im
i
sb
J
1
,, )()1( m
i
m
i
m
ji
m
ji oskwkw
m
i
m
i
m
i skbkb )()1(56
الگوریتم انتشار به عقب
ایزنجیرهقانون
:داریمنیازایزنجیرهقانونازدیگریکاربردبههاحساسیتمحاسبهبرای
)()(
1
,
1
,
1
,
1
11
,1
m
j
mm
jim
j
m
j
m
m
ji
m
j
m
jm
jim
j
s
l
m
i
m
l
m
li
m
j
m
i
nfwn
nfw
n
aw
n
baw
n
n
m
m
j
m
j
m
m
j
m
n
nfnf
)()(
57
الگوریتم انتشار به عقب حساسیت ها
ازراخودامنعقببهانتشارالگوریتمکهکنیممشاهدهرابخشیتوانیممیاکنونالیهناولیبهالیهآخرینازعقبسمتبهشبکهدرهاحساسیت.استگرفتهآن
:یابندمیانتشار
11
1
1
1
1
))((
ˆ))((
ˆˆ
mTmmm
m
Tmmm
m
T
m
m
m
m FFF
sWnF
nWnF
nn
n
ns
121ssss MM
58
الگوریتم انتشار به عقب حساسیت ها
:آیدمیدستبهزیرمعادلهازقبل،معادلهبازگشتیارتباطبرایآغازنقطه
M
i
i
iiM
i
s
jjj
M
i
T
M
i
M
in
aat
n
at
nn
Fs
M
)(2
)()()(ˆ
1
2
atat
)()(
M
j
M
M
i
M
j
M
M
i
M
i
M
i
i nfn
nf
n
a
n
a
)()(2 M
j
M
ii
M
infats
))((2 atnFs MMM
59
الگوریتم انتشار به عقب حساسیت ها
شبکهساختارانتخاب
بهوندشاستفادهتابعیهرتقریببرایتوانندمیتقریباالیهچندهایشبکهاهیمبخواگر.باشیمداشتهپنهانهایالیهدرنورونکافیتعدادبهکهشرطیآنندنیازمدارد،خمیدگینقطهزیادیبسیارتعدادکهبزنیمتقریبراتابعی
.باشیمداشتهپنهانالیهدرنورونزیادیبسیارتعدادکهبودخواهیم
60
الگوریتم انتشار به عقب
همگراییباشیممطمئنتوانیمنمیشود،میهمگراعقببهانتشارالگوریتمکههنگامی
بهرامتفاوتاولیهوضعیتچندینکهاستاینبهتر.داریمبهینهجوابیککه.کردامتحاناست،آمدهدستبهبهینهجواباینکهازاطمینانمنظور
61
الگوریتم انتشار به عقب
دادنتعمیمتعمیم(یورودجمعیت)هاحالتکلیهبهاستگرفتهیادراآنچهبتواندبایدشبکهنقاطازکمتریهایپارامتربایددهدتعمیمبتواندشبکهیکاینکهبرای.دهدتمامدرعصبی،هایشبکهدر.باشدداشتهآموزشمجموعهدرموجودداده
بتواندکهکنیماستفادهایشبکهترینسادهازخواهیممیماکردن،مدلمسائل.دهدارائهراآموزشمجموعهمناسبطوربه
گوریتمالحالهربه.بودعصبیشبکههایپژوهشدربزرگجهشیکعقببهانتشارالگوریتم.استکندبسیارعملیهایکاربرداکثربرایپایه
عقببهانتشارایرادهایواشدبمحلیکمینهنقطهچندینشاملاستممکنالیهچندشبکهیکبرایکاراییسطح
انحناهکمسائلیدر.کندتغییرکامالپارامترفضایازمختلفنواحیدرتواندمیآنانحنایآموزشتمالگوریبرایمناسبآموزشنرخیکانتخابکند،میتغییرپارامترفضایرویشدیدابرایدرحالیکهباشدمینیازبزرگآموزشنرخیکمسطحنواحیبرای.بودخواهدمشکل.هستیمکوچکآموزشنرخیکنیازمندزیادانحنایبانواحی
عقببهانتشارالگوریتمبهبودجهتهاییرویهآنیجنبش
اینکهدهدمیبهبودراهمگراییپارامترهافضایمنحنینوساناتکردنهموارباروشاین.دادانجامگذرپایینفیلتریکازاستفادهباتوانمیراکار
62
اصالح های اکتشافی الگوریتم انتشار به عقب
گذرپایینفیلتراستفادهازمثالیآنیجنبشضریبوفیلترخروجیy(k)وفیلترورودیw(k)زیرفرمولدر
.است
اینیرتاث.استشدهگرفتهنظردرسینوسیموجفیلترورودیمثالاینبرای:شودمیدیدهزیرشکلهایدرفیلتر
)()γ1()1(γ)( kwkyky
γ
1γ0
63
اصالح های اکتشافی الگوریتم انتشار به عقب
a) γ=0/9
1
0/5
2
1/5
00 50 100 150 200
1
0/5
2
1/5
00 50 100 150 200
b) γ=0/98
16
π2sin1)(
kkw
عصبیشبکهدرموردگذرپایینفیلترازاستفادهاضافههابایاسوهاوزنرسانیروزبهدرپارامترتغییراتبهآنیجنبشفیلترکهزمانی
:آیدمیدستبهعقببهانتشاراصالحیآنیجنبشبرایزیرمعادالتشود،می
رالگوریتماثباتحفظبابزرگترآموزشنرخازاستفادهتواناییآنیجنبشازاستفادهباابتثجهتیکدرمنحنیکهمدتیدرکهاستاینآنیجنبشدیگرخصوصیتداریمکهستاخاطراینبهآنیجنبشنامگذاریدلیلوداردهمگراییتسریعبهتمایلباشد
د،باشبیشترمقدارهرچه.داردمشابهجهتدرادامهبهمنحنیکردنوادادبهتمایل.استبیشتریآنیجنبشدارایمنحنی
Tmmm k )(α)( 1 asW
mm k sb α)(
64
اصالح های اکتشافی الگوریتم انتشار به عقب
γ
متغیرآموزشنرخ
هزمانیکآنکاهشسپسوهموارسطوحدرآموزشنرخافزایشازاستفادهباوانتمیبنابراین.کردبیشترراهمگراییتوانمییابدمیافزایششیب
مانزتعیین.دادافزایشآموزشمدتدرآموزش،نرختنظیمتوسطراهمگرایی.استلمیکدهیم،تغییرراآنمقدارچهاینکهوآموزشنرختغییر
65
اصالح های اکتشافی الگوریتم انتشار به عقب
معینمیزانیکازبیشترآموزشیخطایاگرζ(درصد5تا1نمونهبطور)ازبعددرآموزشنرخشده،رهاهاوزنرسانیروزبهیابد،افزایشهاوزنرسانیروزبه
>10>فاکتور ρشودمیدهیمقدارصفرآنیجنبشضریبوشودمیضرب.
وزنهارسانیروزبهیابد،کاهشهاوزنرسانیروزبهازبعدمربعیخطایاگرجنبشضریباگر.شودمیضرب1ή<فاکتوردرآموزشینرخوبودهقبولمورد.شودمیدهیمقداردوبارهاصلیشمقدارباباشد،شدهصفرقبالآنی
ازکمترمربعیخطایاگرζواقعقبولموردهاوزنرسانیروزبهیابد،کاهش.مانندمیتغییربدونآنیجنبشضریبوآموزشنرخاماشده
66
قوانین الگوریتم انتشار به عقب با نرخ آموزش متغییر
شودمیدیدهزیرشکلدرآموزشترختغییرازمثالی:
1/5
1
0/5
0
100 101 102
Squared Error
Iteration Number
60
40
20
0
100 101 102 103
Learning Rate
Iteration Number
67
اصالح های اکتشافی الگوریتم انتشار به عقب
اصالحیهایروشاشکاالت
ازرخیببرایراسریعتریبسیارهمگراییمعموالتواندمیاکتشافیاصالحهای:داردوجودروشهااینبرایاصلیاشکالدوهرحالبه.کندفراهممسائل
الگوریتمکاراییودارندپارامترچندیندهیمقداربهنیازاصالحاتاین.هاستپارامتراینتغییراتبهحساس
نشودموفقمسئلههمگراییدراستممکنمواقعبعضیاصالحاتاین.
68
اصالح های اکتشافی الگوریتم انتشار به عقب
ترکیبیالگوریتمیشخورپعصبیهایشبکهمربیباآموزشبرایترکیبیالگوریتمیکروشایندر
برایراآنتوانمیاماشدهارائهالیهدوشبکهیکبرایالگوریتماین.استشدهارائه.بردکاربهنیزالیهچندهایشبکه
ایهپعقببهانتشارالگوریتمدرآموزش،سرعتافزایشبرایشدهارائهالگوریتم.استشدهاستفاده
:استشدهاستفادههاوزنکردنروزبهبرایمختلفروشدوالگوریتمایندریکی. اولالیهبرایاستانداردآموزشهایروشاز1استفاده. دومالیهآموزشدرزیررابطهاز2
eوdآیندمیدستبهزیرروابطاز:
69
روش پیشنهادی برای افزایش سرعت همگرایی
e = d – (Wx + b) d = f-1(d)
edfedfEydydETT
**minmin
الیههایوزنآموزش،الگوریتمدراصلی،رابطهراستطرفجایگزینیازاستفادهبا.شوندنمیظاهرآخرالیهخطیغیرتابعدرآخر
ابدیمیکاهشخطیغیرالگوریتمبرایمؤثرجستجویفضایابعادروش،ایندر..شدخواهدکمترآموزشهایتکرارتعدادبنابراین
70
روش پیشنهادی برای افزایش سرعت همگرایی
ترکیبیالگوریتمهایگام
.Iلیهاومقدارهایروشازاستفادهبایاوتصادفیطوربههابایاسوهاوزنانتخاب.IIمالگوریتماننداستانداردروشیکازاسفادهباهابایاسوهاوزنکردنروزبه
پایهعقببهانتشار.IIIایقانوناینشدنارضاصورتدرآموزشبهدادنپایانوتوقفقانونبررسی
اینصورتغیردر4قدمبهرفتن
وزشآمبرایاستانداردروشازالیهدوهرهایپارامترابتداشدهارائهالگوریتمدرتفادهاسترکیبیروشازخطا،تغییراتشدنکمصورتدراماکنندمیاستفاده
دشارائهکهصورتیبهوکردهتغییردومالیهپارامترهایآموزشروشکهشده.بیندمیآموزش
71
روش پیشنهادی برای افزایش سرعت همگرایی
72
:فصل چهارم
آموزش در شبکه های عصبی روشهای مختلف بررسی
Learning Rules
p1 t1{ , } p2 t2{ , } pQ tQ{ , }
Supervised Learning
Network is provided with a set of examples
of proper network behavior (inputs/targets)
Reinforcement Learning
Network is only provided with a grade, or score,
which indicates network performance
Unsupervised Learning
Only network inputs are available to the learning
algorithm. Network learns to categorize (cluster)
the inputs.
73
Supervised Learning
Early learning algorithms
First order gradient methods
Second order gradient methods
74
Learning Rules
Early learning algorithms
Designed for single layer neural networks
Generally more limited in their applicability
Some of them are
Perceptron learning
LMS or Widrow- Hoff learning
Grossberg learning
McCulloch-Pitts Perceptron
75
Perceptron Architecture AGAIN!!!!
76
Unified Learning Rule
77
Multiple-Neuron Perceptrons
78
Perceptron Rule Capability
The perceptron rule will always
converge to weights which accomplish
the desired classification, assuming that
such weights exist.
79
Rosenblatt’s single layer perceptron is trained as follow:
1. Randomly initialize all the networks weights.
2. Apply inputs and find outputs ( feedforward).
3. compute the errors.
4. Update each weight as
5. Repeat steps 2 to 4 until the errors reach the
satisfictory level.
)()()()1( kekpkwkw jiijij
80
Recurrent Network
81
Hamming Network
82
Feed Forward Layer
83
Recurrent Layer
84
Hamming Operation
85
Hamming Operation
86
Hopfield Network
87
Performance Optimization
Gradient based methods
88
Basic Optimization Algorithm
89
Steepest Descent (first order Taylor
expansion)
90
Example
91-2 -1 0 1 2
-2
-1
0
1
2
Plot
LMS or Widrow- Hoff learning
First introduce ADALINE (ADAptive LInear NEuron) Network
92
LMS or Widrow- Hoff learning
or
Delta Rule ADALINE network same basic structure as the perceptron
network
93
Approximate Steepest Descent
94
Approximate Gradient Calculation
95
LMS Algorithm
This algorithm inspire from steepest descent algorithm
96
Multiple-Neuron Case
97
Difference between perceptron learning
and
LMS learning
DERIVATIVE
Linear activation function has derivative
but
sign (bipolar, unipolar) has not derivative
98
Grossberg learning (associated learning)
Sometimes known as instar and outstar training
Updating rule:
Where could be the desired input values
(instar training, example: clustering) or the
desired output values (outstar) depending on
network structure.
Grossberg network (use Hagan to more details)
)()()()1( kwkxkwkw iiii
ix
99
First order gradient method
Back propagation
100
Multilayer Perceptron
R – S1 – S2 – S3 Network101
Function Approximation Example
102
Nominal Response
-2 -1 0 1 2-1
0
1
2
3
103
Parameter Variations
104
Multilayer Network
105
Performance Index
106
Chain Rule
107
Gradient Calculation
108
Steepest Descent
109
Jacobian Matrix
110
Backpropagation (Sensitivities)
111
Initialization (Last Layer)
112
Summary
113
Back-propagation training algorithm
Backprop adjusts the weights of the NN in order
to minimize the network total mean squared error.
Network activationForward Step
Error propagationBackward Step
114
Summary
Example: Function Approximation
115
Network
116
Initial Conditions
117
Forward Propagation
118
Transfer Function Derivatives
119
Backpropagation(BP)
120
Weights Update
121
Choice of Architecture
122
Choice of Network Architecture
123
Convergence
Global minimum (left) local minimum (right)
124
Generalization
125
Disadvantage of BP algorithm
Slow convergence speed
Sensitivity to initial conditions
Trapped in local minima
Instability if learning rate is too large
Note: despite above disadvantages, it ispopularly used in control community. Thereare numerous extensions to improve BPalgorithm.
126
Improved BP algorithms
127
First Order Gradient Method
Second Order Gradient Method
128
: فصل پنجم
بهبود الگوریتم پس انتشار خطا
Improved BP algorithms
Improved BP algorithms
1. BP with momentum
2. Delta- bar- delta
3. Decoupled momentum
4. RProp
5. Adaptive BP
6. Trianary BP
7. BP with adaptive gain
8. Extended BP
129
First Order Gradient Method
1- BP with momentum (BPM)
The basic improvement to BP (Rumelhart 1986)
Momentum factor alpha selected between zero and one
Adding momentum improves the convergence speed and
helps network from being trapped in a local minimum.
130
Modification form:
Proposed by nagata 1990
Beta is a constant value decided by user
Nagata claimed that beta term reduce the
possibility of the network being trapped in the
local minimum
This seems beta repeating alpha rule again!!! But
not clear
131
2- Delta-bar-delta (DBD)
Use adaptive learning rate to speed upthe convergence
The adaptive rate adopted base onlocal optimization
Use gradient descent for the searchdirection, and use individual stepsizes for each weight
132
3- RProp
Jervis and Fitzgerald (1993)
and limit the size of the step
133
1. Newton
2. Gauss-Newton
3. Levenberg-Marquardt
4. Quickprop
5. Conjugate gradient descent
6. Broyde –Fletcher-Goldfab-Shanno
Second Order Gradient Method
Improved BP algorithms
134
Performance Surfaces
Taylor Series Expansion
135
Example
136
Plot of Approximations
137
Vector Case
138
Matrix Form
139
Performance Optimization
Basic Optimization Algorithm • Steepest Descent
140
Minimizing Along a Line
141
1- Newton’s Method
142
Example
143
Plot
144
Non-Quadratic Example
145
Different Initial Conditions
146
DIFFICULT
Inverse a singular matrix!!!
Complexity
147
Newton’s Method
148
Matrix Form
149
Hessian
150
2- Gauss-Newton Method
151
3- Levenberg-Marquardt
152
Adjustment of μk
153
Application to Multilayer Network
154
Jacobian Matrix
155
Computing the Jacobian
156
Marquardt Sensitivity
157
Computing the Sensitivities
158
LMBP
• Present all inputs to the network and compute the
corresponding network outputs and the errors. Compute the
sum of squared errors over all inputs.
• Compute the Jacobian matrix. Calculate the sensitivities with
the backpropagation algorithm, after initializing. Augment the
individual matrices into the Marquardt sensitivities. Compute
the elements of the Jacobian matrix.
• Solve to obtain the change in the weights.
• Recompute the sum of squared errors with the new weights. If
this new sum of squares is smaller than that computed in step
1, then divide mk by u, update the weights and go back to step
1. If the sum of squares is not reduced, then multiply mk by u
and go back to step 3.159
Example LMBP Step
160
LMBP Trajectory
161
5- Conjugate Gradient
162
LRLS Method
Recursive least square method based method, does not need gradient descent.
163
LRLS Method Cont.
164
165
LRLS Method Cont.
Example for compare methods
Algorithms Average time
steps
(cut off at
0.15)
Average time
steps
(cut off at 0.1)
Average time
steps
(cut off at
0.05)
BPM 101 175 594
DBD 64 167 2382
LM 2 123 264
LRLS 3 9 69
166
IGLS (Integration of the Gradient and Least Square)
The LRLS algorithm has faster convergence speed than BPM algorithm.
However, it is computationally more complex and is not ideal for very
large network size. The learning strategy describe here combines ideas
from both the algorithm to achieve the objectives of maintaining
complexity for large network size and reasonably fast convergence.
• The out put layer weights update using BPM method
• The hidden layer weights update using BPM method
167
168
: فصل ششم
Recurrent Networksشبکه عصبي بازگشتي
Recurrent Networks
Feed forward networks:
Information only flows one way
One input pattern produces one output
No sense of time (or memory of previous state)
Recurrency
Nodes connect back to other nodes or themselves
Information flow is multidirectional
Sense of time and memory of previous state(s)
Biological nervous systems show high levels of
recurrency
(but feed-forward structures exists too)169
Recurrent Network with hidden neuron: unit delay operator z-
1 is used to model a dynamic system
z-1
z-1
z-1
input
hidden
output
170
Recurrent Networks
Rabinson and Fallside
171
172
Elman
173
Jordan
174
Elman and Jordan
1
2
. ( ) . ( )
:
( ) ( 1) ( 1)
c
c
net X t X t
where
X t O t y t
x cW W
1 1 1 1( ) ( )F net O net
2 1
2 2 2 2 2
. ( )
( ) ( ) ( )
net O t
F net O net y net
yW
175
Jordan Learning
1
2 2 1 1
2 2 1 1
2 1
1
. . . . .
. . . . . ( ) .
. . ( ) .
c
c
c
c
E
E
E E O net O net
O net O net
X te F F X t
X tX t
x
x
y
y
c
c c
y c
c
c
c
WW
WW
WW W
W WW
W = WW
176
Jordan Learning
1
1 2
1
1
2
2
. ( ) . ( ) . ( )
:
( ) ( 1) ( 1)
( ) ( 1) ( 1)
c c
c
c
net X t X t X t
where
X t O t y t
X t O t y t
x c1 c2W W W
1 1 1 1( ) ( )F net O net
2 1
2 2 2 2 2
. ( )
( ) ( ) ( )
net O t
F net O net y net
yW
177
Elman and Jordan Learning
(1)
(2)
(3)
(4)
E
E
E
E
y
y
x
x
c1
c1
c2
c2
WW
WW
WW
WW
178
Elman and Jordan Learning
2
2 22 1
2 21) . . . . . (.).
E E O nete F O
O net
y
y y
WW W
179
1
2 2 1 1
2 2 1 1
2 1
1
2) . . . . .
. . . . . ( )
. . ( )
E E O net O net
O net O net
e F F X t
X t
x
x x
y
x
WW W
W
W180
1
2 2 1 1
2 2 1 1
12 1
1
11
1
11 1
3) . . . . .
. . (.). . (.). ( ) .
. . ( ) .
( 1). . ( 1) .
c
c
c
c
E E O net O net
O net O net
X te F F X t
X tX t
O tO t
c1
c1 c1
y c1
c1
c1 c1
c1
c1
c1
WW W
W WW
W = WW
WW
181
1
2 2 1 1
2 2 1 1
2 1
1
21 2
4) . . . . .
. . (.). . (.). ( ) .
. . ( ) .
( 1). . ( 1) .
E E O net O net
O net O net
X te F F X t
X tX t
O tO t
c2
c2 c2
c2
y c2 c2
c2
c2
c2 c2 c2
c2
c2
c2
WW W
W WW
W = WW
WW
182
1
1 1
( ) ( 1) ( 1)
( 1) ( 2)
c cX t O t X t
O t O t
1
1 1
( ) . ( ) . ( )
. ( ) . ( 1) ( 2)
cnet t X t X t
X t O t O t
x c
x c
W W
W W
183
Jordan with Neuron Feedback
1
1 1
2 2 1 1
2 2 1 1
2 1
( ) . ( ) . ( )
. ( ) . ( 1) ( 2)
. . . . . .
( ). . (.). . (.). ( ) .
c
cc
net t X t X t
X t O t O t
E E O net O net
O net O net
X te F F X t
x c
x c
c
c c
y c
c
W W
W W
WW W
W WW
184
Jordan with Neuron Feedback
Flexible NN
Neuron Functions (Unipolar)
gx
xf
exp1
1
2 .
2( , )
1a x
aF a x
e
185
2 .
2 .
1( , )
1
a x
a x
eF a x
e
gx
gxxg
exp1
exp1
Flexible NN
Neuron Functions (Bipolar)
186
Flexible NN Structure
W1 W211net
12net
1n1net
e1
en2
e2
21net
22net
2n2net
1
1F
2
2F
2
2nF
2
1F
1
1nF
1
2F
x1
xn
x2
11O
12O
1n1O
2n2O
22O
21O t1
t2
tn2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a1
a1
a1
a2
a2
187
Feed Forward of FNN
1
1
1
1 2
1
1
( ) .
n
net
netnet k X
net
T1W
1 1 1 1( ) ( , ( ))O k F a net k
2
1
2
2 1 2
2
1
( ) .
n
net
netnet k O
net
T2W
2 2 2 2( ) ( , ( ))O k F a net k
2 2 2 2
1 1 1
2 2 2 2
2 2 2
2 2 2 2
2 1 1
( , ) 0 0
0 ( , ) 0 0
0
0 0 ( , )n n n
O F a net
O F a net
O F a net
188
Learning
( ) .( )
Ea k
a k
2 22 2 2
1 1
1 1( )
2 2
n n
i i i
i i
E e t o
22 2 2 2 2
2 22 2 2
( )( ) . .( ). ( , ) . . ( , )
( ) ( ) ( )
E E O ka k e F a net e F a net
a k O k a k
2 2 2 2 2 2 2 2 2 2
2 2
2 2 2 2 2 2
2
2 2 .* 2 .* 2 2 .* 2 2 2 .* 2 .*2 2 2
2 2 2 .* 2
2 2 2 .* 2 .* 2 .*
2 2 2 .*
(2 )(1 ).* [(1 ) .*( 2 )].*(1 )( , )
( ) .*(1 )
2 (1 1 )
( ) .*(1
a net a net a net a net a net
a net
a net a net a net
a net
net e e a e a net e eF a net
a e
a net e e e
a e
2 2 2 2
2 2 2
2 2
2 2
2 .* 2 .*
2 2 2 2 .* 2
2 2 .*2 2 2
22 2 .* 2
(1 )(1 )
) ( ) .*(1 )
4 1( , )
.*(1 )
a net a net
a net
a net
a net
e e
a e
net eF a net
aa e
189
2 2
2 2 11
1 2 2 1 1
2 2 1 1
2 1
( ) ( ) ( )( ) .
( ) ( ) ( ) ( ) ( )
. . ( , ) . . ( , )
Derived respect to net Derived respect to a
E E O k net k O ka k
a k O k net k O k a k
e F a net F a net
2W
( ) .( )
Ea k
a k
2 22 2 2
1 1
1 1( )
2 2
n n
i i i
i i
E e t o
190
Learning
Recurrent Flexible NN
191
( ) .( )
Ea k
a k
192
گاماو TDLVرشبکه های حافظه دا:فصل هفتم
193
حافظه درشبکه عصبی
یدهپیچمشخصاتخطیکالسیکروشهایازبهترتوانندمیعصبیشبکه های.کنندمدلرازمانیسری های
دلسازیمجهتخیریااستایستازمانیسریآیاکهاینبهنیازیتئوریصورتبه.نداریمعصبیشبکه هایبا
کس شبکه های عصبی نیاز به تعداد عظیمی از داده های به عنوان ورودی ندارند بر ع.ARروش
194
195
WW
196
MLPپیش بینی با کمک
TnxnxnxnxnxnxX )2()1()1()1()()( شکل اعمال ورودی
شکل اعمال خروجی
197
وگاماTDLشبکه های حافظه دار
ملیکاتقریباطوربهمی توانددینامیکینگاشتیکدرزمانیتغییرهر:(1997)برگسندودباشمیشبکهخطیفیلترهایبانکاولبلوککهاستبلوک2دارایکهساختارییکتوسط.شودمدلمی کندتغذیهراخودبعدیاستاتیکیبلوک
فیلترهایFIR , IIR
مشکالتIIR:آموزشدرهاناپایداریآمدنبوجودFIR:مدلسازیمحدودظرفیت
مزایاIIR:زمانبزرگهایحوزهدرپارامترهابودنکمFIR:شبکهپایداری
198
199
200
اعمال حافظه به الیه های میانی و خروجی
11
1
11
1
.
.
mmn
T
n
mmn
T
n
XGFNetF
XGNet
pnn
T
p NetFGtOtX )(.)()1(ˆ 1
1
2
1
TmtxtxtxX )1(,,)1(,)(
201
مزایا و توپولوژی اعمال فیلتر
سیناپسهردرآموزشتحتوزنیکازبیشداشتنگذشتهزمانهایهایدادهبودندسترسدروجودصورتدردیجیتالفیلترپارامترهایآموزش
202
TDLمحاسبات پیشرووتوپولوژی
)1()(
)1()(
)1()(
)1()(
1,
23
12
01
txtx
txtx
txtx
txtx
kijijk
ijij
ijij
ijij
k
l
ijlijlijkijkijijijijij txwtxwtxwtxwty
0
1100 )()()()()(
203
)1()1()1()(
)1()1()1()(
)()1(1
)()()(
011
011
01
1
01
txtxtx
txtxtx
txz
ztxzGtx
mm
mm
m
m
k
lijlijlijkijkijijijijij txwtxwtxwtxwty
01100 )()()()()(
)1()1()1()( 1, txtxtx lijijijlijijl mm
TDLمحاسبات پیشرووتوپولوژی
(BP)آموزش شبکه گاما
)()(
txtw
yijl
ijl
ij
k
l
k
lijlijl
ij
ijl
ijl
ij
ijtw
txw
ty
0 0
)()()(
mm
ij
ij
lij
lijij
ij
ijl
ijl
ij
ij
lij
lij
ij
ij
ij
ij
ijl
ijl
ij
ij
ijl
txtx
txtx
txtx
txtxt
mm
mm
mmm
mm
mm
m
)1()1()1(
)1()1(
)1()1()1(
)1()1(
)1()(
1,
1,
1,
1,
)1()()1()1()1()()(
1,1,
txtxttt
txijllijlijijijlijijl
ij
ijlmm
m
0
0
)()(ij
i
ij
ij
ijw
u
ty
x
ty
204
205
نمودار پیش بینی با شبکه های حافظه دار
TDLشبكه شبكه گاما
206
مقایسه روشها
N
i
N
i
ixix
ixixNMSE
1
2
1
2
))()((
))()(ˆ(
N
i
ixixN
MAE1
)()(ˆ1
N
i
ixixN
MBE1
)()(ˆ1
N
i
ixixN
RMSE1
2))()(ˆ(1
207
نتیجه گیری
اما.دندشبهتربسیارجوابهادادیمانتقالشبکهداخلبهراحافظهواحدکههنگامیراماینبودهبسیارنزدیکگامابهتقریباTDLروشنتایجکهاینجاستمهمنکته
.رساندمیحافظهبرپارامترعمقراوزنهارجحانواهمیتمیزان
دارحافظههایدرشبکه(TDL،گاما)باشدمیدارامیانیالیهالعادهفوقاهمیت.
شبکه روشهای سری زمانی غیرخطی شبکه های عصبی برتری خاصی برروشهای غیر(.همانطورکه انتظارداشتیم)عصبی دارند
طا روش کالسیک یافتن جواب بهینه به صورت سعی وخربزرگترین مشکل دی بهینه شبکه های عصبی نیزاین مشکل را دریافتن تعداد الیه های میانومیباشد
.دارند
208
: فصل هشتم
شبکه عصبي مدل مخچه
CMAC Neural Network and TD-CMAC
Introduction
Time Series
Cerebellar Model Arithmetic Computer (CMAC)
Time-Delay CMAC (TD-CMAC)
1- Output Mapping
2- Learning Algorithm
Evaluation of TD-CMAC
Conclusion
209
CMAC Neural Network and TD-CMAC
معماریCMAC
210
211
CMAC Model
Block diagram of CMAC
Weights Table Desired Output
Obtained Output
Weights
Adjustment
Input Space
-
+ +
+ +
+
212
CMAC Model (Example)
The CMAC structure with two inputs
6
5
4
3
2
1
0 6 5 4 3 2 1 0
State(4,3)
1S
2S
A B C D E F
G H I
c
b
a
f
e
d
i
h
g
Bb
Fe
Hh
213
نگاشت خروجی و الگوریتم یادگیری درCMAC
214
ویژگیهایCMAC:
j
M
j
j
T W(s)a(s)ay(s)
1
W
))()(ˆ)(( old
T
e
oldnew WsasysaN
WW
215
216
Time Series Modeling
X(t)
X(t-1)
X(t-d)
X(t+1) F(.)
e(t) ) d)-X(t2)-X(t1)-X(tX(t) F( 1)X(t
Converting prediction of time series to function approximation
217
TD-CMAC Model
X(t) X(t-1)
X(t-d)
X(t+1) TD-CMAC
block diagram of TD-CMAC model
218
TD-CMAC Model
The structure details of TD-CMAC model
X(t) X(t-1) X(t-2)
CMAC
CMAC
X(t-d+1) X(t-d) .…
. . .
CMAC
CMAC
CMAC
. . .
. . . .
CMAC
. . .
X(t+1)
.…
B1
B2B1
Bd
C11
C12
C1d
C22
C2d
Cdd
219
TD-CMAC Model
2- Learning Algorithm
1- Output Mapping
d
1i
d
ij
M
1k
ijkijk wsaWsasy )()()(
))()(ˆ)(()( sysysascN
WWe
oldnew
ijscij
1)(
220
TD-CMAC (Example)
X(t)X(t-1)X(t-2)
CMAC11
CMAC12
CMAC22
Σ
X(t+1)
X(t)
X(t-1)
2 input CMAC 6
5
4
3
2
1
0 6 5 4 3 2 1 0 1
S
2S
A B C D E F
G H I
c
b
a
f
e
d
i
h
g
TD-CMAC Model
d=2 (Number of delay)
Nb=3 (Number of block)
Ne=3 (Number of layer)
α= (Learning rate)
Error = 0.001
File, Time Series : 6, 3, 4, 2, 1 ,6 ,…
Weight table:
W[i][j][Nb][Nb][Ne]
For (i=1,2) For (j=i,2)
Time Series: S[d+2]
W[2][2][3][3][3] , S[4]
221
TD-CMAC (Example)
File, Time Series : 6, 3, 4, 2, 1 ,6 ,…
The first time series data for training of model
The next data for evaluation of model (prediction)
1) d+1 input for X(t) to X(t-1)
X(t-2) -> S[1]=6
X(t-1) -> S[2]=3
X(t) -> S[3]=4
2) Next data for X(t+1)
X(t+1) -> S[4]=2
3) Weight Initialization to zero
222
A) Output Calculating
6
5
4
3
2
1
0 6 5 4 3 2 1 0 1
S
2S
1 2 3 1 2 3
1 2 3
1
2
3
1
2
3
1
2
3
X(t-2) -> S[1]=6
X(t-1) -> S[2]=3
X(t) -> S[3]=4
X(t+1)-> S[4]=2
d
1i
d
ij
M
1k
ijkijk wsaWsasy )()()(
y(s) = w[1][1][2][2][1]
+ w[1][1][3][2][2]
+ w[1][1][2][2][3]
+…
State(4,3)
X(t)=4
X(t-1)=3
CMAC11
223
A) Output Calculating
6
5
4
3
2
1
0 6 5 4 3 2 1 0 1
S
2S
1 2 3 1 2 3
1 2 3
1
2
3
1
2
3
1
2
3
X(t-2) -> S[1]=6
X(t-1) -> S[2]=3
X(t) -> S[3]=4
X(t+1)-> S[4]=2
d
1i
d
ij
M
1k
ijkijk wsaWsasy )()()(
y(s) = +…
+ w[1][2][2][1][1]
+ w[1][2][3][1][2]
+ w[1][2][2][1][3]
+…
State(4,6)
X(t)=4
X(t-2)=6
CMAC12
224
6
5
4
3
2
1
0 6 5 4 3 2 1 0 1
S
2S
1 2 3 1 2 3
1 2 3
1
2
3
1
2
3
1
2
3
X(t-2) -> S[1]=6
X(t-1) -> S[2]=3
X(t) -> S[3]=4
X(t+1)-> S[4]=2
d
1i
d
ij
M
1k
ijkijk wsaWsasy )()()(
State(3,6)
X(t-1)=3
X(t-2
)=6
CMAC22
y(s) = +…
+ w[2][2][2][1][1]
+ w[2][2][2][1][2]
+ w[2][2][2][1][3]
= 0
A) Output Calculating
225
B) Weight Adjusting
))()(ˆ)(()( sysysascN
WWe
oldnew
ijscij
1)(
w[1][1][2][2][1]new=0+(0.1/3)*(1/(1*1))*(2-0) = 0.066
w[1][1][3][2][2]new=0+(0.1/3)*(1/(1*1))*(2-0) = 0.066
w[1][1][2][2][3]new=0+(0.1/3)*(1/(1*1))*(2-0) = 0.066
y(s) = 0
= X(t+1)=S[4]=2(s)y
w[2][2][2][1][1]new=0+(0.1/3)*(1/(2*2))*(2-0) = 0.016
w[2][2][2][1][2]new=0+(0.1/3)*(1/(2*2))*(2-0) = 0.016
w[2][2][2][1][3]new=0+(0.1/3)*(1/(2*2))*(2-0) = 0.016
CMAC11
w[1][2][2][1][1]new=0+(0.1/3)*(1/(1*2))*(2-0) = 0.033
w[1][2][3][1][2]new=0+(0.1/3)*(1/(1*2))*(2-0) = 0.033
w[1][2][2][1][3]new=0+(0.1/3)*(1/(1*2))*(2-0) = 0.033
CMAC12
CMAC22
CMACij
226
C) Repeat A, B with new weights
d
1i
d
ij
M
1k
ijkijk wsaWsasy )()()(
y(s) = 0.066+0.066+0.066+0.033+0.033+0.033+0.016+0.016+0.016 =
0.35
errorsysyERROR 65.135.02)()(ˆ
y(s) = 0.35
= X(t+1)=S[4]=2
error = 0.001
(s)y
A) Output Calculating
End) Until (ERROR< error)
227
))()(ˆ)(()( sysysascN
WWe
oldnew
ijscij
1)(
w[1][1][2][2][1]new=w[1][1][3][2][2]new=w[1][1][2][2][3]new=
0.066+(0.1/3)*(1/(1*1))*(2-0.35) = 0.1
w[2][2][2][1][1]new=w[2][2][2][1][2]new=w[2][2][2][1][3]new=
0+(0.1/3)*(1/(2*2))*(2-0) = 0.030
w[1][2][2][1][1]new=w[1][2][3][1][2]new=w[1][2][2][1][3]new=
0.033+(0.1/3)*(1/(1*2))*(2-0.35) = 0.060
y(s) = 0
= X(t+1)=S[4]=2(s)y
B) Weight Adjusting
C) Repeat A, B with new weights
228
d
1i
d
ij
M
1k
ijkijk wsaWsasy )()()(
y(s) = 0.1+0.1+0.1+0.06+0.06+0.06+0.03+0.03+0.03 = 0.57
errorsysyERROR 43.157.02)()(ˆ
y(s) = 0.57
= X(t+1)=S[4]=2
error = 0.001
(s)y
A) Output Calculating
End) Until (ERROR< error)
C) Repeat A, B with new weights
229
CO (ppm)
0
10
20
30
0 48 96 144
Real Data TD-CMAC TW-CMAC
One hour ahead prediction
0
10
20
30
0 48 96 144
R eal D ata T D -C M A C T W-C M A C
Six hour ahead prediction
230
231
0
10
20
30
0 48 96 144
Real Data TD-CMAC TW-CMAC
One day ahead prediction
CO (ppm)
NOx (ppm)
0
0.2
0.4
0 48 96 144
Real Data TD-CMAC TW-CMAC
One hour ahead prediction
0
0.01
0.02
0.03
0 48 96 144
Real Data TD-CMAC TW-CMAC
One hour ahead prediction
SO2 (ppm)
232
233
: فصل نهم
Bayesian Neural Networkبیزین عصبي شبکه
معرفی شبکه عصبی بیزین تک الیه. 1
(Overlapping)روش روی هم افتادگی 2-2
توسعه شبکه عصبی بیزین تک الیه به چندالیه. 2
(Partitioning)روش قسمت بندی 2-1
ویژگی های پیوسته و شبکه عصبی بیزین. 3
234
حاسبهمهستیم،آندنبالبهشبکهایندرکهنهاییهدفبهورودیهایدادهازایبههاکالستمامیاحتمالبرایالاحتممقداربیشترینباکالسانتخابوشبکه،
یماست،آنبهمتعلقدادهکهکالسیعنوانبهداده،هر.باشد
235
:P(y|x)تئوری بیز برای محاسبه
236
نوشتهزیربصورتنیزp(x|y)شرطیاحتمالهمچنین:شودمی
،xدادهبهمربوطمستقلویژگیNمقادیرکنیدفرضx={x1 , x2 , …,xN}،اینصورتدر.باشددستدر
:شودنوشتهزیرصورتبهتواندمیxاحتمال
237
بهورودی،دادهمشاهدهازایبهکالسهراحتمال:شدخواهدمحاسبهزیرصورت
238
.باشدمیبیزسادهکالسیفیرپایهاخیرمعادلهرضفکهشودمیاوقاتیبهمربوطسادهبیزطراحی.داریمراهاورودیبودنمستقل
239
:استبرقرارهموارهزیررابطه
240
رابطهبه(1)رابطهازگرفتنلگاریتموجایگذاریبا:رسیدخواهیمزیر
کهنیمعبدین.استآنبودنخطیلگاریتمیفرممزیتوخطیزتمایتابعیکباتواندمیبیزسادهکالسیفیر.شودازیسپیادهالیهتکعصبیشبکهیکبابنابراین
241
صبیعشبکهیکدرسیگنالپخشبرایمعمولیمعادله:استزیرصورت
242
آندرکهحالتیبرایالیهتکبیزینعصبیشبکهنمایدارمقچنددارای)گسستهها،دادهبهمربوطهایویژگی:باشندمی(محدود
243
244
1. hair Boolean
2. feathers Boolean
3. eggs Boolean
4. milk Boolean
5. airborne Boolean
6. aquatic Boolean
7. predator Boolean
8. toothed Boolean
9. backbone Boolean
10. breathes Boolean
11. venomous Boolean
12. fins Boolean
13. legs Numeric (set of values: {0,2,4,5,6,8})
14. tail Boolean
15. domestic Boolean
16. capsize Boolean
17. type Numeric (integer values in range [1,7])245
1 1 1 12 2 2 2
Y11
β1
3 54 6
Y12 Y13 Y17
β2
β3β7
246
مشاهدهشرطبهyiمتغیرنتیجهشرطیاحتمالبه:کنداشارهP(yj|xi)یعنی،xiدادهویژگی
247
:نیمکمقایسههمبارازیررابطهفرمدوتوانیممیحال
248
:بیزینعصبیشبکهآموزش
249
:مثال
:اشدبزیرصورتبهشبکهبهورودیدادهکنیدفرض
Antelope(بز کوهی):1,0,0,1,0,0,0,1,1,1,0,0,4,1,0,1,1
250
β1
β2
β3β7
X11 X12 X21 X22 X31 X32
Y11 Y12Y13 Y17
251
252
β1
β2
β3β7
X11 X12 X21 X22 X31 X32
Y11 Y12Y13 Y17Y13
253
254
255
256
:کالسیکتخمین
257
:بیزینتخمین
258
توسعه شبکه عصبی بیزین تک الیه به چندالیه
259
شبکه،باشندوابستهیکدیگربهورودیهایویژگیاگر.دهدنمیبدستخوبیجوابالیهتکعصبی
الیهوورودیالیهمیاندرهاوابستگیجبرانبرایازالیهاینکهکنیممیاستفادهپنهانالیهیکازخروجیهوابستهمبهکهآنهایی)ورودیهایستونترکیب.شودمیحاصل(هستند
260
ازالیهندچبیزینعصبیشبکهتشکیلبرایکلیبطور:جستسودتوانمیمعماریدو
Partitioning(الف
Overlapping(ب
261
شبکه عصبی چند الیه )Partitioning(
262
X1 X3X2
X1 X3X2
X3U1
وابستگی
263
X3U1
264
265
266
که می توان توزیع را بروی تمام حوزه به عنوان یک ضرب:می شود بیان کنیم ukشامل متغیرهای
267
شبکه عصبی چند الیه )Overlapping(
268
a
f
b
c
d
e
269
270
271
272
ایه(ویژگی)ستونالیهچندبیزینعصبیشبکهمعمارینوعایندر.داردارتباطخروجیالیهبانیزمستقیمبطورترکیبازپساولیه
273
274
:شودمیتعریفزیرصورتبهX,Yویژگیدومیانمتقابلاطالعات
وابستهویژگیدو،شودبیشترthresholdیکازباالمعیارمقداراگرمیتهگرفدرنظرآنهاترکیببرایپیچیدهستونیکوشوندمیتلقی.شود
275
Bayesian
Solution
Classic
Solution
Number of training data
97.22 97.22 122
96.99 96.99 61
88.88 88.42 16
84.49 81.01 13
77.31 75.00 10
61.34 59.49 7
276
Bayesian
Solution
Classic
Solution
Number of training data
99.68 99.13 4000
99.51 98.74 2708
99.20 98.20 1354
99.42 98.02 903
98.94 96.95 677
98.48 96.93 542
99.11 96.63 452
98.15 96.32 387
97.23 94.38 339
97.87 97.11 301
97.96 96.27 271
97.00 93.85 247
95.73 92.70 226
97.96 94.92 209
96.95 95.19 194
96.80 93.92 170
97.35 94.59 138
97.30 95.43 118
95.34 92.96 94
95.43 94.71 83
93.42 92.42 62
92.92 91.19 41
277
ویژگی های پیوسته و شبکه عصبی بیزین
278
279
280
می تواند zتابع چگالی احتمال بروی متغیر پیوسته به وسیله یک تعداد متناهی از جمع تقریب زده
:شود
)|()()(1
i
n
i
i vzPvPzP
281
282
0. 65 * 0.30 =0.195 0.35 * 0.60 = 0.21
283
"متعلق"متفاوتیجزءازمتفاوتیدرجهبهبازهدرمقدارهر:بودخواهد
284
285
))|(log( zyp
i iii
ii
ii zvPi vPyP
vyPyp ))|(
)()(
)|(log())(log( ''
'
'
286
ii ijjj oWS
))|(log( zyPS jj
))(log( jj yP
)()(
),(
,ij
ij
ji vPyP
vyPW
287
یمدل ترکیب
288
یک سری از توابع که اجتماع دامنه های آنهاا یاک .بازه را پوشش می دهد
: مدل ترکیبی
ر گسساته در این کار، تبدیل یک متغیر پیوسته به تعدادی متغیاده شاوند، که بتوانند به عنوان ورودی شبکه عصبی بیزین اساتف
.ردصورت می گیتوابع گوسین با مدل ترکیبیتوسط
289
و مراتری µتوزیع گوسین با برردار میرانگین خرود شناخته می شرود و دارای ترابع Σکوواریان خود :توزیع زیر است
),:( iii
zf m
))()(2
1exp(
||)2(
1 '1
iii
i
dzz mm
290
است،مطرحکهایمسئلهاتترکیبپارامترهایتخمین
.استگوسینترکیبیمدل
291
c
iiCzvP
1
)( /)|(
i
c
i
i C
zzvP
m
1
)()( )|(
ii
c
iii
C
zzzvP
mm
1
')()()( ))()(|(
1
2
3
πi=P(vi)
),:( iii
zf m ))()(2
1exp(
||)2(
1 '1
iii
i
dzz mm
4
292
می(4)معادلهازپارامترها،برایتصادفیاولیهمقادیربرخیفرضبااین.کرداستفادهجزء،هربهنمونههرتعلقمقدارمحاسبهبرایتوان
.استانتظارموردمقدارمرحله،
مقادیر(3)تا(1)معادالتباشدهزدهتخمینپارامترهایسپس.استسازیماکزیمممرحله،این.دهندمیبدسترا(4)معادله
.شوندمیتکرارشوند،همگراپارامترهاکهزمانیتامرحلهدواین
Expectation Maximization
293
:بررسی الگوریتم ماکزیمم سازی مقدار مورد انتظار
هاییضعفدارایانتظارموردمقدارسازیماکزیممالگوریتم.باشدمیزیرهمانند
ابانتخاولیهپارامترهایبهنسبتومحلی،روشیکروشاین*(محدودهیکبهاستممکنوباشدمیحساسبسیارشده
.شودهمگرادهدمیارائهرانادرستهایتخمینکهپارامترها
ه از برای حل این مسئله چندین روش مورد بررسی قرار گرفته است کا صادفی و یک یا ترکیبی از استراتژی هایی همانند چندین نقطه شروع ت
ال باشد انتخاب تخمین نهایی بطوریکه آن تخمین دارای باالترین احتمتفاده مای و یا انتخاب اولیه پارامترها به وسیله الگوریتم خوشه بندی اس
.کنند
294
وردممقدارسازیماکزیممکاراییکهدیگریمسئله*(عدادتنبودنمشخصدهدمیقرارتاثیرتحتراانتظار
.استترکیبات
یادیزمطالعاتنیزترکیباتبهینهتعدادتخمینبرایAkaikeاطالعاتمعیارمثالبرای.استگرفتهصورت
(AIC)،بیزیناستنتاجSchwarz(BIC)،معیار.(ICL)مجتمعبندیدستهاحتمال
:بررسی الگوریتم ماکزیمم سازی مقدار مورد انتظار
295
لگوریتم K-Meansا
:پیدا کردن مرکز دسته اول به صورتی که رابطه زیر را ماکزیمم کند : مرحله اول . 1
296
امین ترکیب، معیار هر داده کاندید برای مرکز (k-1)به شرط داشتن : مرحله دوم . 2:ام می تواند بصورت زیر نوشته شودkترکیب
لگوریتم K-Meansا
297
:تخمین تعداد بهینه ترکیبات
امینkمیانارتباطاگرشود،میاضافهجزءیککههنگامینتخمیباپارامترهاباشد،مستقلهمهنوزقبلیاجزاءوجزء
ازیکیحداقلاگربرعکس.آیندمیبدستجزءkازدوبارهدلمدرراپارامترهابایدباشد،همبستهشدهاضافهجزءبااجزا
-k)حداقلراترکیباتتعدادوکنیممالحظه(k-1)ترکیبی
.کنیممشخص(1
298
:رابطه متقابل میان اجزاء
299
:دباشمقدارسهدارایاستممکنمتقابلیرابطهمثبتیاوصفرمنفی،
تاسمعنیبدینباشد،مثبتمقداردارایاگر.اندوابستهیکدیگربهآماریبطورkوiکه
:رابطه متقابل میان اجزاء
300
:الگوریتم تخمین تعداد بهینه ترکیبات
301
:پیاده سازی بروی داده های مصنوعی
302
303
i میانه یiتعداد ترکیبات امین ترکیب(k)
~1(1.1620,2.0100)1
-0.06741(2.4915,2.5147)2
-0.03461(0.9851,0.8554)3
-0.00422
0.02551(0.8065,2.4638)4
-0.00922
-0.00803
304
:GMMپیاده سازی و آزمایش
:glassداده
305
306
307
الیهبندی با استفاده از شبکه عصبی بیزین تکنتیجه دسته
308
الیهبندی با استفاده از شبکه عصبی بیزین چندنتیجه دستهدر حالت قسمت بندی
309
الیه بندی با استفاده از شبکه عصبی بیزین چنددستهدر حالت روی هم افتادگی
310
311
عصبي مثلثاتي شبکه : فصل دهم
312
: یازدهم فصل
Wavelet Neural Networkویولت عصبي شبکه
313
شبکه عصبي کانولوشنال: دوازدهم فصل
314
: فصل دوازدهم
کاربرد شبکه های عصبي
در شناسایي، پیش بیني و کنترل سیستم ها
کنترلوبینیپیششناسایی
شناساگرعنوانبهعصبیهایشبکه
هاسیستمبینیپیشدرعصبیهایشبکه
کنترلرعنوانبهعصبیهایشبکه
315
عصبیکنترلر
تقلیدگرعصبیکنترلرمستقیمشناساگروکنترلرمعکوسشناساگروکنترلرتطبیقیمعکوسکنترلغیرخطیداخلیمدلکنترلعصبیتطبیقیکنترلتطبیقینقادکنترلرPIDتنظیمخودجبرانگرعنوانبهعصبیشبکهمستقیمعصبیمرجعمدلتطبیقیکنترلربینپیشمدلکنترل
316
ترکیبیکنترلر
عصبیکنترلومتغیرساختارکنترلازترکیبیکنترلرپایدارمستقیمتطبیقیکنترلعصبیتطبیقیفیدبکسازیخطیعصبیکنترلوفیدبککنترلازترکیبیکنترلرپسخورخطایآموزشیعصبکنترلوثابتبهرهکنترلکنترلازترکیبیکنترلرلغزشیمدپایهبرعصبیشبکهکنترلرعصبیبهینهکنترلر
317
پایان