phương pháp học tăng cường
TRANSCRIPT
-
8/19/2019 Phương Pháp Học Tăng Cường
1/80
BỘ GIÁO DỤC VÀ ĐÀO TẠOTR ƯỜ NG ĐẠI HỌC BÁCH KHOA HÀ NỘI
------------------------------------------
LUẬN VĂN THẠC SĨ KHOA HỌC
NGÀNH: CÔNG NGHỆ THÔNG TIN
PHƯƠ NG PHÁP HỌC TĂNG CƯỜ NG
NGUYỄN THỊ THUẬN
HÀ NỘI 2006
N G UY
Ễ NTH Ị TH U Ậ N
C Ô N G N GH Ệ
TH
Ô N G TI N
2 0 0 4 -2 0 0 6
HÀ NỘI2006
-
8/19/2019 Phương Pháp Học Tăng Cường
2/80
1
LỜ I CẢM Ơ N
Trong suốt quá trình học tậ p cũng như quá trình làm luận văn, em đãnhận đượ c sự giúp đỡ của các thầy cô giáo trong bộ môn, đặc biệt là sự chỉ
bảo hướ ng dẫn tận tình của thầy giáo hướ ng dẫn TS Nguyễn Linh Giang. Vớ i
lòng biết ơ n sâu sắc, em xin chân thành cảm ơ n các thầy cô giáo trong bộ môn
đặc biệt là thầy giáo TS Nguyễn Linh Giang đã giúp đỡ để em hoàn thành
luận văn thạc sỹ khoa học này.
Em cũng xin gửi lờ i cảm ơ n tớ i ban lãnh đạo cũng như các đồng nghiệ p
nơ i em đang công tác đã tạo điều kiện giúp em có một môi tr ườ ng nghiên cứu
và làm việc tốt.
Cuối cùng, em xin gửi lờ i cảm ơ n tớ i gia đình, bạn bè, những ngườ i
thân đã luôn động viên, khích lệ và giúp đỡ em trong suốt quá trình học tậ p và
làm luận văn vừa qua.
Hà Nội, tháng 10 năm 2006Học viên Nguyễ n Th ị Thuận
Lớ p: Cao học CNTT 2004-2006
-
8/19/2019 Phương Pháp Học Tăng Cường
3/80
2
MỤC LỤC
LỜ I CẢM Ơ N.......................................................................................................1
MỤC LỤC.............................................................................................................2
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT..............................................4
MỞ ĐẦU ...............................................................................................................5
CHƯƠ NG 1 BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠ NGPHÁP HỌC TĂNG CƯỜ NG...........................................................................7
1.1 PHÁT BIỂU BÀI TOÁN..........................................................................7
1.2 CÁC PHẦ N TỬ CỦA BÀI TOÁN QUYẾT ĐỊ NH MARKOV.............10 1.2.1 Hàm phản hồi...................................................................................15 1.2.2 Hàm giá tr ị .......................................................................................16
1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊ NH MARKOV 20 1.4 PHƯƠ NG PHÁP HỌC TĂ NG CƯỜ NG................................................26
1.4.1 Ý tưở ng chung .................................................................................26 1.4.2 Một số thuật ngữ..............................................................................30
1.4.2.1 Khảo sát và khai thác...........................................................................30 1.4.2.2 K ỹ thuật ε-greedy, ε-soft và softmax ...................................................30 1.4.2.3 Khái niệm học on-policy và off-policy .................................................32
1.4.3 Phân loại thuật toán học tăng cườ ng ...............................................33 1.4.3.1 H ọc d ự a trên mô hình...........................................................................33 1.4.3.2 H ọc không có mô hình..........................................................................33
1.4.4 Lịch sử phát triển và các l ĩ nh vực ứng dụng ...................................35
CHƯƠ NG 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜ NG.......................40
2.1 PHƯƠ NG PHÁP QUY HOẠCH ĐỘ NG (DP).......................................40 2.2 PHƯƠ NG PHÁP MONTE CARLO (MC).............................................41
2.2.1 Phươ ng pháp MC on-policy ............................................................44 2.2.2 Phươ ng pháp MC off-policy............................................................45
2.3 PHƯƠ NG PHÁP TEMPORAL DIFFERENCE (TD)............................45 2.3.1 TD(0) ...............................................................................................46 2.3.2 TD(λ) ...............................................................................................47 2.3.3 Q-Learning.......................................................................................48 2.3.4 SARSA ............................................................................................49
-
8/19/2019 Phương Pháp Học Tăng Cường
4/80
3
2.4 SO SÁNH CÁC THUẬT TOÁN HỌC TĂ NG CƯỜ NG ĐIỂ N HÌNH..50 2.5 MỘT SỐ PHƯƠ NG PHÁP TIẾ N BỘ KHÁC........................................51
CHƯƠ NG 3 THỬ NGHIỆM .......................................................................52 3.1 BÀI TOÁN LỰ A CHỌ N MÔ PHỎ NG..................................................52 3.2 PHƯƠ NG PHÁP HỌC TĂ NG CƯỜ NG LỰ A CHỌ N MÔ PHỎ NG ....55
3.2.1 Phươ ng pháp quy hoạch động (DP) ................................................55 3.2.2 Học không có mô hình (Phươ ng pháp Q-Learning)........................58 3.2.3 Học dựa trên mô hình (Phươ ng pháp prioritized sweeping)...........59
3.3 K ỊCH BẢ N VÀ K ẾT QUẢ THỬ NGHIỆM ..........................................61 3.3.1 K ịch bản 1: Thay đổi kích thướ c không gian tr ạng thái..................67
3.3.1.1 S ố bướ c hội t ụ.......................................................................................68 3.3.1.2 Thờ i gian hội t ụ ....................................................................................68 3.3.1.3 Phân tích k ế t quả..................................................................................69 3.3.1.4 Giải pháp cải thiện...............................................................................70 3.3.1.5 K ế t luận ................................................................................................70
3.3.2 K ịch bản 2: Thay đổi hệ số học.......................................................70 3.3.2.1 Phân rã hệ số học theo số đ oạn l ặ p .....................................................71 3.3.2.2 M ố i quan hệ giữ a giá tr ị chiế n l ượ c và hệ số học...............................71 3.3.2.3 Phân tích k ế t quả..................................................................................73 3.3.2.4 Giải pháp cải thiện...............................................................................73 3.3.2.5 K ế t luận ................................................................................................74
3.3.3 K ịch bản 3: Thay đổi số đoạn lặ p....................................................74 3.3.3.1 M ố i quan hệ giữ a giá tr ị chiế n l ượ c và số đ oạn l ặ p ............................74 3.3.3.2 Phân tích đ ánh giá k ế t quả...................................................................76
3.3.4 K ịch bản 4: Thay đổi chiến lượ c lựa chọn ......................................76 3.3.4.1 M ố i quan hệ giữ a giá tr ị chiế n l ượ c và tham số chiế n l ượ c ................76 3.3.4.2 Phân tích đ ánh giá k ế t quả...................................................................77
ĐÁNH GIÁ K ẾT LUẬN....................................................................................78
TÀI LIỆU THAM KHẢO .................................................................................79
TÓM TẮT LUẬN VĂN.....................................................................................80
-
8/19/2019 Phương Pháp Học Tăng Cường
5/80
4
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Thuật ng ữ Viế t t ắ t
Học tăng cườ ng (Reinforcement Learning) RL
Phươ ng pháp lậ p trình động (Dynamic Programming) DP
Phươ ng pháp Monte Carlo MC
Phươ ng pháp Temporal Difference TD
-
8/19/2019 Phương Pháp Học Tăng Cường
6/80
5
MỞ ĐẦU
Tính cấp thiết của đề tàiXã hội ngày càng hiện đại, các k ỹ thuật công nghệ ngày càng phát triển, đi
cùng vớ i nó là các nghiên cứu phát triển không ngừng về l ĩ nh vực trí tuệ nhân
tạo và học máy, cho ra đờ i các hệ thống máy móc thông minh ứng dụng r ộng rãi
trong hầu hết các l ĩ nh vực đờ i sống như máy truy tìm dữ liệu, chẩn đoán y khoa,
phát hiện thẻ tín dụng giả, phân tích thị tr ườ ng chứng khoán, phân loại chuỗi
DNA, nhận dạng tiếng nói và chữ viết, … đặc biệt là trong l ĩ nh vực điều khiển.
Các phươ ng pháp tự đào tạo (học) đã đượ c đưa ra từ r ất lâu để chỉ khả năng
các hệ thống thông minh trong quá trình hoạt động tự tích luỹ, phân tích các
thông tin thu đượ c từ đó tự nâng cao khả năng của bản thân, đây chính là mục
đích quan tr ọng trong lỹ thuyết quyết định cũng như trong các bài toán tự động
hoá và điều khiển tối ưu.
Chúng ta có nhiều loại thuật toán học như học có giám sát, học không có
giám sát, học tăng cườ ng, mỗi loại thuật toán thích ứng vớ i từng loại bài toán cụ
thể. Trong phạm vi đề tài này, chúng ta sẽ nghiên cứu và tìm hiểu các vấn đề liên
quan đến phươ ng pháp học tăng cườ ng. Đây là một thuật toán học có khả năng
giải quyết đượ c những bài toán thực tế khá phức tạ p trong đó có sự tươ ng tác giữ
hệ thống và môi tr ườ ng. Vớ i những tình huống môi tr ườ ng không chỉ đứng yên,
cố định mà thay đổi phức tạ p thì các phươ ng pháp học truyền thống không còn
đáp ứng đượ c mà phải sử dụng phươ ng pháp học tăng cườ ng. Những bài toánvớ i môi tr ườ ng thay đổi trong thực tế là không nhỏ và ứng dụng nhiều trong các
l ĩ nh vực quan tr ọng.
Mục đích
-
8/19/2019 Phương Pháp Học Tăng Cường
7/80
6
Qua quá trình làm luận văn sẽ tổng hợ p và nắm vững các kiến thức về
phươ ng pháp học tăng cườ ng nói chung. Hiểu rõ ý tưở ng, cơ chế hoạt động các
thuật toán học tăng cườ ng và ứng dụng trong các bài toán điển hình cụ thể. Đồng
thờ i cũng thực hiện mô phỏng bài toán thử nghiệm, đo đạc thống kê và đánh giá
k ết quả thử nghiệm về các thuật toán RL.
Giớ i hạn vấn đề
Do những hạn chế về điều kiện và thờ i gian thực hiện, đề tài nghiên cứu mớ i
chỉ ở mức lý thuyết và cài đặt thử nghiệm, chưa đượ c ứng dụng vào thực tiễn.
Hướ ng phát triểnTrong thờ i gian tớ i, sẽ cố gắng ứng dụng các kiến thức về phươ ng pháp học
tăng cườ ng, xây dựng bài toán thực tiễn cụ thể và ứng dụng r ộng rãi.
Bố cục của luận văn
Luận văn gồm 3 chươ ng vớ i những nội dung chính như sau:
Chươ ng 1: Trình bày lý thuyết tổng quan về phươ ng pháp học tăng cườ ng,
mô hình bài toán quyết định Markov, bên cạnh đó cũng giớ i thiệu sơ lượ c về sự
ra đờ i, cũng như lịch sử phát triển của phươ ng pháp học tăng cườ ng, các l ĩ nh vực
ứng dụng trong thực tiễn.
Chươ ng 2: Trình bày chi tiết về đặc điểm, các bướ c thực hiện của từng loại
giải thuật học tăng cườ ng đã và đang đượ c sử dụng hiện nay.
Chươ ng 3: Trình bày về bài toán lựa chọn thử nghiệm, giớ i thiệu lại sơ qua về
loại thuật toán học tăng cườ ng lựa chọn áp dụng trong bài toán thử nghiệm. Các
k ịch bản thử nghiệm và các k ết quả thu đượ c. Trên cơ sở đó, k ết luận đánh giá và
đưa ra giải pháp cải tiến.
-
8/19/2019 Phương Pháp Học Tăng Cường
8/80
7
Chươ ng 1 BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ
PHƯƠ NG PHÁP HỌC TĂNG CƯỜ NG
Phươ ng pháp học tăng cườ ng là một phươ ng pháp phổ biến để giải các bài
toán quyết định Markov. Bài toán quyết định Markov có r ất nhiều ứng dụng
trong các l ĩ nh vực k ỹ thuật như lý thuyết quyết định, quy hoạch toán học, điều
khiển tối ưu, ... Trong phần này, chúng ta sẽ trình bày về quá trình quyết định
Markov trong đó tậ p trung vào các khái niệm của quá trình Markov có số bướ c
vô hạn và có số bướ c hữu hạn.
1.1 PHÁT BIỂU BÀI TOÁN
Bài toán quyết định Markov là bài toán học từ các tác động để đạt đượ c mục
đích. Ngườ i học và ngườ i ra quyết định đượ c gọi là tác tử. Tất cả những gì mà
chúng tươ ng tác vớ i, bao gồm mọi thứ bên ngoài tác tử đượ c gọi là môi tr ườ ng.
Các tác động thực hiện một cách liên tục, tác tử lựa chọn các hành động, môi
tr ườ ng đáp ứng lại các hành động đó và chuyển từ tr ạng thái hiện thờ i sang tr ạng
thái mớ i. Môi tr ườ ng cũng đem lại các mục tiêu, các giá tr ị bằng số mà tác tử cố
gắng cực đại hoá qua thờ i gian. Một đặc tả hoàn thiện về môi tr ườ ng đượ c coi là
một “nhiệm vụ”, một thực thể của bài toán quyết định Markov.
Tóm lại, bài toán quyết định Markov liên quan đến lớ p bài toán trong đó một
tác tử rút ra k ết luận trong khi phân tích một chuỗi các hành động của nó cùng
vớ i tín hiệu vô hướ ng đượ c đưa ra bở i môi tr ườ ng.
Trong khái niệm chung này có thể thấy hai đặc tính quan tr ọng:
• Tác tử tươ ng tác vớ i môi tr ườ ng và cặ p “Tác tử + Môi tr ườ ng” tạo
thành một hệ thống động.
-
8/19/2019 Phương Pháp Học Tăng Cường
9/80
8
• Tín hiệu tăng cườ ng, đượ c nhận biết dựa vào mục tiêu, cho phép tác tử
thay đổi hành vi của nó.
Lượ c đồ tươ ng tác tác tử-môi tr ườ ng như sau:
Hình 1.1: Mô hình t ươ ng tác giữ a tác t ử và môi tr ườ ng
Trong lượ c đồ trên, tác tử và môi tr ườ ng tác động lẫn nhau tại mỗi bướ c trong
chuỗi các bướ c thờ i gian r ờ i r ạc, t = 0, 1, 2, 3, …Tại mỗi bướ c thờ i gian t, tác tử
nhận một số biểu diễn về tr ạng thái của môi tr ườ ng, st∈S, vớ i S là tậ p các tr ạng
thái có thể, và trên đó lựa chọn một hành động at∈A(st), vớ i A(st) là tậ p các hành
động có hiệu lực trong tr ạng thái st. Mỗi bướ c thờ i gian tiế p theo, tác tử nhậnmột giá tr ị tăng cườ ng r t+1∈R và tự nó tìm ra một tr ạng thái mớ i st+1.
Tại mỗi bướ c tác tử thực hiện ánh xạ từ các tr ạng thái đến các hành động có
thể lựa chọn. Phép ánh xạ này đượ c gọi là chiến lượ c của tác tử, kí hiệu là πt vớ i
πt(s,a) là xác suất thực hiện hành động at=a khi st=s. Như vậy, bài toán quyết
định Markov thực chất có thể đượ c phát biểu như sau:
Biết - Tậ p các tr ạng thái: S- Tậ p các hành động có thể: A
- Tậ p các tín hiệu tăng cườ ng (mục tiêu).
Bài toán Tìm π:S→A sao cho R lớ n nhất
-
8/19/2019 Phương Pháp Học Tăng Cường
10/80
9
Vớ i mô hình bài toán quyết định Markov như trên, chúng ta có thể xem xét
qua một số ví dụ quen thuộc.
Ví d ụ 1: Máy bán hàng t ự động
- Tr ạng thái: cấu hình các khe.
- Hành động: thờ i gian dừng lại.
- Mục tiêu: kiếm đượ c nhiều tiền.
- Bài toán: tìm π:S→A sao cho R lớ n nhất.
Ví d ụ 2: Tic-Tac-Toe
Đây là một trò chơ i quen thuộc của giớ i tr ẻ. Hai ngườ i chơ i thực hiện chơ itrên một bảng kích thướ c 3x3. Một ngườ i ghi kí hiệu X và một ngườ i ghi kí hiệu
O, đến tận khi có ngườ i thắng nhờ ghi 3 dấu trên cùng một hàng dọc hoặc hàng
ngang hoặc hàng chéo, như ngườ i ghi dấu X trong hình vẽ:
Nếu bảng bị lấ p đầy mà không ngườ i chơ i nào ghi đượ c 3 dấu trong cùng một
hàng thì tr ận đấu sẽ hoà. Bài toán tic-tac-toe đượ c tiế p cận sử dụng RL như sau:
- Tr ạng thái: bảng 3x3.
- Hành động: phép di chuyển tiế p theo.
- Mục tiêu: 1 nếu thắng, -1 nếu thua, 0 nếu hoà.
- Bài toán: tìm π:S→A sao cho R lớ n nhất.
Ví d ụ 3:Robot di động
- Tr ạng thái: vị trí của Robot và của ngườ i.
- Hành động: sự di chuyển.
- Mục tiêu: số các bướ c đối mặt thành công.
-
8/19/2019 Phương Pháp Học Tăng Cường
11/80
10
- Bài toán: tìm π:S→A sao cho R lớ n nhất.
Để hiểu rõ ràng về các bài toán trong thực tế, ở đây chúng ta xét ví dụ một
cuộc đối thoại về mối quan hệ giữa tác tử và môi tr ườ ng như sau:
Môi tr ườ ng : Bạn đang ở tr ạng thái 65. Bạn có 4 hành động để lựa chọn.
Tác t ử : Tôi lựa chọn hành động 2.
Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là 7 đơ n vị.
Hiện tại bạn đang ở tr ạng thái 15.
Bạn có 2 hành động để lựa chọn.
Tác t ử : Tôi lựa chọn hành động 1. Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là -4 đơ n vị.
Hiện tại bạn đang ở tr ạng thái 65.
Bạn có 4 hành động để lựa chọn.
Tác t ử : Tôi lựa chọn hành động 2.
Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là 5 đơ n vị.
Hiện tại bạn đang ở tr ạng thái 44.
Bạn có 5 hành động để lựa chọn.
1.2 CÁC PHẦN TỬ CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV
Dựa vào tác tử và môi tr ườ ng, chúng ta có thể định ngh ĩ a 4 phần tử con của
một bài toán quyết định Markov: chiến lượ c ( policy), hàm phản hồi (reward
function), hàm giá tr ị (value function), và không bắt buộc, một mô hình về môi
tr ườ ng.Chiế n l ượ c định ngh ĩ a cách thức tác tử học từ hành động tại thờ i điểm đưa ra.
Chiến lượ c là một ánh xạ từ tậ p các tr ạng thái của môi tr ườ ng đến tậ p các hành
động đượ c thực hiện khi môi tr ườ ng ở trong các tr ạng thái đó. Nó tươ ng ứng vớ i
-
8/19/2019 Phương Pháp Học Tăng Cường
12/80
11
tậ p các luật nhân quả trong l ĩ nh vực tâm lí học. Trong một số tr ườ ng hợ p, chiến
lượ c có thể là một hàm đơ n giản hoặc một bảng tra cứu, trong những tr ườ ng hợ p
khác, nó có thể liên quan đến các tính toán mở r ộng ví dụ như một tiến trình tìm
kiếm. Chiến lượ c là nhân của một tác tử vớ i nhận thức r ằng một mình nó đủ
quyết định hành động.
Hàm phản hồi định ngh ĩ a mục tiêu trong bài toán quyết định Markov. Nó ánh
xạ mỗi tr ạng thái quan sát đượ c (hoặc một cặ p hành động-tr ạng thái) của môi
tr ườ ng vớ i một giá tr ị phản hồi để chỉ ra mong muốn thực chất về tr ạng thái đó.
Mục đích duy nhất của tác tử là cực đại hoá tổng giá tr ị phản hồi nó nhận đượ ctrong suốt thờ i gian chạy. Hàm phản hồi định ngh ĩ a sự kiện nào là tốt hay xấu
cho tác tử. Trong một hệ thống thuộc l ĩ nh vực sinh vật học, không phù hợ p để
định ngh ĩ a các giá tr ị phản hồi vớ i niềm vui và sự đau đớ n. Chúng là các đặc tính
tức thì và đượ c định ngh ĩ a là các vấn đề mà tác tử cần đối mặt. Như thế, hàm
phản hồi cần phải có khả năng thay đổi bở i tác tử. Tuy nhiên, nó có thể phục vụ
dướ i dạng một yếu tố cơ bản để thay đổi chiến lượ c. Ví dụ, nếu hành động lựa
chọn bở i chiến lượ c đượ c theo sau bở i một hàm phản hồi thấ p, thì chiến lượ c có
thể đượ c thay đổi để lựa chọn hành động khác thay thế trong tươ ng lai.
Trong khi một hàm phản hồi chỉ ra cái gì là tốt cho một ý thức tức thì, một
hàm giá tr ị sẽ đặc tả cái gì là tốt trong suốt một giai đoạn thờ i gian. Nói cách
khác, giá tr ị của một tr ạng thái là tổng số các hàm phản hồi một tác tử có thể k ỳ
vọng để tích luỹ trong tươ ng lai, bắt đầu từ tr ạng thái đó. Trong khi các giá tr ị
phản hồi quyết định mong muốn thực chất tức thì về các tr ạng thái môi tr ườ ng,
thì các hàm giá tr ị chỉ ra mong muốn trong cả quá trình về các tr ạng thái sau khi
đưa vào bản miêu tả các tr ạng thái tiế p theo, và các mục tiêu hiệu quả trong các
tr ạng thái đó. Ví dụ, một tr ạng thái có thể thườ ng xuyên mang lại một hàm phản
-
8/19/2019 Phương Pháp Học Tăng Cường
13/80
12
hồi tức thì thấ p, nhưng vẫn có một hàm giá tr ị cao, vì nó thườ ng đượ c theo sau
bở i các tr ạng thái khác mà mang lại các giá tr ị phản hồi cao, hoặc ngượ c lại. Để
tạo ra các mô hình tươ ng tự con ngườ i, các giá tr ị phản hồi giống như là sự hài
lòng (khi hàm phản hồi có giá tr ị lớ n) và hình phạt (khi hàm phản hồi có giá tr ị
thấ p), trong khi các hàm giá tr ị tươ ng ứng vớ i một sự phán đoán tinh tế hơ n và
nhìn xa trông r ộng hơ n về việc chúng ta hài lòng hay không hài lòng như thế nào
khi môi tr ườ ng ở trong một tr ạng thái riêng biệt. Biểu diễn theo cách này, chúng
ta k ỳ vọng r ằng các hàm giá tr ị rõ ràng là một ý tưở ng khuôn mẫu thân thiện và
căn bản.Các hàm phản hồi là trong một ngữ cảnh chính, trong khi các hàm giá tr ị, như
là các tiên đoán của các giá tr ị phản hồi, là nhân tố thứ hai. Không có các giá tr ị
phản hồi thì sẽ không có các hàm giá tr ị. Mục đích duy nhất của việc ướ c lượ ng
các hàm giá tr ị là để đạt đượ c các giá tr ị phản hồi lớ n hơ n. Tuy nhiên, chính các
hàm giá tr ị là đối tượ ng mà chúng ta đề cậ p đến nhiều nhất khi ra quyết định và
đánh giá quyết định. Việc lựa chọn quyết định dựa trên sự phán đoán về hàm giá
tr ị. Chúng ta tìm kiếm các hành động mà đem lại các tr ạng thái vớ i giá tr ị lớ n
nhất, chứ không phải là các phản hồi lớ n nhất, bở i vì các hành động này chứa số
lượ ng phản hồi lớ n nhất cho chúng ta trong cả giai đoạn. Trong ra quyết định và
lậ p k ế hoạch, con số đượ c k ế thừa đượ c gọi là “giá tr ị” là một đối tượ ng mà
chúng ta quan tâm nhiều nhất. Thật không may, việc xác định giá tr ị khó hơ n
nhiều so vớ i xác định giá tr ị phản hồi. Các giá tr ị phản hồi về cơ bản đượ c đưa ra
tr ực tiế p bở i môi tr ườ ng, nhưng các hàm giá tr ị cần phải đượ c ướ c lượ ng và ướ c
lượ ng lại từ chuỗi các quan sát tác tử có đượ c qua toàn bộ thờ i gian sống của nó.
Thực tế, thành phần quan tr ọng nhất của tất cả các thuật toán học tăng cườ ng là
một phươ ng pháp để ướ c lượ ng các hàm giá tr ị một cách hiệu quả nhất. Vai trò
-
8/19/2019 Phương Pháp Học Tăng Cường
14/80
13
trung tâm của phép ướ c lượ ng hàm giá tr ị có thể xem là điều quan tr ọng nhất mà
chúng ta học về phươ ng pháp học tăng cườ ng trong suốt các thậ p k ỷ gần đây.
Mặc dù hầu hết các phươ ng pháp học tăng cườ ng đượ c xem xét tuân theo cấu
trúc xung quanh việc ướ c lượ ng các hàm giá tr ị, tuy nhiên đây cũng không phải
là nhân tố bắt buộc để giải quyết đượ c các bài toán quyết định Markov. Ví dụ, có
thể sử dụng các phươ ng pháp tìm kiếm như các thuật toán phát sinh, lậ p trình
phát sinh, huấn luyện tái tạo và các phươ ng pháp tối ưu hoá chức năng khác
đượ c sử dụng để giải quyết các bài toán quyết định Markov. Các phươ ng pháp
này tìm kiếm tr ực tiế p trong không gian các chiến lượ c mà không phải sử dụngcác hàm giá tr ị. Chúng ta gọi đây là “các phươ ng pháp tiến hoá” bở i vì hoạt động
của chúng tươ ng tự như cách mà phép tiến hoá sinh vật học tạo ra các sinh vật
vớ i các hành động có k ỹ năng thậm chí khi chúng không học trong suốt chu k ỳ
sống cá thể của chúng. Nếu không gian các chiến lượ c là đủ nhỏ hoặc có thể định
cấu trúc, nhờ đó các chiến lượ c tốt là phổ biến hoặc dễ tìm kiếm, thì các phươ ng
pháp “tiến hoá” có thể hiệu quả. Ngoài ra, các phươ ng pháp “tiến hoá” có ưu
điểm trong những bài toán ở đó tác tử học không thể phán đoán chính xác tr ạng
thái của môi tr ườ ng.
Tuy nhiên, những gì chúng ta đề cậ p đến phươ ng pháp học tăng cườ ng liên
quan đến việc học trong quá trình tươ ng tác vớ i môi tr ườ ng, do đó các phươ ng
pháp tiến hoá không thực hiện đượ c. Chúng ta tin tưở ng r ằng các phươ ng pháp
có khả năng nắm bắt những ưu điểm trong tác động thuộc hành vi có thể hiệu
quả hơ n là các phươ ng pháp tiến hoá trong nhiều tình huống. Các phươ ng pháp
tiến hoá bỏ qua r ất nhiều cấu trúc có ích của bài toán quyết định Markov: chúng
không sử dụng một thực tế r ằng chiến lượ c mà chúng đang tìm kiếm là một hàm
từ các tr ạng thái đến hành động., chúng không chú ý đến tr ạng thái nào cá thể
-
8/19/2019 Phương Pháp Học Tăng Cường
15/80
14
tr ải qua trong suốt chu k ỳ sống hoặc hành động nào nó lựa chọn. Trong một số
tr ườ ng hợ p, thông tin này có thể là sai lạc (ví dụ, khi các tr ạng thái không đượ c
quan sát), nhưng thườ ng xuyên hơ n, nó có thể cho phép tìm kiếm hiệu quả hơ n.
Mặc dù việc “học” và “tiến hoá” chia sẻ nhiều đặc tính và có thể k ết hợ p cùng
vớ i nhau, như chúng thực hiện trong tự nhiên, chúng ta không xem xét các
phươ ng pháp tiến hoá đặc biệt là trong các bài toán quyết định Markov. Một
cách đơ n giản trong tài liệu này khi chúng ta sử dụng thuật ngữ “học tăng
cườ ng”, chúng ta không bao gồm các phươ ng pháp tiến hoá.
Phần tử thứ 4 và cũng là phần tử cuối cùng của bài toán quyết định Markovđó là mô hình của môi tr ườ ng. Đây là đối tượ ng để bắt chướ c hành vi của môi
tr ườ ng. Ví dụ, khi đưa ra một tr ạng thái và hành động, mô hình có thể dự đoán
tổng hợ p tr ạng thái tiế p theo và giá tr ị phản hồi tiế p theo. Các mô hình đượ c sử
dụng để lậ p k ế hoạch, nhờ đó chúng ta dự định cho quyết định bất k ỳ trên một
tiến trình của hành động bằng cách xem xét các tình huống trong tươ ng lai có thể
xảy ra tr ướ c khi chúng có kinh nghiệm thực sự. Sự hợ p nhất giữa các mô hình và
k ế hoạch trong các hệ thống học tăng cườ ng là một phát triển mớ i. Các hệ thống
học tăng cườ ng ban đầu là những ngườ i học “thử và lỗi”, vớ i cách tiế p cận này
những gì chúng thực hiện đượ c xem như là đối lậ p vớ i k ế hoạch. Tuy nhiên,
ngày càng rõ ràng r ằng các phươ ng pháp học tăng cườ ng có liên quan gần gũi
vớ i các phươ ng pháp quy hoạch động, trong đó cũng sử dụng các mô hình và
chúng cũng lần lượ t có liên quan gần gũi vớ i các phươ ng pháp lậ p k ế hoạch
không gian tr ạng thái. Các phươ ng pháp học tăng cườ ng hiện đại mở r ộng sự
phân bố từ học thử và lỗi mức thấ p sang việc lậ p k ế hoạch có tính thảo luận mức
cao.
-
8/19/2019 Phương Pháp Học Tăng Cường
16/80
15
1.2.1 Hàm phản hồi
Mục đích của tác tử là cực đại hoá các mục tiêu đượ c tích luỹ trong tươ ng lai.
Hàm phản hồi R(t) đượ c biểu diễn dướ i dạng hàm số đối vớ i các mục tiêu. Trong
các bài toán quyết định Markov, hàm phản hồi sử dụng biểu thức dạng tổng. Các
nhà nghiên cứu đã tìm ra ba biểu diễn thườ ng đượ c sử dụng của hàm phản hồi:
Trong các bài toán số bướ c hữ u hạn
Vớ i những bài toán này ta có một số hữu hạn các bướ c trong tươ ng lai. Sẽ tồn
tại một tr ạng thái k ết thúc và một chuỗi các hành động giữa tr ạng thái đầu tiên và
tr ạng thái k ết thúc đượ c gọi là một giai đoạn.Ta có:
Trong đó K là số các bướ c tr ướ c tr ạng thái k ết thúc
Trong các bài toán số bướ c vô hạn
Vớ i những bài toán này ta có chuỗi các hành động là vô hạn. Một hệ số suy
giảm γ, 0≤γ≤1 đượ c đưa ra và hàm phản hồi đượ c biểu diễn dướ i dạng tổng củacác giá tr ị mục tiêu giảm dần:
Hệ số γ cho phép xác định mức độ ảnh hưở ng của những bướ c chuyển tr ạng
thái tiế p theo đến giá tr ị phản hồi tại thờ i điểm đang xét. Giá tr ị của γ cho phép
điều chỉnh giai đoạn tác tử lấy các hàm tăng cườ ng. Nếu γ = 0, thì tác tử chỉ xem
xét mục tiêu gần nhất, giá tr ị γ càng gần vớ i 1 thì tác tử sẽ quan tâm đến các mục
tiêu xa hơ n trong tươ ng lai.
Như vậy, thực chất bài toán quyết định Markov trong tr ườ ng hợ p này chính là
việc lựa chọn các hành động để làm cực đại biểu thức R:
-
8/19/2019 Phương Pháp Học Tăng Cường
17/80
16
R = r 0+γr 1+γ2r 2+… vớ i 0
-
8/19/2019 Phương Pháp Học Tăng Cường
18/80
17
vớ i tác tử khi hệ thống đang ở tr ạng thái s. Hàm giá tr ị của tr ạng thái s trong
chiến lượ c π đượ c tính như sau:
Vπ (s) = Eπ {R t | st = s}
Bài toán tối ưu bao gồm việc xác định chiến lượ c điều khiển π* sao cho hàm
giá tr ị của tr ạng thái hệ thống đạt cực đại sau một số vô hạn hoặc hữu hạn các
bướ c.
π* = {π0(s0), π1(s1),…, π N-1(s N-1)}
Đối vớ i bài toán có số bướ c vô hạn ta có hàm giá tr ị tr ạng thái:
Sử dụng các phép biến đổi:
Như vậy, hàm Vπ(s) có thể đượ c viết lại một cách đệ qui như sau:
-
8/19/2019 Phương Pháp Học Tăng Cường
19/80
18
Hay:
Vπ(s) = R(s, a) + γ )'(
'
' sV P
S s
a
ss
π ∑∈
(*)
Vớ i a ss P ' là xác xuất để chuyển từ tr ạng thái s sang s’ khi áp dụng hành động a.
Chúng ta có thể tính hàm Vπ(s) ngoại tuyến nếu biết tr ạng thái bắt đầu và xác
suất mọi phép chuyển đổi theo mô hình. Vấn đề đặt ra là sau đó giải quyết hệ
thống các phươ ng trình tuyến tính trong công thức (*). Chúng ta biết r ằng tồn tại
một chiến lượ c tối ưu, kí hiệu π*, đượ c định ngh ĩ a như sau:
V
π*
(s) ≥ V
π
(s)
Để đơ n giản chúng ta viết V* = Vπ*. Hàm giá tr ị tối ưu của một tr ạng thái
tươ ng ứng vớ i chiến lượ c tối ưu là:
Đây là phươ ng trình tối ưu Bellman (hoặc phươ ng trình của quy hoạch động).
Tóm lại V π
là hàm giá tr ị tr ạng thái cho chiế n l ượ c π . Giá tr ị của tr ạng tháik ết thúc thườ ng bằng 0. Tươ ng tự, định ngh ĩ a Qπ(s,a) là giá tr ị của việc thực hiện
hành động a trong tr ạng thái s dướ i chiến lượ c điều khiển π, đượ c tính bằng k ỳ
vọng toán học của hàm phản hồi bắt đầu từ tr ạng thái s, thực hiện hành động a
trong chiến lượ c π:
Qπ đượ c g ọi là hàm giá tr ị hành động cho chiế n l ượ c π . Và các hàm giá tr ị
Vπ, Qπ có thể đượ c ướ c lượ ng từ kinh nghiệm.
Ví d ụ minh họa cách tính toán các hàm giá tr ị
-
8/19/2019 Phương Pháp Học Tăng Cường
20/80
19
Chúng ta xét một ví dụ đơ n giản để minh họa cho cách tính toán các hàm giá
tr ị V và Q. Cho một lướ i các ô vuông, mỗi ô vuông tươ ng ứng vớ i một tr ạng thái
về môi tr ườ ng. Ta có tậ p các tr ạng thái {s1, s2, s3, s4, s5, s6} trong đó s3 là tr ạng
thái k ết thúc. Tại mỗi ô, có 4 hành động có thể xảy ra đó là di chuyển lên trên,
xuống dướ i, sang trái, sang phải. Mỗi bướ c di chuyển đến tr ạng thái k ết thúc có
giá tr ị phản hồi 100, các bướ c di chuyển còn lại giá tr ị phản hồi đều bằng 0, minh
họa như hình vẽ:
Ta có công thức tính V* cho π*:
V*(st) = r t + γ V*(st+1)
V*(s6) = 100 + 0.9 * 0 = 100
V*(s5) = 0 + 0.9 * 100 = 90
V*(s4) = 0 + 0.9 * 90 = 81
Tính Vα cho πα như sau:
Vα(s6) = 0.5 * (100 + 0.9 * 0) + 0.5 * (0 + 0.9 * 0) = 50
Vα(s5) = 0.66 * (0 + 0.9 * 50) + 0.33 * (0 + 0.9 * 0) = 30
Vα(s6) = 0.5 * (0 + 0.9 * 30) + 0.5 * (0 + 0.9 * 0) = 13.5
Nếu tính cho tất cả các tr ạng thái thì bắt đầu lại và lặ p đến tận khi giá tr ị hộitụ
-
8/19/2019 Phương Pháp Học Tăng Cường
21/80
20
Vớ i hàm giá tr ị tr ạng thái-hành động Q, công thức tính như sau:
Q(s, a) = r(s, a) + γ'
maxa
Q(s’, a’)
Q(s1, right) = r + γ'
maxa
Q(s2, a’) (lấy γ = 0.9)
= 0 + 0.9 max{63, 81, 100}
= 90
1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊNH
MARKOV
Tr ướ c hết chúng ta xem xét khái niệm “Thuộc tính Markov” đượ c đưa ra
trong các bài toán quyết định. Trong bài toán quyết định, tác tử ra quyết định domột tín hiệu từ môi tr ườ ng gọi là tr ạng thái của môi tr ườ ng. Chúng ta định ngh ĩ a
thuộc tính môi tr ườ ng và các tính hiệu tr ạng thái của chúng là thuộc tính
Markov.
Tr ạng thái đượ c hiểu là bất cứ thông tin gì có ích vớ i tác tử, giả thiết tr ạng
thái đượ c đưa ra bở i một số hệ thống tiền xử lý của môi tr ườ ng. Chúng ta sẽ định
ngh ĩ a thuộc tính Markov cho bài toán quyết định. Để đơ n giản biểu thức toán
học, chúng ta giả sử tậ p các tr ạng thái và các mục tiêu là hữu hạn. Quan sát cách
thức một môi tr ườ ng tổng quát có thể đáp ứng tại thờ i điểm t+1 đối vớ i hành
động đượ c thực hiện tại thờ i điểm t. Trong hầu hết các tr ườ ng hợ p, nguyên nhân
của sự đáp ứng này có thể phụ thuộc vào mọi thứ đã xảy ra tr ướ c đó. Khi đó biến
-
8/19/2019 Phương Pháp Học Tăng Cường
22/80
21
động của môi tr ườ ng có thể đượ c định ngh ĩ a bằng cách đặc tả xác suất phân bố
khả năng như sau:
vớ i mọi s’, r
và mọi giá tr ị có thể của các sự kiện tr ướ c st, at, r t, …, r 1, s0, a0.
Nếu tín hiệu tr ạng thái có thuộc tính Markov thì đáp ứng của môi tr ườ ng tại
thờ i điểm t+1 chỉ phụ thuộc vào tr ạng thái và hành động tại thờ i điểm t, trong
tr ườ ng hợ p này, biến động của môi tr ườ ng đượ c thể hiện như sau:
vớ i mọi s’, r, st, at.
Nói cách khác, một tín hiệu tr ạng thái có thuộc tính Markov và là một tr ạng
thái Markov khi và chỉ khi giá tr ị ở hai biểu thức trên bằng nhau vớ i mọi s’, r và
st, at, r t, …, r 1, s0, a0. Trong tr ườ ng hợ p này môi tr ườ ng cũng đượ c gọi là có thuộc
tính Markov.
Nếu một môi tr ườ ng có thuộc tính Markov thì biến động tại mỗi bướ c của nó
sẽ cho phép dự đoán tr ạng thái và mục tiêu k ỳ vọng tiế p đượ c đưa ra từ tr ạng
thái và hành động hiện tại. Bằng cách lặ p phươ ng trình này, chúng ta có thể dự đoán tất cả các tr ạng thái và mục tiêu k ỳ vọng trong tươ ng lai mà chỉ vớ i kiến
thức từ tr ạng thái hiện tại trong thờ i điểm hiện tại. Các tr ạng thái Markov cung
cấ p khả năng tốt nhất cho việc lựa chọn hành động, khi đó chiến lượ c tốt nhất
cho việc lựa chọn hành động sẽ là hàm của một tr ạng thái Markov.
Nhiều tr ườ ng hợ p trong học tăng cườ ng khi tín hiệu tr ạng thái không có thuộc
tính Markov, chúng ta cũng sẽ xấ p xỉ tr ạng thái này thành tr ạng thái Markov vì
chúng ta luôn mong muốn tr ạng thái là tốt để dự đoán hàm mục tiêu cũng như
việc lựa chọn hành động trong tươ ng lai. Vớ i tất cả những lý do đó, cách tốt nhất
là xem tr ạng thái tại mỗi bướ c thờ i gian như là một xấ p xỉ của tr ạng thái Markov
mặc dù nó không hoàn toàn thoả mãn thuộc tính Markov.
-
8/19/2019 Phương Pháp Học Tăng Cường
23/80
22
Thuộc tính Markov là r ất quan tr ọng trong các bài toán quyết định vì các
quyết định và các giá tr ị đượ c giả thiết chỉ là hàm phụ thuộc vào tr ạng thái hiện
tại. Giả thiết này không có ngh ĩ a là áp dụng hoàn toàn cho mọi tình huống học
tăng cườ ng k ể cả những tình huống không thoả mãn Markov. Tuy nhiên lý
thuyết phát triển cho các thuộc tính Markov vẫn giúp chúng ta có thể hiểu đượ c
hành vi của các giải thuật học tăng cườ ng và các giải thuật thì vẫn có thể áp dụng
thành công cho mọi nhiệm vụ vớ i các tr ạng thái không thoả mãn Markov. Kiến
thức về lý thuyết Markov là cơ sở nền tảng để mở r ộng trong những tr ườ ng hợ p
phức tạ p hơ n k ể cả những tr ườ ng hợ p không thoả mãn thuộc tính Markov.Vớ i giả thiết như vậy, tươ ng tác giữa tác tử và môi tr ườ ng có thể đượ c mô
hình dướ i dạng bài toán quyết định Markov. Việc tìm kiếm sách lượ c điều khiển
tối ưu trong các bài toán quyết định Markov tươ ng ứng vớ i những tiêu chí tối ưu
khác nhau dẫn tớ i việc xây dựng các phươ ng trình tối ưu Bellman và các thuật
toán quy hoạch động. Thông thườ ng, quy hoạch động là phươ ng pháp giải các
phươ ng trình tối ưu Bellman khi biết các thuộc tính thống kê của môi tr ườ ng.
Khác vớ i quy hoạch động, phươ ng pháp học tăng cườ ng tìm kiếm tr ực tiế p các
chiến lượ c quyết định tối ưu từ các giá tr ị phản hồi thu nhận đượ c trong các quá
trình tươ ng tác vớ i môi tr ườ ng và tr ạng thái của môi tr ườ ng.
Bài toán quyết định Markov bao gồm một tậ p các tr ạng thái (s1,s2,…,sn) và
một tậ p các hành động (a1,a2,…,an). Mỗi tr ạng thái có một giá tr ị mục tiêu
(r 1,r 2,…,r n). Trong bài toán quyết định Markov, các phép chuyển đổi từ tr ạng thái
i sang tr ạng thái j chỉ phụ thuộc vào các hành động có thể tại tr ạng thái i. Hàm đo
khả năng chuyển đổi hay còn gọi là xác suất của phép chuyển đổi đượ c biểu diễn
như sau:
Pk i j = (tiế p theo = s j | hiện tại = si và thực hiện hành động ak )
-
8/19/2019 Phương Pháp Học Tăng Cường
24/80
23
Tại mỗi bướ c, hệ thống sẽ thực hiện các công việc như sau:
- 0) Giả sử tr ạng thái hiện tại là si
- 1) Giá tr ị phản hồi r i
- 2) Lựa chọn hành động ak
- 3) Chuyển đến tr ạng thái s j vớ i khả năng Pijk
- 4) Tất cả các giá tr ị phản hồi trong tươ ng lai đượ c biểu diễn theo hệ số suy
giảm γ
Mục tiêu của bài toán quyết định Markov là vớ i mọi tr ạng thái bắt đầu, tìm ra
một chiến lượ c tốt nhất (một chuỗi các hành động) để cực đại hoá giá tr ị phảnhồi. Để hiểu rõ cách tính toán hàm giá tr ị V và hàm giá tr ị tr ạng thái Q ta xét một
số ví dụ bài toán Markov sau đây:
Ví d ụ 1:
Xét ví dụ một bài toán quyết định Markov có mô hình:
Trong bài toán này, tậ p các tr ạng thái bao gồm {0, 1, 2, 3, 4, 5} trong đó 0 là
tr ạng thái bắt đầu, 5 là tr ạng thái k ết thúc. Mỗi bướ c chuyển tr ạng thái đượ c biểu
diễn bằng một mũi tên và giá tr ị phản hồi (tăng cườ ng) của nó đượ c biểu hiện
bằng tr ọng số trên ghi trên mũi tên tươ ng ứng. Tậ p {A, B} là tậ p các hành động
có thể thực hiện. Chúng ta có thể thấy có 3 chiến lượ c cho bài toán này.1. 0→1→3→5
2. 0→1→4→5
3. 0→2→4→5
-
8/19/2019 Phương Pháp Học Tăng Cường
25/80
24
So sánh các chiến lượ c, chúng ta sắ p xế p các chiến lượ c theo tổng giá tr ị phản
hồi mà nó thu đượ c:
1. 0→1→3→5 = 1+ 1 + 1 =3
2. 0→1→4→5 = 1 + 1 + 10 =12
3. 0→2→4→5 = 2 + (-1000) + (10) = -988
Chúng ta có thể k ết hợ p một giá tr ị vớ i mỗi tr ạng thái. Vớ i một chiến lượ c cố
định, hàm giá tr ị tr ạng thái V xác định mức độ thích hợ p của việc thực hiện chiến
lượ c π đối vớ i tr ạng thái s. Hình vẽ sau đây chỉ ra chiến lượ c cần thực hiện tại
mỗi tr ạng thái.
Chúng ta cũng có thể định ngh ĩ a giá tr ị mà không cần đặc tả chiến lượ c bằng
cách định ngh ĩ a giá tr ị của việc lựa chọn hành động a từ tr ạng thái s và sau đó
thực hiện tối ưu, đây chính là hàm giá tr ị tr ạng thái- hành động Q. Hình vẽ sau
đây chỉ ra hành động cần thực hiện tại mỗi tr ạng thái.
-
8/19/2019 Phương Pháp Học Tăng Cường
26/80
25
Ví d ụ 2:
Xét một ví dụ khác, bài toán quyết định Markov có mô hình như sau:
Trong bài toán này, tậ p các tr ạng thái bao gồm {0, 1, 2, 3} trong đó 0 là tr ạng
thái bắt đầu, 3 là tr ạng thái k ết thúc. Mỗi bướ c chuyển tr ạng thái đượ c biểu diễn bằng một mũi tên và giá tr ị phản hồi (tăng cườ ng) của nó đượ c biểu hiện bằng
tr ọng số trên ghi trên mũi tên tươ ng ứng. Tậ p {A, B} là tậ p các hành động có thể
thực hiện. Quan sát bướ c đi tại lặ p lại tại tr ạng thái 1 và 2 có thể thấy:
- Số các bướ c của bài toán là không giớ i hạn vì phép lặ p.
- Giá tr ị của tr ạng thái 1 và 2 là không giớ i hạn cho một số chiến
lượ c.
Q(1, A) = 1 + Q(1, A)
= 1 + 1 + Q(1, A)
= ! + 1 + 1 + Q(1, A)
=…..
-
8/19/2019 Phương Pháp Học Tăng Cường
27/80
26
Trong những bài toán số bướ c vô hạn như tr ườ ng hợ p này, như đã trình bày
trong mục 4.2, ngườ i ta đưa thêm hệ số suy giảm γ vào khi tính hàm phản hồi.
0≤γ≤1. Ta có công thức tính hàm giá tr ị và hàm giá tr ị tr ạng thái-hành động
Khi đó, tính toán giá tr ị Q cho từng cặ p tr ạng thái-hành động như sau:
Nhìn từ k ết quả trên ta có các chiến lượ c tối ưu: π(0) = B; π(1) = A; π(2) = A.
1.4
PHƯƠ NG PHÁP HỌC TĂNG CƯỜ NG
1.4.1
Ý tưở ng chung
Có hai phươ ng pháp thườ ng đượ c sử dụng để giải các bài toán quyết định đó
là tìm kiếm trong không gian chiến lượ c và tìm kiếm trong không gian hàm giá
tr ị hay còn gọi là “phép lặ p chiến lượ c” và “phép lặ p giá tr ị”. Hai phươ ng pháp
này chính là các giải thuật học tăng cườ ng đặc tr ưng. Ngoài ra còn xuất hiện một
phươ ng pháp lai giữa hai phươ ng pháp trên: Actor-Critic learning.
Cơ chế chung của phép lặ p chiến lượ c và phép lặ p giá tr ị như sau:
Phép lặp chiến lượ c
-
8/19/2019 Phương Pháp Học Tăng Cường
28/80
27
Ý tưở ng là ở chỗ, bắt đầu từ một chiến lượ c bất k ỳ π và cải thiện nó sử dụng
Vπ để có một chiến lượ c tốt hơ n π’. Chúng ta sau đó có thể tính Vπ’ và cải thiện
nó vớ i một chiến lượ c tốt hơ n nữa π’’,…K ết quả của tiến trình lặ p này, chúng ta
có thể đạt đượ c một chuỗi các bướ c cải thiện chiến lượ c và các hàm giá tr ị.
Thuật toán l ặ p chiế n l ượ c:
(a) Bắt đầu vớ i một chiến lượ c bất k ỳ π.
(b)
Lặ p
Đánh giá chiến lượ c π.
Cải tiến chiến lượ c tại mỗi tr ạng thái. Đế n t ận khi chiến lượ c không có khả năng thay đổi.
Trong thuật toán lặ p chiến lượ c ở trên có đề cậ p đến một số khái niệm liên
quan đó là đ ánh giá chiế n l ượ c và cải tiế n chiế n l ượ c.
Đánh giá chiế n l ượ c
Chính là quá trình tính toán hàm giá tr ị tr ạng thái Vπ cho một chiến lượ c π bất
k ỳ. Nó đượ c biết đến là phươ ng trình Bellman:
Đây là một hệ thống các phươ ng trình tuyến tính đồng thờ i. Lờ i giải của nó
không quá phức tạ p và có thể tìm đượ c bằng cách sử dụng một trong các phươ ng
pháp giải hệ thống các phươ ng trình tuyến tính. Lờ i giải có thể tìm đượ c bằng
việc tạo ra một chuỗi các hàm giá tr ị xấ p xỉ V0,V1,V2,…Xấ p xỉ khở i tạo V0 đượ c chọn ngẫu nhiên. Nếu có một tr ạng thái k ết thúc nó
sẽ nhận giá tr ị 0. Mỗi xấ p xỉ thành công đạt đượ c bằng cách sử dụng phươ ng
trình Bellman cho Vπ như là một luật cậ p nhật:
-
8/19/2019 Phương Pháp Học Tăng Cường
29/80
28
Bướ c lặ p k ết thúc khi độ lệch cực đại giữa hai hàm giá tr ị thành công nhỏ hơ n
một giá tr ị đủ nhỏ ε.
C ải tiế n chiế n l ượ c
Chính là quá trình tạo một chiến lượ c mớ i cải tiến dựa trên chiến lượ c gốc
bằng cách sử dụng thuật toán tham lam đối vớ i hàm giá tr ị của chiến lượ c gốc.
Vớ i một chiến lượ c π cho tr ướ c, có thể tìm ra một chiến lượ c tốt hơ n π’ sao cho
Vπ’
> Vπ
. Điều này đạt đượ c bằng cách chọn theo tiên đoán một hành động tạimột tr ạng thái riêng biệt hoặc bằng cách xem xét sự thay đổi tại tất cả các tr ạng
thái và đối vớ i tất cả các hành động có thể, lựa chọn tại mỗi tr ạng thái hành động
xuất hiện tốt nhất dựa theo Qπ(s,a). Chiến lượ c π’ là tham lam nếu:
Trong phươ ng trình trên, arg maxa chỉ ra giá tr ị của a tại đó biểu thức đạt cựcđại. Chiến lượ c tham lam thực hiện hành động tốt nhất sau mỗi bướ c dựa theo
Vπ.
Tóm lại, trong phép lặ p chiến lượ c, giá tr ị của chiến lượ c chính là k ết quả
của hệ thống các phươ ng trình tuyến tính. Sau đó, vớ i mọi tr ạng thái, chúng ta sẽ
quan sát liệu r ằng có thể cải thiện chiến lượ c trong khi chỉ thay đổi hành động
bắt đầu hay không. Phép lặ p chiến lượ c là nhanh khi không gian hành động là
nhỏ và đôi khi chỉ cần vài bướ c lặ p là đủ, mặt khác phươ ng pháp này là khá đắt
thậm chí khó thực hiện trong tr ườ ng hợ p không gian hành động lớ n.
Phép lặp giá trị
-
8/19/2019 Phương Pháp Học Tăng Cường
30/80
29
Trong phươ ng pháp này, chúng ta không cố gắng quyết định chiến lượ c một
cách rõ ràng, mà sẽ quyết định hành động có giá tr ị tối ưu cho mọi tr ạng thái.
Thuật toán lặ p giá tr ị sinh ra từ dạng đệ qui của hàm giá tr ị tr ạng thái tối ưu
Bellman. Phươ ng trình chi phối thuật toán lặ p giá tr ị như sau:
Ngườ i ta đã chứng minh đượ c r ằng giải thuật này hội tụ tại một số hữu hạn
các bướ c lặ p để đạt tớ i đích là chiến lượ c tối ưu, chuỗi {Vk } hội tụ đến giá tr ị
tr ạng thái tối ưu V*. Phép lặ p giá tr ị k ết hợ p một cách hiệu quả cả việc đánh giá
chiến lượ c và cải thiện chiến lượ c.
Thuật toán l ặ p giá tr ị
(a) Khở i tạo V ngẫu nhiên cho mọi tr ạng thái
(b) Lặ p
Vớ i mỗi tr ạng thái s:
Đế n t ận khi Độ lệch cực đại giữa hai hàm giá tr ị thành công nhỏ hơ n một
giá tr ị đủ nhỏ ε
(c) Đầu ra: Một chiến lượ c π sao cho
Kiến trúc của các thuật toán dựa trên lặ p giá tr ị đượ c biểu diễn trong hình sau:
-
8/19/2019 Phương Pháp Học Tăng Cường
31/80
30
Hình 1.3: Kiế n trúc của thuật toán l ặ p giá tr ị
1.4.2 Một số thuật ngữ
1.4.2.1
Khảo sát và khai thác
Trong phươ ng pháp học tăng cườ ng, đặc biệt là vớ i các bài toán quyết định
tr ực tiế p, có một vấn đề về khảo sát và khai thác. Một mặt tác tử muốn khảo sát
môi tr ườ ng để tìm ra bài toán tối ưu, mặt khác cực tiểu hoá chi phí cho việc học bằng cách khai thác môi tr ườ ng.
Có một số phươ ng pháp cân bằng giữa khảo sát và khai thác. K ỹ thuật phổ
biến nhất là sử dụng một trong các chiến lượ c lựa chọn hành động ε-soft, ε-
greedy và softmax.
1.4.2.2
K ỹ thuật ε-greedy, ε-soft và softmax
Chiế n l ượ c l ự a chọn hành động ε-greedy
Đây là cách đơ n giản và phổ biến nhất để cân bằng giữa khảo sát và khai thác.
Trong phươ ng pháp này, hành động có ướ c lượ ng về giá tr ị phản hồi lớ n nhất sẽ
đượ c lựa chọn trong hầu hết thờ i gian, gọi là hành động tham lam. Nhưng bất cứ
-
8/19/2019 Phương Pháp Học Tăng Cường
32/80
31
khi nào vớ i khả năng r ất nhỏ ε, hành động đượ c lựa chọn ngẫu nhiên, giống nhau
và độc lậ p vớ i các ướ c lượ ng về giá tr ị hành động.
Trong hầu hết các tr ườ ng hợ p vớ i khả năng của hành động là 1-ε thì giá tr ị
hành động đượ c ướ c lượ ng lớ n nhất Q(s,a) đượ c lựa chọn.
Giả sử A là tậ p tất cả các hành động và N là số hành động. Giả sử thêm nữa
là khả năng lựa chọn một hành động tham lam a, và là khả năng lựa
chọn một hành động không tham lam a. Trong phươ ng pháp lựa chọn hành động
ε-greedy, khả năng lựa chọn một hành động không tham lam đượ c cho bở i công
thức:
Từ đó dễ dàng chỉ ra r ằng khả năng lựa chọn một hành động tham lam:
Phươ ng pháp này chỉ ra r ằng nếu phép thử là đủ, mỗi hành động sẽ đượ c thử
một số vô hạn các lần thì đảm bảo r ằng sẽ tìm ra đượ c các hành động tối ưu.
Chiế n l ượ c l ự a chọn hành động ε-soft
Tươ ng tự như phươ ng pháp ε-greedy, hành động tốt nhất đượ c lựa chọn vớ i
khả năng 1-ε và trong các tr ườ ng hợ p khác thực hiện lựa chọn hành động một
cách ngẫu nhiên giống nhau.
Chiế n l ượ c l ự a chọn hành động softmax
K ỹ thuật ε-greedy và ε-soft có hạn chế là trong một số tình huống chúng lựachọn các hành động ngẫu nhiên giống nhau, như vậy hành động có khả năng tồi
nhất có thể đượ c lựa chọn như là hành động tốt thứ hai. K ỹ thuật softmax khắc
phục nhượ c điểm này bằng cách gán thứ hạng hoặc tr ọng số cho mỗi hành động,
-
8/19/2019 Phương Pháp Học Tăng Cường
33/80
-
8/19/2019 Phương Pháp Học Tăng Cường
34/80
33
Đây là phươ ng pháp học các chiến lượ c khác nhau cho hành vi và ướ c lượ ng.
Có thể cậ p nhật các hàm giá tr ị ướ c lượ ng sử dụng các hành động giả thiết mà
không cần phải thử trong thực tế. Điều này đối lậ p vớ i chiến lượ c trên ở chỗ cậ p
nhật các hàm giá tr ị chỉ dựa trên kinh nghiệm.
1.4.3 Phân loại thuật toán học tăng cườ ng
Các thuật toán học tăng cườ ng đượ c chia thành hai loại chính đó là: học dựa
trên mô hình (model based) và học không có mô hình (model free). Đại điện cho
kiểu học dựa trên mô hình phải k ể đến phươ ng pháp quy hoạch động (Dynamic
Programming-DP), đại diện cho kiểu học không có mô hình là phươ ng pháp
Monte Carlo và phươ ng pháp TD (Temporal Difference).
1.4.3.1
H ọc d ự a trên mô hình
Phươ ng pháp này thực hiện học theo mô hình và sử dụng nó để quyết định
chính sách tối ưu. Tác tử ướ c lượ ng mô hình từ các quan sát về cả khả năng
chuyển đổi tr ạng thái và hàm tăng cườ ng. Sau đó sẽ sử dụng mô hình ướ c lượ ng
này như là mô hình thực tế để tìm ra chiến lượ c tối ưu .
Một cách cụ thể, tác tử tiến hành lậ p k ế hoạch và biên dịch k ết quả sang một
tậ p các phản hồi nhanh hoặc các luật tình huống – phản hồi, sau đó sẽ đượ c sử
dụng trong quyết định thờ i gian thực. Cách tiế p cận này tuy nhiên bị giớ i hạn vào
sự phục thuộc của nó vào một mô hình hoàn thiện về môi tr ườ ng.
1.4.3.2
H ọc không có mô hìnhPhươ ng pháp này tìm thấy chính sách tối ưu mà không phải học theo mô
hình. Tác tử học các giá tr ị hành động mà không có mô hình về môi tr ườ ng đượ c
mô tả bở i và . Trong phươ ng pháp này tác tử tươ ng tác tr ực tiế p vớ i môi
-
8/19/2019 Phương Pháp Học Tăng Cường
35/80
34
tr ườ ng và biên dịch thông tin nó thu thậ p đượ c thành một cấu trúc phản hồi mà
không có học từ mô hình. Trong phươ ng pháp này, các bướ c chuyển đổi tr ạng
thái và các giá tr ị phản hồi tác tử quan sát thay thế cho mô hình môi tr ườ ng.
Một trong các khó khăn lớ n nhất gặ p phải đó là làm cách nào để tính toán
đượ c mối liên k ết giữa hành động hiện tại và các hệ quả trong tươ ng lai. Để giải
quyết khó khăn này có hai cách tiế p cận: thứ nhất là đợ i đến khi k ết thúc và thực
hiện thưở ng/phạt mọi hành động đượ c thực hiện trong quá khứ, dựa trên k ết quả
cuối cùng. Trong đó phươ ng pháp Monte Carlo là một ví dụ. Vấn đề hạn chế
trong cách tiế p cận này đã đượ c Kaelbling và các cộng sự chỉ ra vào năm 1996,đó là khó khăn trong việc nhận biết khi nào k ết thúc trong chuỗi liên tiế p các sự
việc đang xảy ra. Thậm chí nếu biết đượ c nó thì cũng yêu cầu một lượ ng lớ n về
bộ nhớ .
Cách tiế p cận khác là phươ ng pháp TD đượ c đưa ra bở i Sutton vào năm 1988.
Trong phươ ng pháp này, một mạng đặc biệt đượ c điều chỉnh để học k ết hợ p các
giá tr ị tăng cườ ng cục bộ vớ i các tr ạng thái tức thì giữa hành động và giá tr ị tăng
cườ ng bên ngoài. Ý tưở ng quan tr ọng của phươ ng pháp này là giá tr ị tăng cườ ng
cục bộ của một tr ạng thái tức thì hồi quy về giá tr ị tăng cườ ng thành công.
Sau đây chúng ta sẽ đi tìm hiểu một số giải thuật RL điển hình vớ i những đặc
điểm riêng, bao gồm phươ ng pháp quy hoạch động, phươ ng pháp Monte Carlo
và phươ ng pháp TD. Vớ i phươ ng pháp quy hoạch động, nó đòi hỏi một mô hình
hoàn hảo về môi tr ườ ng, điều này không phù hợ p trong những tình huống học
của robot trong thực tế nên thườ ng đượ c dùng trong lý thuyết trò chơ i, toán
học,…Phươ ng pháp Monte Carlo không đòi hỏi mô hình về môi tr ườ ng và
không cần có cơ chế tự cậ p nhật mà bắt đầu từ việc thăm dò. Phươ ng pháp TD
-
8/19/2019 Phương Pháp Học Tăng Cường
36/80
-
8/19/2019 Phương Pháp Học Tăng Cường
37/80
36
phép) khớ p vớ i các ví dụ. Nói cách khác, ta muốn tìm ánh xạ mà dữ liệu đầu vào
đã hàm ý, vớ i hàm chi phí đo độ không khớ p giữa ánh xạ của ta và dữ liệu.
Trong học không có giám sát, ta đượ c cho tr ướ c một số dữ liệu x, và hàm chi
phí cần đượ c cực tiểu hóa có thể là một hàm bất k ỳ của dữ liệu x và đầu ra, f .
Hàm chi phí đượ c quyết định bở i phát biểu của bài toán. Phần lớ n ứng dụng nằm
trong vùng các bài toán ướ c lượ ng như mô hình hóa thống kê, nén, lọc,…
Trong học tăng cườ ng, dữ liệu x thườ ng không đượ c cho tr ướ c mà đượ c tạo ra
trong quá trình một tác tử tươ ng tác vớ i môi tr ườ ng. Tại mỗi thờ i điểm t , tác tử
thực hiện hành động yt và môi tr ườ ng tạo một quan sát xt và một chi phí tức thờ ict , theo một quy trình động nào đó (thườ ng là không đượ c biết). Mục tiêu là tìm
một chiến lượ c lựa chọn hành động để cực tiểu hóa một chi phí dài hạn nào đó,
ngh ĩ a là chi phí tích lũy mong đợ i. Quy trình động của môi tr ườ ng và chi phí dài
hạn cho mỗi sách lượ c thườ ng không đượ c biết, nhưng có thể ướ c lượ ng đượ c.
Các bài toán thườ ng đượ c giải quyết bằng học tăng cườ ng là các bài toán điều
khiển, trò chơ i và các nhiệm vụ quyết định tuần tự khác.
Ý tưở ng học qua tác động vớ i môi tr ườ ng xuất hiện lần đầu tiên khi chúng ta
ngh ĩ đến thế giớ i tự nhiên. Khi một đứa bé chơ i, vẫy tay, hoặc nhìn mọi vật, nó
không có một ngườ i dạy tr ực tiế p nào cả, nhưng nó có một mối quan hệ tr ực tiế p
giữa cảm nhận và vận động đối vớ i môi tr ườ ng. Sự tậ p luyện dựa trên mối quan
hệ này sẽ sản xuất ra một lượ ng thông tin giàu có về nguyên nhân và ảnh hưở ng,
về các hệ quả của hành động, và về việc “Phải làm gì ?” để đạt đượ c các mục
đích. Trong toàn bộ cuộc sống của chúng ta, các tác động lẫn nhau như vậy rõ
ràng là một nguồn tài nguyên chính của nhận thức về môi tr ườ ng của mỗi ngườ i.
Chẳng hạn việc chúng ta học lái một chiếc xe hoặc thực hiện một cuộc hội thoại
ngh ĩ a là chúng ta đã nhận thức sâu sắc về cách thức mà môi tr ườ ng phản ứng lại
-
8/19/2019 Phương Pháp Học Tăng Cường
38/80
37
vớ i những gì mà chúng ta làm, và chúng ta tìm kiếm sự tác động đến những gì
xảy ra qua hành động của chúng ta. Học từ tác động qua lại là một ý tưở ng cơ
bản dựa trên hầu hết các lý thuyết của học và trí tuệ nhân tạo.
Lịch sử phát triển của RL chia thành hai hướ ng chính, một hướ ng quan tâm
đến việc học vớ i phươ ng pháp thử và sai, bắt đầu trong l ĩ nh vực tâm lý học
nghiên cứu việc học của động vật. Hướ ng này xem xét các công việc sơ khai
trong trí tuệ nhân tạo và phát triển thờ i k ỳ phục hưng của RL vào đầu những năm
1980. Hướ ng thứ hai quan tâm đến các bài toán về điều khiển tối ưu và cách giải
quyết là sử dụng các hàm giá tr ị và quy hoạch động. Các ngoại lệ xoay quanhmột hướ ng thứ 3 sử dụng các phươ ng pháp chênh lệch về thờ i gian (TD). Tất cả
các hướ ng nghiên cứu hợ p nhất lại vào cuối những năm 1980, tạo ra một l ĩ nh
vực hiện đại về RL.
Ngườ i đầu tiên đi theo hướ ng tiế p cận sử dụng phươ ng pháp thử và sai có thể
k ể đến là Edward Thorndike. Thực chất của ý tưở ng này là: các hành động mà
theo sau đó là một k ết quả tốt hay xấu, sẽ có xu hướ ng thay đổi tươ ng ứng để lựa
chọn lại. Thorndike gọi điều này là “luật tác động”-mô tả tác động của các sự
kiện lên xu hướ ng lựa chọn hành động. Luật tác động bao gồm hai khía cạnh
quan tr ọng nhất của phươ ng pháp thử và sai, tính lựa chọn và tính k ết hợ p. Tính
lựa chọn liên quan đến việc cố gắng thay đổi và lựa chọn dựa trên việc so sánh
các k ết quả. Tính k ết hợ p thể hiện ở chỗ các thay đổi đượ c k ết hợ p vớ i các tình
huống riêng biệt. Lựa chọn tự nhiên trong tiến hóa là một ví dụ về tính lựa chọn,
nhưng nó không có tính k ết hợ p trong khi, việc học có giám sát mang tính k ết
hợ p nhưng không có tính lựa chọn. Tóm lại, luật tác động là sự k ết hợ p giữa “tìm
kiếm” và “ghi nhớ ”, tìm kiếm trong các định dạng về phép thử và lựa chọn hành
-
8/19/2019 Phương Pháp Học Tăng Cường
39/80
38
động trong mỗi tình huống, ghi nhớ các hành động hoạt động tốt nhất trong các
tình huống. Sự k ết hợ p này chính là bản chất trong RL.
Vớ i hướ ng tiế p cận thứ hai, thuật ngữ “điều khiển tối ưu” bắt đầu đượ c sử
dụng vào cuối những năm 1950 để mô tả bài toán thiết k ế một bộ điều khiển
nhằm cực tiểu hóa phép đo hành vi của một hệ thống động theo thờ i gian. Một
cách tiế p cận cho bài toán này đượ c Richard Bellman và các cộng sự phát triển
vào giữa những năm 1950 bằng cách mở r ộng lý thuyết của Hamilton và Jacobi
ở thế k ỷ 19. Cách tiế p cận này sử dụng khái niệm “tr ạng thái” của một hệ thống
động và khái niệm “hàm giá tr ị” hay “hàm phản hồi tối ưu” để định ngh ĩ a một phươ ng trình hàm hay còn gọi “phươ ng trình Bellman”. Lớ p các phươ ng pháp để
giải quyết bài toán điều khiển tối ưu bằng cách giải phươ ng trình này đượ c gọi là
quy hoạch động (Bellman 1957a). Bellman (1957b) cũng giớ i thiệu một phiên
bản bài toán điều khiển tối ưu riêng biệt gọi là quá trình ra quyết định Markov
(MDP). Ron Howard (1960) phát minh ra phươ ng pháp lặ p chiến lượ c cho MDP.
Tất cả những yếu tố này là những thành phần thiết yếu trong lý thuyết và các giải
thuật của RL hiện đại. Quy hoạch động là phươ ng pháp khả thi cho các bài toán
điều khiển tối ưu, tuy nhiên nó cũng bị hạn chế ở độ phức tạ p tính toán, các yêu
cầu tính toán tăng theo cấ p số nhân theo số các biến tr ạng thái. Phươ ng pháp này
sau đó cũng đã đượ c nghiên cứu và phát triển mở r ộng cho phù hợ p vớ i từng yêu
cầu.
Hướ ng tiế p cận thứ ba liên quan đến sự chênh lệch về thờ i gian (TD). Hướ ng
phát triển này là mớ i và duy nhất trong RL và đóng một vai trò quan tr ọng vì
chúng có khả năng giải quyết các bài toán vớ i tậ p tr ạng thái và hành động liên
tục.
-
8/19/2019 Phương Pháp Học Tăng Cường
40/80
39
Nhiều bài toán khác nhau có thể đượ c giải quyết bở i RL. Do RL tác tử có thể
học mà không cần ngườ i giám sát nên kiểu bài toán phù hợ p vớ i RL là các bài
toán phức tạ p, xuất hiện cách giải quyết không dễ dàng và mạch lạc. L ĩ nh vực
ứng dụng RL chủ yếu là phục vụ cho hai lớ p ngườ i dùng chính:
- Ng ườ i chơ i game: việc quyết định bướ c di chuyển tốt nhất trong trò chơ i
phụ thuộc vào một số nhân tố khác nhau, do đó số các tr ạng thái có khả năng tồn
tại trong một trò chơ i thườ ng r ất lớ n. Để bao hàm toàn bộ các tr ạng thái này sử
dụng một cách tiế p cận dựa trên các luật chuẩn đòi hỏi phải đặc tả một số lượ ng
lớ n các luật mã hoá cứng. RL sẽ giúp lượ c bỏ điều này, tác tử học đơ n giản bằngcách chơ i trò chơ i, vớ i 2 ngườ i chơ i ví dụ như trong chơ i cờ , tác tử có thể đượ c
đào tạo bằng cách chơ i vớ i các ngườ i chơ i hoặc thậm chí là các tác tử chơ i khác.
- Các bài toán đ iề u khiể n: ví dụ như lậ p chươ ng trình cho thang máy. Sẽ
không dễ dàng chỉ ra các chiến lượ c cung cấ p tốt nhất cho hầu hết các lần thang
máy phục vụ. Vớ i các bài toán điều khiển kiểu như thế này, tác tử RL có thể
đượ c đặt để học trong một môi tr ườ ng mô phỏng, cuối cùng là chúng sẽ đạt đượ c
các chiến lượ c điều khiển tốt nhất. Một số ưu điểm trong việc sử dụng RL cho
các bài toán điều khiển là tác tử có thể đào tạo lại dễ dàng để thích ứng vớ i
những thay đổi của môi tr ườ ng, và đượ c đào tạo liên tục trong khi hệ thống
online, cải thiện hiệu năng trên toàn bộ thờ i gian.
-
8/19/2019 Phương Pháp Học Tăng Cường
41/80
40
Chươ ng 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜ NG
Trong chươ ng này trình bày chi tiết từng thuật toán học tăng cườ ng đã vàđang đượ c sử dụng hiện nay.
2.1 PHƯƠ NG PHÁP QUY HOẠCH ĐỘNG (DP)
Thuật ngữ quy hoạch động liên quan đến tậ p các giải thuật đượ c sử dụng để
tính các chiến lượ c tối ưu vớ i mô hình về môi tr ườ ng hoàn hảo đượ c đưa ra. Các
thuật toán DP cổ điển bị giớ i hạn trong RL cả về giả thiết một mô hình hoàn hảo
về môi tr ườ ng và cả về phí tổn tính toán của nó tuy nhiên chúng vẫn đóng một
vai trò quan tr ọng về lý thuyết. DP cung cấ p một nền tảng thiết yếu để hiểu đượ c
các phươ ng pháp khác. Thực tế tất cả các phươ ng pháp khác ra đờ i đều vớ i mục
đích là đạt đượ c cùng hiệu năng như phươ ng pháp DP vớ i ít chi phí tính toán hơ n
và không cần giả thiết một mô hình hoàn hảo về môi tr ườ ng.
Để áp dụng đượ c quy hoạch động, chúng ta phải sử dụng các giả thiết sau:
- Môi tr ườ ng có thể đượ c mô hình dướ i dạng một bài toán Markov hữu hạn. Ngh ĩ a là tậ p các tr ạng thái và hành động là hữu hạn, và tính động đượ c
đưa ra là các khả năng chuyển đổi tr ạng thái.
- Mục tiêu tức thì đượ c k ỳ vọng:
Phươ ng pháp quy hoạch động sử dụng các hàm giá tr ị để tổ chức và cấu trúc
hóa phép tìm kiếm các chính sách tối ưu. Chúng ta có thể dễ dàng thu đượ c các
chính sách tối ưu mỗi khi tìm thấy các hàm giá tr ị tối ưu, V* hoặc Q*, thỏa mãn
-
8/19/2019 Phương Pháp Học Tăng Cường
42/80
41
phươ ng trình tối ưu Bellman. Các thuật toán DP thu đượ c chính là nhờ phép biến
đổi phươ ng trình Bellman.
Ví dụ vớ i mô hình DP cho tr ướ c chúng ta có thể tính các hàm giá tr ị tối ưu
một cách tr ực tiế p như hình vẽ minh họa sau đây:
2.2 PHƯƠ NG PHÁP MONTE CARLO (MC)
Các phươ ng pháp Monte Carlo thích hợ p cho việc học từ các kinh nghiệm
trong đó không yêu cầu nhận thức tr ướ c đó về tính động của môi tr ườ ng. Chúng
giải quyết bài toán quyết định dựa trên việc tính trung bình các giá tr ị phản hồi
mẫu.
Có hai kiểu phươ ng pháp Monte Carlo đượ c áp dụng để ướ c lượ ng Vπ(s) và
Qπ(s,a) đó là phươ ng pháp MC kiểm tra toàn bộ và phươ ng pháp MC kiểm tra
đầu tiên.
Phươ ng pháp MC kiểm tra toàn bộ ướ c lượ ng Vπ(s) bằng trung bình các phản
hồi sau tất cả các bướ c kiểm tra đối vớ i s. Qπ
(s,a) đượ c ướ c lượ ng là trung bìnhcác phản hồi sau tất cả các bướ c kiểm tra đối vớ i cặ p (s,a). Phươ ng pháp MC
kiểm tra đầu tiên tính trung bình chỉ giá tr ị phản hồi sau bướ c kiểm tra đầu tiên
-
8/19/2019 Phương Pháp Học Tăng Cường
43/80
42
trong phép ướ c lượ ng Vπ(s) và Qπ(s,a). Cả hai phươ ng pháp này đều hội tụ đến
Vπ(s) hoặc Qπ(s,a) như là số các bướ c thăm đến s hoặc cặ p (s,a).
Đánh giá chiế n l ượ c sử d ụng phươ ng pháp MC
Lặ p vô hạn:
(a) Tạo một đoạn mẫu sử dụng chiến lượ c đượ c ướ c lượ ng
s0, a0; s1, a1, r 1; …;st, r t
(b) Vớ i mỗi tr ạng thái s xuất hiện trong đoạn
Chú ý r ằng khi tạo từng đoạn, tất cả các tr ạng thái phải có khả năng tươ ng
đươ ng vớ i tr ạng thái bắt đầu. Nếu mô hình môi tr ườ ng không sẵn có thì sử dụng
ướ c lượ ng các giá tr ị hành động tốt hơ n là ướ c lượ ng các giá tr ị tr ạng thái. Nếu
có mô hình môi tr ườ ng thì các giá tr ị tr ạng thái đủ khả năng để quyết định chiến
lượ c. Chúng ta không thể sử dụng các ướ c lượ ng giá tr ị tr ạng thái để quyết định
chiến lượ c mà không có mô hình về môi tr ườ ng. Trong khi đó, chúng ta có thể sử dụng các ướ c lượ ng giá tr ị hành động trong việc quyết định chiến lượ c mà
không cần yêu cầu mô hình môi tr ườ ng.
Vớ i một chiến lượ c π, chúng ta sẽ chỉ quan sát các giá tr ị phản hồi đối vớ i chỉ
một hành động tại mỗi tr ạng thái. Như vậy, ướ c lượ ng Monte Carlo của các tr ạng
thái khác sẽ không cải tiến theo kinh nghiệm. Đây là một vấn đề quan tr ọng vì
mục đích của các giá tr ị hành động học là giúp cho việc lựa chọn giữa các giá tr ị
có hiệu lực trong mỗi tr ạng thái.
K ết quả là chúng ta cần ướ c lượ ng giá tr ị của tất cả các hành động từ mỗi
tr ạng thái. Để giải quyết vấn đề này, chúng ta có thể bắt đầu mỗi đoạn tại một
-
8/19/2019 Phương Pháp Học Tăng Cường
44/80
43
cặ p hành động - tr ạng thái, mọi cặ p như vậy sẽ có khả năng lựa chọn 0 khi bắt
đầu. Giải pháp khác là sử dụng chiến lượ c ngẫu nhiên vớ i khả năng lựa chọn tất
cả các hành động khác 0. Điều này đảm bảo r ằng tất cả các cặ p hành động –
tr ạng thái sẽ đượ c kiểm tra một số lần vô hạn trong giớ i hạn là có vô hạn các
đoạn.
Chiế n l ượ c t ố i ư u sử d ụng phươ ng pháp MC
Bắt đầu vớ i một chiến lượ c π ngẫu nhiên và Q(s,a) ngẫu nhiên
Lặ p vô hạn:
(a) Tạo một đoạn mẫu sử dụng π vớ i khả năng lựa chọn tất cả các hành độnglà khác 0, độc lậ p vớ i π tại thờ i điểm bắt đầu: s0, a0; s1, a1, r 1; …;st, r t
(b) Vớ i mỗi cặ p s, a xuất hiện trong đoạn
(c) Vớ i mỗi s trong đoạn
Tóm lại, một vấn đề chính trong khi sử dụng phươ ng pháp MC là đảm bảo r ằng
tất cả các hành động đượ c lựa chọn không giớ i hạn. Để đảm bảo điều này, chúng
ta sử dụng các chiến lượ c soft vớ i π(s,a) > 0 cho tất cả các tr ạng thái và hành
động. Khả năng thực hiện có thể đượ c chuyển dần chiến lượ c hướ ng đến chiến
lượ c tối ưu. Ví dụ, có thể áp dụng phươ ng pháp lựa chọn hành động ε-greeady và
softmax để thực hiện khả năng trên.
-
8/19/2019 Phương Pháp Học Tăng Cường
45/80
44
2.2.1 Phươ ng pháp MC on-policy
Trong phươ ng pháp này, chiến lượ c điều khiển tác tử sẽ đượ c cải thiện. Một
chiến lượ c soft sử dụng phươ ng pháp lựa chọn hành động ε-greeady là một
chiến lượ c ngẫu nhiên vớ i:
Chúng ta có thể thay đổi thuật toán cho chiến lượ c tối ưu vớ i giả sử r ằng phép
lựa chọn tất cả các hành động độc lậ p vớ i π tại thờ i điểm bắt đầu sử dụng cácchiến lượ c soft. Các chiến lượ c soft đảm bảo phép lựa chọn tất cả các hành động
tại tất cả các bướ c.
Bắt đầu vớ i một chiến lượ c soft bất k ỳ π và Q(s,a) bất k ỳ.
Lặ p vô hạn:
(a) Tạo ra một đoạn sử dụng π: s0, a0; s1, a1, r 1;…;sT, r T
(b) Vớ i mỗi cặ p s, a xuất hiện trong đoạn
(c) Vớ i mỗi s trong đoạn
Cho tất cả các hành động a:
-
8/19/2019 Phương Pháp Học Tăng Cường
46/80
45
2.2.2 Phươ ng pháp MC off-policy
Trong phươ ng pháp này, chiến lượ c đượ c sử dụng để tạo hành vi khác so vớ i
chiến lượ c đượ c ướ c lượ ng và cải tiến. Chiến lượ c đượ c sử dụng để tạo hành vi
đượ c gọi là chiến lượ c hành vi và chiến lượ c khác đượ c gọi là chiến lượ c ướ c
lượ ng.
Một đặc điểm quan tr ọng của chiến lượ c hành vi đó là chiến lượ c cần phải có
khả năng lựa chọn tất cả các hành động đượ c lựa chọn bở i chiến lượ c ướ c lượ ng
là khác 0.
2.3
PHƯƠ NG PHÁP TEMPORAL DIFFERENCE (TD)
Phươ ng pháp này đượ c sử dụng để ướ c lượ ng các hàm giá tr ị. Nếu các hàm
giá tr ị có thể tính toán mà không cần ướ c lượ ng, tác tử cần phải đợ i đến tận khi
nhận đượ c giá tr ị phản hồi cuối cùng tr ướ c khi các giá tr ị của cặ p tr ạng thái-hành
động đượ c cậ p nhật tươ ng ứng. Phươ ng pháp này đượ c biểu diễn hình thức như
sau:
vớ i st là tr ạng thái đượ c xem xét tại thờ i điểm t, r t là giá tr ị phản hồi sau thờ i gian
t và α là một hằng số.
Mặt khác vớ i phươ ng pháp TD, một ướ c lượ ng của giá tr ị phản hồi cuối cùng
đượ c tính tại mỗi tr ạng thái và giá tr ị tr ạng thái-hành động đượ c cậ p nhật cho
mọi bướ c. Biểu diễn hình thức:
vớ i r t+1 là giá tr ị phản hồi thu đượ c tại thờ i điểm t+1.
-
8/19/2019 Phương Pháp Học Tăng Cường
47/80
46
Phươ ng pháp TD đượ c gọi là phươ ng pháp “tự cậ p nhật”, bở i vì giá tr ị đượ c
cậ p nhật từng phần sử dụng một xấ p xỉ tồn tại mà