phương pháp học tăng cường

8/19/2019 Phương Pháp Học Tăng Cường

1/80

BỘ GIÁO DỤC VÀ ĐÀO TẠOTR ƯỜ NG ĐẠI HỌC BÁCH KHOA HÀ NỘI

------------------------------------------

LUẬN VĂN THẠC SĨ KHOA HỌC

NGÀNH: CÔNG NGHỆ THÔNG TIN

PHƯƠ NG PHÁP HỌC TĂNG CƯỜ NG

NGUYỄN THỊ THUẬN

HÀ NỘI 2006

N G UY

Ễ NTH Ị TH U Ậ N

C Ô N G N GH Ệ

TH

Ô N G TI N

2 0 0 4 -2 0 0 6

HÀ NỘI2006


2/80

1

LỜ I CẢM Ơ N

Trong suốt quá trình học tậ p cũng như quá trình làm luận văn, em đãnhận đượ c sự giúp đỡ của các thầy cô giáo trong bộ môn, đặc biệt là sự chỉ

bảo hướ ng dẫn tận tình của thầy giáo hướ ng dẫn TS Nguyễn Linh Giang. Vớ i

lòng biết ơ n sâu sắc, em xin chân thành cảm ơ n các thầy cô giáo trong bộ môn

đặc biệt là thầy giáo TS Nguyễn Linh Giang đã giúp đỡ để em hoàn thành

luận văn thạc sỹ khoa học này.

Em cũng xin gửi lờ i cảm ơ n tớ i ban lãnh đạo cũng như các đồng nghiệ p

nơ i em đang công tác đã tạo điều kiện giúp em có một môi tr ườ ng nghiên cứu

và làm việc tốt.

Cuối cùng, em xin gửi lờ i cảm ơ n tớ i gia đình, bạn bè, những ngườ i

thân đã luôn động viên, khích lệ và giúp đỡ em trong suốt quá trình học tậ p và

làm luận văn vừa qua.

Hà Nội, tháng 10 năm 2006Học viên Nguyễ n Th ị Thuận

Lớ p: Cao học CNTT 2004-2006


3/80

2

MỤC LỤC

LỜ I CẢM Ơ N.......................................................................................................1

MỤC LỤC.............................................................................................................2

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT..............................................4

MỞ ĐẦU ...............................................................................................................5

CHƯƠ NG 1 BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ PHƯƠ NGPHÁP HỌC TĂNG CƯỜ NG...........................................................................7

1.1 PHÁT BIỂU BÀI TOÁN..........................................................................7

1.2 CÁC PHẦ N TỬ CỦA BÀI TOÁN QUYẾT ĐỊ NH MARKOV.............10 1.2.1 Hàm phản hồi...................................................................................15 1.2.2 Hàm giá tr ị .......................................................................................16

1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊ NH MARKOV 20 1.4 PHƯƠ NG PHÁP HỌC TĂ NG CƯỜ NG................................................26

1.4.1 Ý tưở ng chung .................................................................................26 1.4.2 Một số thuật ngữ..............................................................................30

1.4.2.1 Khảo sát và khai thác...........................................................................30 1.4.2.2 K ỹ thuật ε-greedy, ε-soft và softmax ...................................................30 1.4.2.3 Khái niệm học on-policy và off-policy .................................................32

1.4.3 Phân loại thuật toán học tăng cườ ng ...............................................33 1.4.3.1 H ọc d ự a trên mô hình...........................................................................33 1.4.3.2 H ọc không có mô hình..........................................................................33

1.4.4 Lịch sử phát triển và các l ĩ nh vực ứng dụng ...................................35

CHƯƠ NG 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜ NG.......................40

2.1 PHƯƠ NG PHÁP QUY HOẠCH ĐỘ NG (DP).......................................40 2.2 PHƯƠ NG PHÁP MONTE CARLO (MC).............................................41

2.2.1 Phươ ng pháp MC on-policy ............................................................44 2.2.2 Phươ ng pháp MC off-policy............................................................45

2.3 PHƯƠ NG PHÁP TEMPORAL DIFFERENCE (TD)............................45 2.3.1 TD(0) ...............................................................................................46 2.3.2 TD(λ) ...............................................................................................47 2.3.3 Q-Learning.......................................................................................48 2.3.4 SARSA ............................................................................................49


4/80

3

2.4 SO SÁNH CÁC THUẬT TOÁN HỌC TĂ NG CƯỜ NG ĐIỂ N HÌNH..50 2.5 MỘT SỐ PHƯƠ NG PHÁP TIẾ N BỘ KHÁC........................................51

CHƯƠ NG 3 THỬ NGHIỆM .......................................................................52 3.1 BÀI TOÁN LỰ A CHỌ N MÔ PHỎ NG..................................................52 3.2 PHƯƠ NG PHÁP HỌC TĂ NG CƯỜ NG LỰ A CHỌ N MÔ PHỎ NG ....55

3.2.1 Phươ ng pháp quy hoạch động (DP) ................................................55 3.2.2 Học không có mô hình (Phươ ng pháp Q-Learning)........................58 3.2.3 Học dựa trên mô hình (Phươ ng pháp prioritized sweeping)...........59

3.3 K ỊCH BẢ N VÀ K ẾT QUẢ THỬ NGHIỆM ..........................................61 3.3.1 K ịch bản 1: Thay đổi kích thướ c không gian tr ạng thái..................67

3.3.1.1 S ố bướ c hội t ụ.......................................................................................68 3.3.1.2 Thờ i gian hội t ụ ....................................................................................68 3.3.1.3 Phân tích k ế t quả..................................................................................69 3.3.1.4 Giải pháp cải thiện...............................................................................70 3.3.1.5 K ế t luận ................................................................................................70

3.3.2 K ịch bản 2: Thay đổi hệ số học.......................................................70 3.3.2.1 Phân rã hệ số học theo số đ oạn l ặ p .....................................................71 3.3.2.2 M ố i quan hệ giữ a giá tr ị chiế n l ượ c và hệ số học...............................71 3.3.2.3 Phân tích k ế t quả..................................................................................73 3.3.2.4 Giải pháp cải thiện...............................................................................73 3.3.2.5 K ế t luận ................................................................................................74

3.3.3 K ịch bản 3: Thay đổi số đoạn lặ p....................................................74 3.3.3.1 M ố i quan hệ giữ a giá tr ị chiế n l ượ c và số đ oạn l ặ p ............................74 3.3.3.2 Phân tích đ ánh giá k ế t quả...................................................................76

3.3.4 K ịch bản 4: Thay đổi chiến lượ c lựa chọn ......................................76 3.3.4.1 M ố i quan hệ giữ a giá tr ị chiế n l ượ c và tham số chiế n l ượ c ................76 3.3.4.2 Phân tích đ ánh giá k ế t quả...................................................................77

ĐÁNH GIÁ K ẾT LUẬN....................................................................................78

TÀI LIỆU THAM KHẢO .................................................................................79

TÓM TẮT LUẬN VĂN.....................................................................................80


5/80

4

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Thuật ng ữ Viế t t ắ t

Học tăng cườ ng (Reinforcement Learning) RL

Phươ ng pháp lậ p trình động (Dynamic Programming) DP

Phươ ng pháp Monte Carlo MC

Phươ ng pháp Temporal Difference TD


6/80

5

MỞ ĐẦU

Tính cấp thiết của đề tàiXã hội ngày càng hiện đại, các k ỹ thuật công nghệ ngày càng phát triển, đi

cùng vớ i nó là các nghiên cứu phát triển không ngừng về l ĩ nh vực trí tuệ nhân

tạo và học máy, cho ra đờ i các hệ thống máy móc thông minh ứng dụng r ộng rãi

trong hầu hết các l ĩ nh vực đờ i sống như máy truy tìm dữ liệu, chẩn đoán y khoa,

phát hiện thẻ tín dụng giả, phân tích thị tr ườ ng chứng khoán, phân loại chuỗi

DNA, nhận dạng tiếng nói và chữ viết, … đặc biệt là trong l ĩ nh vực điều khiển.

Các phươ ng pháp tự đào tạo (học) đã đượ c đưa ra từ r ất lâu để chỉ khả năng

các hệ thống thông minh trong quá trình hoạt động tự tích luỹ, phân tích các

thông tin thu đượ c từ đó tự nâng cao khả năng của bản thân, đây chính là mục

đích quan tr ọng trong lỹ thuyết quyết định cũng như trong các bài toán tự động

hoá và điều khiển tối ưu.

Chúng ta có nhiều loại thuật toán học như học có giám sát, học không có

giám sát, học tăng cườ ng, mỗi loại thuật toán thích ứng vớ i từng loại bài toán cụ

thể. Trong phạm vi đề tài này, chúng ta sẽ nghiên cứu và tìm hiểu các vấn đề liên

quan đến phươ ng pháp học tăng cườ ng. Đây là một thuật toán học có khả năng

giải quyết đượ c những bài toán thực tế khá phức tạ p trong đó có sự tươ ng tác giữ

hệ thống và môi tr ườ ng. Vớ i những tình huống môi tr ườ ng không chỉ đứng yên,

cố định mà thay đổi phức tạ p thì các phươ ng pháp học truyền thống không còn

đáp ứng đượ c mà phải sử dụng phươ ng pháp học tăng cườ ng. Những bài toánvớ i môi tr ườ ng thay đổi trong thực tế là không nhỏ và ứng dụng nhiều trong các

l ĩ nh vực quan tr ọng.

Mục đích


7/80

6

Qua quá trình làm luận văn sẽ tổng hợ p và nắm vững các kiến thức về

phươ ng pháp học tăng cườ ng nói chung. Hiểu rõ ý tưở ng, cơ chế hoạt động các

thuật toán học tăng cườ ng và ứng dụng trong các bài toán điển hình cụ thể. Đồng

thờ i cũng thực hiện mô phỏng bài toán thử nghiệm, đo đạc thống kê và đánh giá

k ết quả thử nghiệm về các thuật toán RL.

Giớ i hạn vấn đề

Do những hạn chế về điều kiện và thờ i gian thực hiện, đề tài nghiên cứu mớ i

chỉ ở mức lý thuyết và cài đặt thử nghiệm, chưa đượ c ứng dụng vào thực tiễn.

Hướ ng phát triểnTrong thờ i gian tớ i, sẽ cố gắng ứng dụng các kiến thức về phươ ng pháp học

tăng cườ ng, xây dựng bài toán thực tiễn cụ thể và ứng dụng r ộng rãi.

Bố cục của luận văn

Luận văn gồm 3 chươ ng vớ i những nội dung chính như sau:

Chươ ng 1: Trình bày lý thuyết tổng quan về phươ ng pháp học tăng cườ ng,

mô hình bài toán quyết định Markov, bên cạnh đó cũng giớ i thiệu sơ lượ c về sự

ra đờ i, cũng như lịch sử phát triển của phươ ng pháp học tăng cườ ng, các l ĩ nh vực

ứng dụng trong thực tiễn.

Chươ ng 2: Trình bày chi tiết về đặc điểm, các bướ c thực hiện của từng loại

giải thuật học tăng cườ ng đã và đang đượ c sử dụng hiện nay.

Chươ ng 3: Trình bày về bài toán lựa chọn thử nghiệm, giớ i thiệu lại sơ qua về

loại thuật toán học tăng cườ ng lựa chọn áp dụng trong bài toán thử nghiệm. Các

k ịch bản thử nghiệm và các k ết quả thu đượ c. Trên cơ sở đó, k ết luận đánh giá và

đưa ra giải pháp cải tiến.


8/80

7

Chươ ng 1 BÀI TOÁN QUYẾT ĐỊNH MARKOV VÀ


Phươ ng pháp học tăng cườ ng là một phươ ng pháp phổ biến để giải các bài

toán quyết định Markov. Bài toán quyết định Markov có r ất nhiều ứng dụng

trong các l ĩ nh vực k ỹ thuật như lý thuyết quyết định, quy hoạch toán học, điều

khiển tối ưu, ... Trong phần này, chúng ta sẽ trình bày về quá trình quyết định

Markov trong đó tậ p trung vào các khái niệm của quá trình Markov có số bướ c

vô hạn và có số bướ c hữu hạn.

1.1 PHÁT BIỂU BÀI TOÁN

Bài toán quyết định Markov là bài toán học từ các tác động để đạt đượ c mục

đích. Ngườ i học và ngườ i ra quyết định đượ c gọi là tác tử. Tất cả những gì mà

chúng tươ ng tác vớ i, bao gồm mọi thứ bên ngoài tác tử đượ c gọi là môi tr ườ ng.

Các tác động thực hiện một cách liên tục, tác tử lựa chọn các hành động, môi

tr ườ ng đáp ứng lại các hành động đó và chuyển từ tr ạng thái hiện thờ i sang tr ạng

thái mớ i. Môi tr ườ ng cũng đem lại các mục tiêu, các giá tr ị bằng số mà tác tử cố

gắng cực đại hoá qua thờ i gian. Một đặc tả hoàn thiện về môi tr ườ ng đượ c coi là

một “nhiệm vụ”, một thực thể của bài toán quyết định Markov.

Tóm lại, bài toán quyết định Markov liên quan đến lớ p bài toán trong đó một

tác tử rút ra k ết luận trong khi phân tích một chuỗi các hành động của nó cùng

vớ i tín hiệu vô hướ ng đượ c đưa ra bở i môi tr ườ ng.

Trong khái niệm chung này có thể thấy hai đặc tính quan tr ọng:

• Tác tử tươ ng tác vớ i môi tr ườ ng và cặ p “Tác tử + Môi tr ườ ng” tạo

thành một hệ thống động.


9/80

8

• Tín hiệu tăng cườ ng, đượ c nhận biết dựa vào mục tiêu, cho phép tác tử

thay đổi hành vi của nó.

Lượ c đồ tươ ng tác tác tử-môi tr ườ ng như sau:

Hình 1.1: Mô hình t ươ ng tác giữ a tác t ử và môi tr ườ ng

Trong lượ c đồ trên, tác tử và môi tr ườ ng tác động lẫn nhau tại mỗi bướ c trong

chuỗi các bướ c thờ i gian r ờ i r ạc, t = 0, 1, 2, 3, …Tại mỗi bướ c thờ i gian t, tác tử

nhận một số biểu diễn về tr ạng thái của môi tr ườ ng, st∈S, vớ i S là tậ p các tr ạng

thái có thể, và trên đó lựa chọn một hành động at∈A(st), vớ i A(st) là tậ p các hành

động có hiệu lực trong tr ạng thái st. Mỗi bướ c thờ i gian tiế p theo, tác tử nhậnmột giá tr ị tăng cườ ng r t+1∈R và tự nó tìm ra một tr ạng thái mớ i st+1.

Tại mỗi bướ c tác tử thực hiện ánh xạ từ các tr ạng thái đến các hành động có

thể lựa chọn. Phép ánh xạ này đượ c gọi là chiến lượ c của tác tử, kí hiệu là πt vớ i

πt(s,a) là xác suất thực hiện hành động at=a khi st=s. Như vậy, bài toán quyết

định Markov thực chất có thể đượ c phát biểu như sau:

Biết - Tậ p các tr ạng thái: S- Tậ p các hành động có thể: A

- Tậ p các tín hiệu tăng cườ ng (mục tiêu).

Bài toán Tìm π:S→A sao cho R lớ n nhất


10/80

9

Vớ i mô hình bài toán quyết định Markov như trên, chúng ta có thể xem xét

qua một số ví dụ quen thuộc.

Ví d ụ 1: Máy bán hàng t ự động

- Tr ạng thái: cấu hình các khe.

- Hành động: thờ i gian dừng lại.

- Mục tiêu: kiếm đượ c nhiều tiền.

- Bài toán: tìm π:S→A sao cho R lớ n nhất.

Ví d ụ 2: Tic-Tac-Toe

Đây là một trò chơ i quen thuộc của giớ i tr ẻ. Hai ngườ i chơ i thực hiện chơ itrên một bảng kích thướ c 3x3. Một ngườ i ghi kí hiệu X và một ngườ i ghi kí hiệu

O, đến tận khi có ngườ i thắng nhờ ghi 3 dấu trên cùng một hàng dọc hoặc hàng

ngang hoặc hàng chéo, như ngườ i ghi dấu X trong hình vẽ:

Nếu bảng bị lấ p đầy mà không ngườ i chơ i nào ghi đượ c 3 dấu trong cùng một

hàng thì tr ận đấu sẽ hoà. Bài toán tic-tac-toe đượ c tiế p cận sử dụng RL như sau:

- Tr ạng thái: bảng 3x3.

- Hành động: phép di chuyển tiế p theo.

- Mục tiêu: 1 nếu thắng, -1 nếu thua, 0 nếu hoà.


Ví d ụ 3:Robot di động

- Tr ạng thái: vị trí của Robot và của ngườ i.

- Hành động: sự di chuyển.

- Mục tiêu: số các bướ c đối mặt thành công.


11/80

10


Để hiểu rõ ràng về các bài toán trong thực tế, ở đây chúng ta xét ví dụ một

cuộc đối thoại về mối quan hệ giữa tác tử và môi tr ườ ng như sau:

Môi tr ườ ng : Bạn đang ở tr ạng thái 65. Bạn có 4 hành động để lựa chọn.

Tác t ử : Tôi lựa chọn hành động 2.

Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là 7 đơ n vị.

Hiện tại bạn đang ở tr ạng thái 15.

Bạn có 2 hành động để lựa chọn.

Tác t ử : Tôi lựa chọn hành động 1. Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là -4 đơ n vị.



Tác t ử : Tôi lựa chọn hành động 2.

Môi tr ườ ng : Bạn nhận đượ c một giá tr ị tăng cườ ng là 5 đơ n vị.



1.2 CÁC PHẦN TỬ CỦA BÀI TOÁN QUYẾT ĐỊNH MARKOV

Dựa vào tác tử và môi tr ườ ng, chúng ta có thể định ngh ĩ a 4 phần tử con của

một bài toán quyết định Markov: chiến lượ c ( policy), hàm phản hồi (reward

function), hàm giá tr ị (value function), và không bắt buộc, một mô hình về môi

tr ườ ng.Chiế n l ượ c định ngh ĩ a cách thức tác tử học từ hành động tại thờ i điểm đưa ra.

Chiến lượ c là một ánh xạ từ tậ p các tr ạng thái của môi tr ườ ng đến tậ p các hành

động đượ c thực hiện khi môi tr ườ ng ở trong các tr ạng thái đó. Nó tươ ng ứng vớ i


12/80

11

tậ p các luật nhân quả trong l ĩ nh vực tâm lí học. Trong một số tr ườ ng hợ p, chiến

lượ c có thể là một hàm đơ n giản hoặc một bảng tra cứu, trong những tr ườ ng hợ p

khác, nó có thể liên quan đến các tính toán mở r ộng ví dụ như một tiến trình tìm

kiếm. Chiến lượ c là nhân của một tác tử vớ i nhận thức r ằng một mình nó đủ

quyết định hành động.

Hàm phản hồi định ngh ĩ a mục tiêu trong bài toán quyết định Markov. Nó ánh

xạ mỗi tr ạng thái quan sát đượ c (hoặc một cặ p hành động-tr ạng thái) của môi

tr ườ ng vớ i một giá tr ị phản hồi để chỉ ra mong muốn thực chất về tr ạng thái đó.

Mục đích duy nhất của tác tử là cực đại hoá tổng giá tr ị phản hồi nó nhận đượ ctrong suốt thờ i gian chạy. Hàm phản hồi định ngh ĩ a sự kiện nào là tốt hay xấu

cho tác tử. Trong một hệ thống thuộc l ĩ nh vực sinh vật học, không phù hợ p để

định ngh ĩ a các giá tr ị phản hồi vớ i niềm vui và sự đau đớ n. Chúng là các đặc tính

tức thì và đượ c định ngh ĩ a là các vấn đề mà tác tử cần đối mặt. Như thế, hàm

phản hồi cần phải có khả năng thay đổi bở i tác tử. Tuy nhiên, nó có thể phục vụ

dướ i dạng một yếu tố cơ bản để thay đổi chiến lượ c. Ví dụ, nếu hành động lựa

chọn bở i chiến lượ c đượ c theo sau bở i một hàm phản hồi thấ p, thì chiến lượ c có

thể đượ c thay đổi để lựa chọn hành động khác thay thế trong tươ ng lai.

Trong khi một hàm phản hồi chỉ ra cái gì là tốt cho một ý thức tức thì, một

hàm giá tr ị sẽ đặc tả cái gì là tốt trong suốt một giai đoạn thờ i gian. Nói cách

khác, giá tr ị của một tr ạng thái là tổng số các hàm phản hồi một tác tử có thể k ỳ

vọng để tích luỹ trong tươ ng lai, bắt đầu từ tr ạng thái đó. Trong khi các giá tr ị

phản hồi quyết định mong muốn thực chất tức thì về các tr ạng thái môi tr ườ ng,

thì các hàm giá tr ị chỉ ra mong muốn trong cả quá trình về các tr ạng thái sau khi

đưa vào bản miêu tả các tr ạng thái tiế p theo, và các mục tiêu hiệu quả trong các

tr ạng thái đó. Ví dụ, một tr ạng thái có thể thườ ng xuyên mang lại một hàm phản


13/80

12

hồi tức thì thấ p, nhưng vẫn có một hàm giá tr ị cao, vì nó thườ ng đượ c theo sau

bở i các tr ạng thái khác mà mang lại các giá tr ị phản hồi cao, hoặc ngượ c lại. Để

tạo ra các mô hình tươ ng tự con ngườ i, các giá tr ị phản hồi giống như là sự hài

lòng (khi hàm phản hồi có giá tr ị lớ n) và hình phạt (khi hàm phản hồi có giá tr ị

thấ p), trong khi các hàm giá tr ị tươ ng ứng vớ i một sự phán đoán tinh tế hơ n và

nhìn xa trông r ộng hơ n về việc chúng ta hài lòng hay không hài lòng như thế nào

khi môi tr ườ ng ở trong một tr ạng thái riêng biệt. Biểu diễn theo cách này, chúng

ta k ỳ vọng r ằng các hàm giá tr ị rõ ràng là một ý tưở ng khuôn mẫu thân thiện và

căn bản.Các hàm phản hồi là trong một ngữ cảnh chính, trong khi các hàm giá tr ị, như

là các tiên đoán của các giá tr ị phản hồi, là nhân tố thứ hai. Không có các giá tr ị

phản hồi thì sẽ không có các hàm giá tr ị. Mục đích duy nhất của việc ướ c lượ ng

các hàm giá tr ị là để đạt đượ c các giá tr ị phản hồi lớ n hơ n. Tuy nhiên, chính các

hàm giá tr ị là đối tượ ng mà chúng ta đề cậ p đến nhiều nhất khi ra quyết định và

đánh giá quyết định. Việc lựa chọn quyết định dựa trên sự phán đoán về hàm giá

tr ị. Chúng ta tìm kiếm các hành động mà đem lại các tr ạng thái vớ i giá tr ị lớ n

nhất, chứ không phải là các phản hồi lớ n nhất, bở i vì các hành động này chứa số

lượ ng phản hồi lớ n nhất cho chúng ta trong cả giai đoạn. Trong ra quyết định và

lậ p k ế hoạch, con số đượ c k ế thừa đượ c gọi là “giá tr ị” là một đối tượ ng mà

chúng ta quan tâm nhiều nhất. Thật không may, việc xác định giá tr ị khó hơ n

nhiều so vớ i xác định giá tr ị phản hồi. Các giá tr ị phản hồi về cơ bản đượ c đưa ra

tr ực tiế p bở i môi tr ườ ng, nhưng các hàm giá tr ị cần phải đượ c ướ c lượ ng và ướ c

lượ ng lại từ chuỗi các quan sát tác tử có đượ c qua toàn bộ thờ i gian sống của nó.

Thực tế, thành phần quan tr ọng nhất của tất cả các thuật toán học tăng cườ ng là

một phươ ng pháp để ướ c lượ ng các hàm giá tr ị một cách hiệu quả nhất. Vai trò


14/80

13

trung tâm của phép ướ c lượ ng hàm giá tr ị có thể xem là điều quan tr ọng nhất mà

chúng ta học về phươ ng pháp học tăng cườ ng trong suốt các thậ p k ỷ gần đây.

Mặc dù hầu hết các phươ ng pháp học tăng cườ ng đượ c xem xét tuân theo cấu

trúc xung quanh việc ướ c lượ ng các hàm giá tr ị, tuy nhiên đây cũng không phải

là nhân tố bắt buộc để giải quyết đượ c các bài toán quyết định Markov. Ví dụ, có

thể sử dụng các phươ ng pháp tìm kiếm như các thuật toán phát sinh, lậ p trình

phát sinh, huấn luyện tái tạo và các phươ ng pháp tối ưu hoá chức năng khác

đượ c sử dụng để giải quyết các bài toán quyết định Markov. Các phươ ng pháp

này tìm kiếm tr ực tiế p trong không gian các chiến lượ c mà không phải sử dụngcác hàm giá tr ị. Chúng ta gọi đây là “các phươ ng pháp tiến hoá” bở i vì hoạt động

của chúng tươ ng tự như cách mà phép tiến hoá sinh vật học tạo ra các sinh vật

vớ i các hành động có k ỹ năng thậm chí khi chúng không học trong suốt chu k ỳ

sống cá thể của chúng. Nếu không gian các chiến lượ c là đủ nhỏ hoặc có thể định

cấu trúc, nhờ đó các chiến lượ c tốt là phổ biến hoặc dễ tìm kiếm, thì các phươ ng

pháp “tiến hoá” có thể hiệu quả. Ngoài ra, các phươ ng pháp “tiến hoá” có ưu

điểm trong những bài toán ở đó tác tử học không thể phán đoán chính xác tr ạng

thái của môi tr ườ ng.

Tuy nhiên, những gì chúng ta đề cậ p đến phươ ng pháp học tăng cườ ng liên

quan đến việc học trong quá trình tươ ng tác vớ i môi tr ườ ng, do đó các phươ ng

pháp tiến hoá không thực hiện đượ c. Chúng ta tin tưở ng r ằng các phươ ng pháp

có khả năng nắm bắt những ưu điểm trong tác động thuộc hành vi có thể hiệu

quả hơ n là các phươ ng pháp tiến hoá trong nhiều tình huống. Các phươ ng pháp

tiến hoá bỏ qua r ất nhiều cấu trúc có ích của bài toán quyết định Markov: chúng

không sử dụng một thực tế r ằng chiến lượ c mà chúng đang tìm kiếm là một hàm

từ các tr ạng thái đến hành động., chúng không chú ý đến tr ạng thái nào cá thể


15/80

14

tr ải qua trong suốt chu k ỳ sống hoặc hành động nào nó lựa chọn. Trong một số

tr ườ ng hợ p, thông tin này có thể là sai lạc (ví dụ, khi các tr ạng thái không đượ c

quan sát), nhưng thườ ng xuyên hơ n, nó có thể cho phép tìm kiếm hiệu quả hơ n.

Mặc dù việc “học” và “tiến hoá” chia sẻ nhiều đặc tính và có thể k ết hợ p cùng

vớ i nhau, như chúng thực hiện trong tự nhiên, chúng ta không xem xét các

phươ ng pháp tiến hoá đặc biệt là trong các bài toán quyết định Markov. Một

cách đơ n giản trong tài liệu này khi chúng ta sử dụng thuật ngữ “học tăng

cườ ng”, chúng ta không bao gồm các phươ ng pháp tiến hoá.

Phần tử thứ 4 và cũng là phần tử cuối cùng của bài toán quyết định Markovđó là mô hình của môi tr ườ ng. Đây là đối tượ ng để bắt chướ c hành vi của môi

tr ườ ng. Ví dụ, khi đưa ra một tr ạng thái và hành động, mô hình có thể dự đoán

tổng hợ p tr ạng thái tiế p theo và giá tr ị phản hồi tiế p theo. Các mô hình đượ c sử

dụng để lậ p k ế hoạch, nhờ đó chúng ta dự định cho quyết định bất k ỳ trên một

tiến trình của hành động bằng cách xem xét các tình huống trong tươ ng lai có thể

xảy ra tr ướ c khi chúng có kinh nghiệm thực sự. Sự hợ p nhất giữa các mô hình và

k ế hoạch trong các hệ thống học tăng cườ ng là một phát triển mớ i. Các hệ thống

học tăng cườ ng ban đầu là những ngườ i học “thử và lỗi”, vớ i cách tiế p cận này

những gì chúng thực hiện đượ c xem như là đối lậ p vớ i k ế hoạch. Tuy nhiên,

ngày càng rõ ràng r ằng các phươ ng pháp học tăng cườ ng có liên quan gần gũi

vớ i các phươ ng pháp quy hoạch động, trong đó cũng sử dụng các mô hình và

chúng cũng lần lượ t có liên quan gần gũi vớ i các phươ ng pháp lậ p k ế hoạch

không gian tr ạng thái. Các phươ ng pháp học tăng cườ ng hiện đại mở r ộng sự

phân bố từ học thử và lỗi mức thấ p sang việc lậ p k ế hoạch có tính thảo luận mức

cao.


16/80

15

1.2.1 Hàm phản hồi

Mục đích của tác tử là cực đại hoá các mục tiêu đượ c tích luỹ trong tươ ng lai.

Hàm phản hồi R(t) đượ c biểu diễn dướ i dạng hàm số đối vớ i các mục tiêu. Trong

các bài toán quyết định Markov, hàm phản hồi sử dụng biểu thức dạng tổng. Các

nhà nghiên cứu đã tìm ra ba biểu diễn thườ ng đượ c sử dụng của hàm phản hồi:

Trong các bài toán số bướ c hữ u hạn

Vớ i những bài toán này ta có một số hữu hạn các bướ c trong tươ ng lai. Sẽ tồn

tại một tr ạng thái k ết thúc và một chuỗi các hành động giữa tr ạng thái đầu tiên và

tr ạng thái k ết thúc đượ c gọi là một giai đoạn.Ta có:

Trong đó K là số các bướ c tr ướ c tr ạng thái k ết thúc

Trong các bài toán số bướ c vô hạn

Vớ i những bài toán này ta có chuỗi các hành động là vô hạn. Một hệ số suy

giảm γ, 0≤γ≤1 đượ c đưa ra và hàm phản hồi đượ c biểu diễn dướ i dạng tổng củacác giá tr ị mục tiêu giảm dần:

Hệ số γ cho phép xác định mức độ ảnh hưở ng của những bướ c chuyển tr ạng

thái tiế p theo đến giá tr ị phản hồi tại thờ i điểm đang xét. Giá tr ị của γ cho phép

điều chỉnh giai đoạn tác tử lấy các hàm tăng cườ ng. Nếu γ = 0, thì tác tử chỉ xem

xét mục tiêu gần nhất, giá tr ị γ càng gần vớ i 1 thì tác tử sẽ quan tâm đến các mục

tiêu xa hơ n trong tươ ng lai.

Như vậy, thực chất bài toán quyết định Markov trong tr ườ ng hợ p này chính là

việc lựa chọn các hành động để làm cực đại biểu thức R:


17/80

16

R = r 0+γr 1+γ2r 2+… vớ i 0


18/80

17

vớ i tác tử khi hệ thống đang ở tr ạng thái s. Hàm giá tr ị của tr ạng thái s trong

chiến lượ c π đượ c tính như sau:

Vπ (s) = Eπ {R t | st = s}

Bài toán tối ưu bao gồm việc xác định chiến lượ c điều khiển π* sao cho hàm

giá tr ị của tr ạng thái hệ thống đạt cực đại sau một số vô hạn hoặc hữu hạn các

bướ c.

π* = {π0(s0), π1(s1),…, π N-1(s N-1)}

Đối vớ i bài toán có số bướ c vô hạn ta có hàm giá tr ị tr ạng thái:

Sử dụng các phép biến đổi:

Như vậy, hàm Vπ(s) có thể đượ c viết lại một cách đệ qui như sau:


19/80

18

Hay:

Vπ(s) = R(s, a) + γ )'(

'

' sV P

S s

a

ss

π ∑∈

(*)

Vớ i a ss P ' là xác xuất để chuyển từ tr ạng thái s sang s’ khi áp dụng hành động a.

Chúng ta có thể tính hàm Vπ(s) ngoại tuyến nếu biết tr ạng thái bắt đầu và xác

suất mọi phép chuyển đổi theo mô hình. Vấn đề đặt ra là sau đó giải quyết hệ

thống các phươ ng trình tuyến tính trong công thức (*). Chúng ta biết r ằng tồn tại

một chiến lượ c tối ưu, kí hiệu π*, đượ c định ngh ĩ a như sau:

V

π*

(s) ≥ V

π

(s)

Để đơ n giản chúng ta viết V* = Vπ*. Hàm giá tr ị tối ưu của một tr ạng thái

tươ ng ứng vớ i chiến lượ c tối ưu là:

Đây là phươ ng trình tối ưu Bellman (hoặc phươ ng trình của quy hoạch động).

Tóm lại V π

là hàm giá tr ị tr ạng thái cho chiế n l ượ c π . Giá tr ị của tr ạng tháik ết thúc thườ ng bằng 0. Tươ ng tự, định ngh ĩ a Qπ(s,a) là giá tr ị của việc thực hiện

hành động a trong tr ạng thái s dướ i chiến lượ c điều khiển π, đượ c tính bằng k ỳ

vọng toán học của hàm phản hồi bắt đầu từ tr ạng thái s, thực hiện hành động a

trong chiến lượ c π:

Qπ đượ c g ọi là hàm giá tr ị hành động cho chiế n l ượ c π . Và các hàm giá tr ị

Vπ, Qπ có thể đượ c ướ c lượ ng từ kinh nghiệm.

Ví d ụ minh họa cách tính toán các hàm giá tr ị


20/80

19

Chúng ta xét một ví dụ đơ n giản để minh họa cho cách tính toán các hàm giá

tr ị V và Q. Cho một lướ i các ô vuông, mỗi ô vuông tươ ng ứng vớ i một tr ạng thái

về môi tr ườ ng. Ta có tậ p các tr ạng thái {s1, s2, s3, s4, s5, s6} trong đó s3 là tr ạng

thái k ết thúc. Tại mỗi ô, có 4 hành động có thể xảy ra đó là di chuyển lên trên,

xuống dướ i, sang trái, sang phải. Mỗi bướ c di chuyển đến tr ạng thái k ết thúc có

giá tr ị phản hồi 100, các bướ c di chuyển còn lại giá tr ị phản hồi đều bằng 0, minh

họa như hình vẽ:

Ta có công thức tính V* cho π*:

V*(st) = r t + γ V*(st+1)

V*(s6) = 100 + 0.9 * 0 = 100

V*(s5) = 0 + 0.9 * 100 = 90

V*(s4) = 0 + 0.9 * 90 = 81

Tính Vα cho πα như sau:

Vα(s6) = 0.5 * (100 + 0.9 * 0) + 0.5 * (0 + 0.9 * 0) = 50

Vα(s5) = 0.66 * (0 + 0.9 * 50) + 0.33 * (0 + 0.9 * 0) = 30

Vα(s6) = 0.5 * (0 + 0.9 * 30) + 0.5 * (0 + 0.9 * 0) = 13.5

Nếu tính cho tất cả các tr ạng thái thì bắt đầu lại và lặ p đến tận khi giá tr ị hộitụ


21/80

20

Vớ i hàm giá tr ị tr ạng thái-hành động Q, công thức tính như sau:

Q(s, a) = r(s, a) + γ'

maxa

Q(s’, a’)

Q(s1, right) = r + γ'

maxa

Q(s2, a’) (lấy γ = 0.9)

= 0 + 0.9 max{63, 81, 100}

= 90

1.3 CẤU TRÚC TOÁN HỌC CỦA BÀI TOÁN QUYẾT ĐỊNH

MARKOV

Tr ướ c hết chúng ta xem xét khái niệm “Thuộc tính Markov” đượ c đưa ra

trong các bài toán quyết định. Trong bài toán quyết định, tác tử ra quyết định domột tín hiệu từ môi tr ườ ng gọi là tr ạng thái của môi tr ườ ng. Chúng ta định ngh ĩ a

thuộc tính môi tr ườ ng và các tính hiệu tr ạng thái của chúng là thuộc tính

Markov.

Tr ạng thái đượ c hiểu là bất cứ thông tin gì có ích vớ i tác tử, giả thiết tr ạng

thái đượ c đưa ra bở i một số hệ thống tiền xử lý của môi tr ườ ng. Chúng ta sẽ định

ngh ĩ a thuộc tính Markov cho bài toán quyết định. Để đơ n giản biểu thức toán

học, chúng ta giả sử tậ p các tr ạng thái và các mục tiêu là hữu hạn. Quan sát cách

thức một môi tr ườ ng tổng quát có thể đáp ứng tại thờ i điểm t+1 đối vớ i hành

động đượ c thực hiện tại thờ i điểm t. Trong hầu hết các tr ườ ng hợ p, nguyên nhân

của sự đáp ứng này có thể phụ thuộc vào mọi thứ đã xảy ra tr ướ c đó. Khi đó biến


22/80

21

động của môi tr ườ ng có thể đượ c định ngh ĩ a bằng cách đặc tả xác suất phân bố

khả năng như sau:

vớ i mọi s’, r

và mọi giá tr ị có thể của các sự kiện tr ướ c st, at, r t, …, r 1, s0, a0.

Nếu tín hiệu tr ạng thái có thuộc tính Markov thì đáp ứng của môi tr ườ ng tại

thờ i điểm t+1 chỉ phụ thuộc vào tr ạng thái và hành động tại thờ i điểm t, trong

tr ườ ng hợ p này, biến động của môi tr ườ ng đượ c thể hiện như sau:

vớ i mọi s’, r, st, at.

Nói cách khác, một tín hiệu tr ạng thái có thuộc tính Markov và là một tr ạng

thái Markov khi và chỉ khi giá tr ị ở hai biểu thức trên bằng nhau vớ i mọi s’, r và

st, at, r t, …, r 1, s0, a0. Trong tr ườ ng hợ p này môi tr ườ ng cũng đượ c gọi là có thuộc

tính Markov.

Nếu một môi tr ườ ng có thuộc tính Markov thì biến động tại mỗi bướ c của nó

sẽ cho phép dự đoán tr ạng thái và mục tiêu k ỳ vọng tiế p đượ c đưa ra từ tr ạng

thái và hành động hiện tại. Bằng cách lặ p phươ ng trình này, chúng ta có thể dự đoán tất cả các tr ạng thái và mục tiêu k ỳ vọng trong tươ ng lai mà chỉ vớ i kiến

thức từ tr ạng thái hiện tại trong thờ i điểm hiện tại. Các tr ạng thái Markov cung

cấ p khả năng tốt nhất cho việc lựa chọn hành động, khi đó chiến lượ c tốt nhất

cho việc lựa chọn hành động sẽ là hàm của một tr ạng thái Markov.

Nhiều tr ườ ng hợ p trong học tăng cườ ng khi tín hiệu tr ạng thái không có thuộc

tính Markov, chúng ta cũng sẽ xấ p xỉ tr ạng thái này thành tr ạng thái Markov vì

chúng ta luôn mong muốn tr ạng thái là tốt để dự đoán hàm mục tiêu cũng như

việc lựa chọn hành động trong tươ ng lai. Vớ i tất cả những lý do đó, cách tốt nhất

là xem tr ạng thái tại mỗi bướ c thờ i gian như là một xấ p xỉ của tr ạng thái Markov

mặc dù nó không hoàn toàn thoả mãn thuộc tính Markov.


23/80

22

Thuộc tính Markov là r ất quan tr ọng trong các bài toán quyết định vì các

quyết định và các giá tr ị đượ c giả thiết chỉ là hàm phụ thuộc vào tr ạng thái hiện

tại. Giả thiết này không có ngh ĩ a là áp dụng hoàn toàn cho mọi tình huống học

tăng cườ ng k ể cả những tình huống không thoả mãn Markov. Tuy nhiên lý

thuyết phát triển cho các thuộc tính Markov vẫn giúp chúng ta có thể hiểu đượ c

hành vi của các giải thuật học tăng cườ ng và các giải thuật thì vẫn có thể áp dụng

thành công cho mọi nhiệm vụ vớ i các tr ạng thái không thoả mãn Markov. Kiến

thức về lý thuyết Markov là cơ sở nền tảng để mở r ộng trong những tr ườ ng hợ p

phức tạ p hơ n k ể cả những tr ườ ng hợ p không thoả mãn thuộc tính Markov.Vớ i giả thiết như vậy, tươ ng tác giữa tác tử và môi tr ườ ng có thể đượ c mô

hình dướ i dạng bài toán quyết định Markov. Việc tìm kiếm sách lượ c điều khiển

tối ưu trong các bài toán quyết định Markov tươ ng ứng vớ i những tiêu chí tối ưu

khác nhau dẫn tớ i việc xây dựng các phươ ng trình tối ưu Bellman và các thuật

toán quy hoạch động. Thông thườ ng, quy hoạch động là phươ ng pháp giải các

phươ ng trình tối ưu Bellman khi biết các thuộc tính thống kê của môi tr ườ ng.

Khác vớ i quy hoạch động, phươ ng pháp học tăng cườ ng tìm kiếm tr ực tiế p các

chiến lượ c quyết định tối ưu từ các giá tr ị phản hồi thu nhận đượ c trong các quá

trình tươ ng tác vớ i môi tr ườ ng và tr ạng thái của môi tr ườ ng.

Bài toán quyết định Markov bao gồm một tậ p các tr ạng thái (s1,s2,…,sn) và

một tậ p các hành động (a1,a2,…,an). Mỗi tr ạng thái có một giá tr ị mục tiêu

(r 1,r 2,…,r n). Trong bài toán quyết định Markov, các phép chuyển đổi từ tr ạng thái

i sang tr ạng thái j chỉ phụ thuộc vào các hành động có thể tại tr ạng thái i. Hàm đo

khả năng chuyển đổi hay còn gọi là xác suất của phép chuyển đổi đượ c biểu diễn

như sau:

Pk i j = (tiế p theo = s j | hiện tại = si và thực hiện hành động ak )


24/80

23

Tại mỗi bướ c, hệ thống sẽ thực hiện các công việc như sau:

- 0) Giả sử tr ạng thái hiện tại là si

- 1) Giá tr ị phản hồi r i

- 2) Lựa chọn hành động ak

- 3) Chuyển đến tr ạng thái s j vớ i khả năng Pijk

- 4) Tất cả các giá tr ị phản hồi trong tươ ng lai đượ c biểu diễn theo hệ số suy

giảm γ

Mục tiêu của bài toán quyết định Markov là vớ i mọi tr ạng thái bắt đầu, tìm ra

một chiến lượ c tốt nhất (một chuỗi các hành động) để cực đại hoá giá tr ị phảnhồi. Để hiểu rõ cách tính toán hàm giá tr ị V và hàm giá tr ị tr ạng thái Q ta xét một

số ví dụ bài toán Markov sau đây:

Ví d ụ 1:

Xét ví dụ một bài toán quyết định Markov có mô hình:

Trong bài toán này, tậ p các tr ạng thái bao gồm {0, 1, 2, 3, 4, 5} trong đó 0 là

tr ạng thái bắt đầu, 5 là tr ạng thái k ết thúc. Mỗi bướ c chuyển tr ạng thái đượ c biểu

diễn bằng một mũi tên và giá tr ị phản hồi (tăng cườ ng) của nó đượ c biểu hiện

bằng tr ọng số trên ghi trên mũi tên tươ ng ứng. Tậ p {A, B} là tậ p các hành động

có thể thực hiện. Chúng ta có thể thấy có 3 chiến lượ c cho bài toán này.1. 0→1→3→5

2. 0→1→4→5

3. 0→2→4→5


25/80

24

So sánh các chiến lượ c, chúng ta sắ p xế p các chiến lượ c theo tổng giá tr ị phản

hồi mà nó thu đượ c:

1. 0→1→3→5 = 1+ 1 + 1 =3

2. 0→1→4→5 = 1 + 1 + 10 =12

3. 0→2→4→5 = 2 + (-1000) + (10) = -988

Chúng ta có thể k ết hợ p một giá tr ị vớ i mỗi tr ạng thái. Vớ i một chiến lượ c cố

định, hàm giá tr ị tr ạng thái V xác định mức độ thích hợ p của việc thực hiện chiến

lượ c π đối vớ i tr ạng thái s. Hình vẽ sau đây chỉ ra chiến lượ c cần thực hiện tại

mỗi tr ạng thái.

Chúng ta cũng có thể định ngh ĩ a giá tr ị mà không cần đặc tả chiến lượ c bằng

cách định ngh ĩ a giá tr ị của việc lựa chọn hành động a từ tr ạng thái s và sau đó

thực hiện tối ưu, đây chính là hàm giá tr ị tr ạng thái- hành động Q. Hình vẽ sau

đây chỉ ra hành động cần thực hiện tại mỗi tr ạng thái.


26/80

25

Ví d ụ 2:

Xét một ví dụ khác, bài toán quyết định Markov có mô hình như sau:

Trong bài toán này, tậ p các tr ạng thái bao gồm {0, 1, 2, 3} trong đó 0 là tr ạng

thái bắt đầu, 3 là tr ạng thái k ết thúc. Mỗi bướ c chuyển tr ạng thái đượ c biểu diễn bằng một mũi tên và giá tr ị phản hồi (tăng cườ ng) của nó đượ c biểu hiện bằng

tr ọng số trên ghi trên mũi tên tươ ng ứng. Tậ p {A, B} là tậ p các hành động có thể

thực hiện. Quan sát bướ c đi tại lặ p lại tại tr ạng thái 1 và 2 có thể thấy:

- Số các bướ c của bài toán là không giớ i hạn vì phép lặ p.

- Giá tr ị của tr ạng thái 1 và 2 là không giớ i hạn cho một số chiến

lượ c.

Q(1, A) = 1 + Q(1, A)

= 1 + 1 + Q(1, A)

= ! + 1 + 1 + Q(1, A)

=…..


27/80

26

Trong những bài toán số bướ c vô hạn như tr ườ ng hợ p này, như đã trình bày

trong mục 4.2, ngườ i ta đưa thêm hệ số suy giảm γ vào khi tính hàm phản hồi.

0≤γ≤1. Ta có công thức tính hàm giá tr ị và hàm giá tr ị tr ạng thái-hành động

Khi đó, tính toán giá tr ị Q cho từng cặ p tr ạng thái-hành động như sau:

Nhìn từ k ết quả trên ta có các chiến lượ c tối ưu: π(0) = B; π(1) = A; π(2) = A.

1.4


1.4.1

Ý tưở ng chung

Có hai phươ ng pháp thườ ng đượ c sử dụng để giải các bài toán quyết định đó

là tìm kiếm trong không gian chiến lượ c và tìm kiếm trong không gian hàm giá

tr ị hay còn gọi là “phép lặ p chiến lượ c” và “phép lặ p giá tr ị”. Hai phươ ng pháp

này chính là các giải thuật học tăng cườ ng đặc tr ưng. Ngoài ra còn xuất hiện một

phươ ng pháp lai giữa hai phươ ng pháp trên: Actor-Critic learning.

Cơ chế chung của phép lặ p chiến lượ c và phép lặ p giá tr ị như sau:

Phép lặp chiến lượ c


28/80

27

Ý tưở ng là ở chỗ, bắt đầu từ một chiến lượ c bất k ỳ π và cải thiện nó sử dụng

Vπ để có một chiến lượ c tốt hơ n π’. Chúng ta sau đó có thể tính Vπ’ và cải thiện

nó vớ i một chiến lượ c tốt hơ n nữa π’’,…K ết quả của tiến trình lặ p này, chúng ta

có thể đạt đượ c một chuỗi các bướ c cải thiện chiến lượ c và các hàm giá tr ị.

Thuật toán l ặ p chiế n l ượ c:

(a) Bắt đầu vớ i một chiến lượ c bất k ỳ π.

(b)

Lặ p

Đánh giá chiến lượ c π.

Cải tiến chiến lượ c tại mỗi tr ạng thái. Đế n t ận khi chiến lượ c không có khả năng thay đổi.

Trong thuật toán lặ p chiến lượ c ở trên có đề cậ p đến một số khái niệm liên

quan đó là đ ánh giá chiế n l ượ c và cải tiế n chiế n l ượ c.

Đánh giá chiế n l ượ c

Chính là quá trình tính toán hàm giá tr ị tr ạng thái Vπ cho một chiến lượ c π bất

k ỳ. Nó đượ c biết đến là phươ ng trình Bellman:

Đây là một hệ thống các phươ ng trình tuyến tính đồng thờ i. Lờ i giải của nó

không quá phức tạ p và có thể tìm đượ c bằng cách sử dụng một trong các phươ ng

pháp giải hệ thống các phươ ng trình tuyến tính. Lờ i giải có thể tìm đượ c bằng

việc tạo ra một chuỗi các hàm giá tr ị xấ p xỉ V0,V1,V2,…Xấ p xỉ khở i tạo V0 đượ c chọn ngẫu nhiên. Nếu có một tr ạng thái k ết thúc nó

sẽ nhận giá tr ị 0. Mỗi xấ p xỉ thành công đạt đượ c bằng cách sử dụng phươ ng

trình Bellman cho Vπ như là một luật cậ p nhật:


29/80

28

Bướ c lặ p k ết thúc khi độ lệch cực đại giữa hai hàm giá tr ị thành công nhỏ hơ n

một giá tr ị đủ nhỏ ε.

C ải tiế n chiế n l ượ c

Chính là quá trình tạo một chiến lượ c mớ i cải tiến dựa trên chiến lượ c gốc

bằng cách sử dụng thuật toán tham lam đối vớ i hàm giá tr ị của chiến lượ c gốc.

Vớ i một chiến lượ c π cho tr ướ c, có thể tìm ra một chiến lượ c tốt hơ n π’ sao cho

Vπ’

> Vπ

. Điều này đạt đượ c bằng cách chọn theo tiên đoán một hành động tạimột tr ạng thái riêng biệt hoặc bằng cách xem xét sự thay đổi tại tất cả các tr ạng

thái và đối vớ i tất cả các hành động có thể, lựa chọn tại mỗi tr ạng thái hành động

xuất hiện tốt nhất dựa theo Qπ(s,a). Chiến lượ c π’ là tham lam nếu:

Trong phươ ng trình trên, arg maxa chỉ ra giá tr ị của a tại đó biểu thức đạt cựcđại. Chiến lượ c tham lam thực hiện hành động tốt nhất sau mỗi bướ c dựa theo

Vπ.

Tóm lại, trong phép lặ p chiến lượ c, giá tr ị của chiến lượ c chính là k ết quả

của hệ thống các phươ ng trình tuyến tính. Sau đó, vớ i mọi tr ạng thái, chúng ta sẽ

quan sát liệu r ằng có thể cải thiện chiến lượ c trong khi chỉ thay đổi hành động

bắt đầu hay không. Phép lặ p chiến lượ c là nhanh khi không gian hành động là

nhỏ và đôi khi chỉ cần vài bướ c lặ p là đủ, mặt khác phươ ng pháp này là khá đắt

thậm chí khó thực hiện trong tr ườ ng hợ p không gian hành động lớ n.

Phép lặp giá trị


30/80

29

Trong phươ ng pháp này, chúng ta không cố gắng quyết định chiến lượ c một

cách rõ ràng, mà sẽ quyết định hành động có giá tr ị tối ưu cho mọi tr ạng thái.

Thuật toán lặ p giá tr ị sinh ra từ dạng đệ qui của hàm giá tr ị tr ạng thái tối ưu

Bellman. Phươ ng trình chi phối thuật toán lặ p giá tr ị như sau:

Ngườ i ta đã chứng minh đượ c r ằng giải thuật này hội tụ tại một số hữu hạn

các bướ c lặ p để đạt tớ i đích là chiến lượ c tối ưu, chuỗi {Vk } hội tụ đến giá tr ị

tr ạng thái tối ưu V*. Phép lặ p giá tr ị k ết hợ p một cách hiệu quả cả việc đánh giá

chiến lượ c và cải thiện chiến lượ c.

Thuật toán l ặ p giá tr ị

(a) Khở i tạo V ngẫu nhiên cho mọi tr ạng thái

(b) Lặ p

Vớ i mỗi tr ạng thái s:

Đế n t ận khi Độ lệch cực đại giữa hai hàm giá tr ị thành công nhỏ hơ n một

giá tr ị đủ nhỏ ε

(c) Đầu ra: Một chiến lượ c π sao cho

Kiến trúc của các thuật toán dựa trên lặ p giá tr ị đượ c biểu diễn trong hình sau:


31/80

30

Hình 1.3: Kiế n trúc của thuật toán l ặ p giá tr ị

1.4.2 Một số thuật ngữ

1.4.2.1

Khảo sát và khai thác

Trong phươ ng pháp học tăng cườ ng, đặc biệt là vớ i các bài toán quyết định

tr ực tiế p, có một vấn đề về khảo sát và khai thác. Một mặt tác tử muốn khảo sát

môi tr ườ ng để tìm ra bài toán tối ưu, mặt khác cực tiểu hoá chi phí cho việc học bằng cách khai thác môi tr ườ ng.

Có một số phươ ng pháp cân bằng giữa khảo sát và khai thác. K ỹ thuật phổ

biến nhất là sử dụng một trong các chiến lượ c lựa chọn hành động ε-soft, ε-

greedy và softmax.

1.4.2.2

K ỹ thuật ε-greedy, ε-soft và softmax

Chiế n l ượ c l ự a chọn hành động ε-greedy

Đây là cách đơ n giản và phổ biến nhất để cân bằng giữa khảo sát và khai thác.

Trong phươ ng pháp này, hành động có ướ c lượ ng về giá tr ị phản hồi lớ n nhất sẽ

đượ c lựa chọn trong hầu hết thờ i gian, gọi là hành động tham lam. Nhưng bất cứ


32/80

31

khi nào vớ i khả năng r ất nhỏ ε, hành động đượ c lựa chọn ngẫu nhiên, giống nhau

và độc lậ p vớ i các ướ c lượ ng về giá tr ị hành động.

Trong hầu hết các tr ườ ng hợ p vớ i khả năng của hành động là 1-ε thì giá tr ị

hành động đượ c ướ c lượ ng lớ n nhất Q(s,a) đượ c lựa chọn.

Giả sử A là tậ p tất cả các hành động và N là số hành động. Giả sử thêm nữa

là khả năng lựa chọn một hành động tham lam a, và là khả năng lựa

chọn một hành động không tham lam a. Trong phươ ng pháp lựa chọn hành động

ε-greedy, khả năng lựa chọn một hành động không tham lam đượ c cho bở i công

thức:

Từ đó dễ dàng chỉ ra r ằng khả năng lựa chọn một hành động tham lam:

Phươ ng pháp này chỉ ra r ằng nếu phép thử là đủ, mỗi hành động sẽ đượ c thử

một số vô hạn các lần thì đảm bảo r ằng sẽ tìm ra đượ c các hành động tối ưu.

Chiế n l ượ c l ự a chọn hành động ε-soft

Tươ ng tự như phươ ng pháp ε-greedy, hành động tốt nhất đượ c lựa chọn vớ i

khả năng 1-ε và trong các tr ườ ng hợ p khác thực hiện lựa chọn hành động một

cách ngẫu nhiên giống nhau.

Chiế n l ượ c l ự a chọn hành động softmax

K ỹ thuật ε-greedy và ε-soft có hạn chế là trong một số tình huống chúng lựachọn các hành động ngẫu nhiên giống nhau, như vậy hành động có khả năng tồi

nhất có thể đượ c lựa chọn như là hành động tốt thứ hai. K ỹ thuật softmax khắc

phục nhượ c điểm này bằng cách gán thứ hạng hoặc tr ọng số cho mỗi hành động,


33/80


34/80

33

Đây là phươ ng pháp học các chiến lượ c khác nhau cho hành vi và ướ c lượ ng.

Có thể cậ p nhật các hàm giá tr ị ướ c lượ ng sử dụng các hành động giả thiết mà

không cần phải thử trong thực tế. Điều này đối lậ p vớ i chiến lượ c trên ở chỗ cậ p

nhật các hàm giá tr ị chỉ dựa trên kinh nghiệm.

1.4.3 Phân loại thuật toán học tăng cườ ng

Các thuật toán học tăng cườ ng đượ c chia thành hai loại chính đó là: học dựa

trên mô hình (model based) và học không có mô hình (model free). Đại điện cho

kiểu học dựa trên mô hình phải k ể đến phươ ng pháp quy hoạch động (Dynamic

Programming-DP), đại diện cho kiểu học không có mô hình là phươ ng pháp

Monte Carlo và phươ ng pháp TD (Temporal Difference).

1.4.3.1

H ọc d ự a trên mô hình

Phươ ng pháp này thực hiện học theo mô hình và sử dụng nó để quyết định

chính sách tối ưu. Tác tử ướ c lượ ng mô hình từ các quan sát về cả khả năng

chuyển đổi tr ạng thái và hàm tăng cườ ng. Sau đó sẽ sử dụng mô hình ướ c lượ ng

này như là mô hình thực tế để tìm ra chiến lượ c tối ưu .

Một cách cụ thể, tác tử tiến hành lậ p k ế hoạch và biên dịch k ết quả sang một

tậ p các phản hồi nhanh hoặc các luật tình huống – phản hồi, sau đó sẽ đượ c sử

dụng trong quyết định thờ i gian thực. Cách tiế p cận này tuy nhiên bị giớ i hạn vào

sự phục thuộc của nó vào một mô hình hoàn thiện về môi tr ườ ng.

1.4.3.2

H ọc không có mô hìnhPhươ ng pháp này tìm thấy chính sách tối ưu mà không phải học theo mô

hình. Tác tử học các giá tr ị hành động mà không có mô hình về môi tr ườ ng đượ c

mô tả bở i và . Trong phươ ng pháp này tác tử tươ ng tác tr ực tiế p vớ i môi


35/80

34

tr ườ ng và biên dịch thông tin nó thu thậ p đượ c thành một cấu trúc phản hồi mà

không có học từ mô hình. Trong phươ ng pháp này, các bướ c chuyển đổi tr ạng

thái và các giá tr ị phản hồi tác tử quan sát thay thế cho mô hình môi tr ườ ng.

Một trong các khó khăn lớ n nhất gặ p phải đó là làm cách nào để tính toán

đượ c mối liên k ết giữa hành động hiện tại và các hệ quả trong tươ ng lai. Để giải

quyết khó khăn này có hai cách tiế p cận: thứ nhất là đợ i đến khi k ết thúc và thực

hiện thưở ng/phạt mọi hành động đượ c thực hiện trong quá khứ, dựa trên k ết quả

cuối cùng. Trong đó phươ ng pháp Monte Carlo là một ví dụ. Vấn đề hạn chế

trong cách tiế p cận này đã đượ c Kaelbling và các cộng sự chỉ ra vào năm 1996,đó là khó khăn trong việc nhận biết khi nào k ết thúc trong chuỗi liên tiế p các sự

việc đang xảy ra. Thậm chí nếu biết đượ c nó thì cũng yêu cầu một lượ ng lớ n về

bộ nhớ .

Cách tiế p cận khác là phươ ng pháp TD đượ c đưa ra bở i Sutton vào năm 1988.

Trong phươ ng pháp này, một mạng đặc biệt đượ c điều chỉnh để học k ết hợ p các

giá tr ị tăng cườ ng cục bộ vớ i các tr ạng thái tức thì giữa hành động và giá tr ị tăng

cườ ng bên ngoài. Ý tưở ng quan tr ọng của phươ ng pháp này là giá tr ị tăng cườ ng

cục bộ của một tr ạng thái tức thì hồi quy về giá tr ị tăng cườ ng thành công.

Sau đây chúng ta sẽ đi tìm hiểu một số giải thuật RL điển hình vớ i những đặc

điểm riêng, bao gồm phươ ng pháp quy hoạch động, phươ ng pháp Monte Carlo

và phươ ng pháp TD. Vớ i phươ ng pháp quy hoạch động, nó đòi hỏi một mô hình

hoàn hảo về môi tr ườ ng, điều này không phù hợ p trong những tình huống học

của robot trong thực tế nên thườ ng đượ c dùng trong lý thuyết trò chơ i, toán

học,…Phươ ng pháp Monte Carlo không đòi hỏi mô hình về môi tr ườ ng và

không cần có cơ chế tự cậ p nhật mà bắt đầu từ việc thăm dò. Phươ ng pháp TD


36/80


37/80

36

phép) khớ p vớ i các ví dụ. Nói cách khác, ta muốn tìm ánh xạ mà dữ liệu đầu vào

đã hàm ý, vớ i hàm chi phí đo độ không khớ p giữa ánh xạ của ta và dữ liệu.

Trong học không có giám sát, ta đượ c cho tr ướ c một số dữ liệu x, và hàm chi

phí cần đượ c cực tiểu hóa có thể là một hàm bất k ỳ của dữ liệu x và đầu ra, f .

Hàm chi phí đượ c quyết định bở i phát biểu của bài toán. Phần lớ n ứng dụng nằm

trong vùng các bài toán ướ c lượ ng như mô hình hóa thống kê, nén, lọc,…

Trong học tăng cườ ng, dữ liệu x thườ ng không đượ c cho tr ướ c mà đượ c tạo ra

trong quá trình một tác tử tươ ng tác vớ i môi tr ườ ng. Tại mỗi thờ i điểm t , tác tử

thực hiện hành động yt và môi tr ườ ng tạo một quan sát xt và một chi phí tức thờ ict , theo một quy trình động nào đó (thườ ng là không đượ c biết). Mục tiêu là tìm

một chiến lượ c lựa chọn hành động để cực tiểu hóa một chi phí dài hạn nào đó,

ngh ĩ a là chi phí tích lũy mong đợ i. Quy trình động của môi tr ườ ng và chi phí dài

hạn cho mỗi sách lượ c thườ ng không đượ c biết, nhưng có thể ướ c lượ ng đượ c.

Các bài toán thườ ng đượ c giải quyết bằng học tăng cườ ng là các bài toán điều

khiển, trò chơ i và các nhiệm vụ quyết định tuần tự khác.

Ý tưở ng học qua tác động vớ i môi tr ườ ng xuất hiện lần đầu tiên khi chúng ta

ngh ĩ đến thế giớ i tự nhiên. Khi một đứa bé chơ i, vẫy tay, hoặc nhìn mọi vật, nó

không có một ngườ i dạy tr ực tiế p nào cả, nhưng nó có một mối quan hệ tr ực tiế p

giữa cảm nhận và vận động đối vớ i môi tr ườ ng. Sự tậ p luyện dựa trên mối quan

hệ này sẽ sản xuất ra một lượ ng thông tin giàu có về nguyên nhân và ảnh hưở ng,

về các hệ quả của hành động, và về việc “Phải làm gì ?” để đạt đượ c các mục

đích. Trong toàn bộ cuộc sống của chúng ta, các tác động lẫn nhau như vậy rõ

ràng là một nguồn tài nguyên chính của nhận thức về môi tr ườ ng của mỗi ngườ i.

Chẳng hạn việc chúng ta học lái một chiếc xe hoặc thực hiện một cuộc hội thoại

ngh ĩ a là chúng ta đã nhận thức sâu sắc về cách thức mà môi tr ườ ng phản ứng lại


38/80

37

vớ i những gì mà chúng ta làm, và chúng ta tìm kiếm sự tác động đến những gì

xảy ra qua hành động của chúng ta. Học từ tác động qua lại là một ý tưở ng cơ

bản dựa trên hầu hết các lý thuyết của học và trí tuệ nhân tạo.

Lịch sử phát triển của RL chia thành hai hướ ng chính, một hướ ng quan tâm

đến việc học vớ i phươ ng pháp thử và sai, bắt đầu trong l ĩ nh vực tâm lý học

nghiên cứu việc học của động vật. Hướ ng này xem xét các công việc sơ khai

trong trí tuệ nhân tạo và phát triển thờ i k ỳ phục hưng của RL vào đầu những năm

1980. Hướ ng thứ hai quan tâm đến các bài toán về điều khiển tối ưu và cách giải

quyết là sử dụng các hàm giá tr ị và quy hoạch động. Các ngoại lệ xoay quanhmột hướ ng thứ 3 sử dụng các phươ ng pháp chênh lệch về thờ i gian (TD). Tất cả

các hướ ng nghiên cứu hợ p nhất lại vào cuối những năm 1980, tạo ra một l ĩ nh

vực hiện đại về RL.

Ngườ i đầu tiên đi theo hướ ng tiế p cận sử dụng phươ ng pháp thử và sai có thể

k ể đến là Edward Thorndike. Thực chất của ý tưở ng này là: các hành động mà

theo sau đó là một k ết quả tốt hay xấu, sẽ có xu hướ ng thay đổi tươ ng ứng để lựa

chọn lại. Thorndike gọi điều này là “luật tác động”-mô tả tác động của các sự

kiện lên xu hướ ng lựa chọn hành động. Luật tác động bao gồm hai khía cạnh

quan tr ọng nhất của phươ ng pháp thử và sai, tính lựa chọn và tính k ết hợ p. Tính

lựa chọn liên quan đến việc cố gắng thay đổi và lựa chọn dựa trên việc so sánh

các k ết quả. Tính k ết hợ p thể hiện ở chỗ các thay đổi đượ c k ết hợ p vớ i các tình

huống riêng biệt. Lựa chọn tự nhiên trong tiến hóa là một ví dụ về tính lựa chọn,

nhưng nó không có tính k ết hợ p trong khi, việc học có giám sát mang tính k ết

hợ p nhưng không có tính lựa chọn. Tóm lại, luật tác động là sự k ết hợ p giữa “tìm

kiếm” và “ghi nhớ ”, tìm kiếm trong các định dạng về phép thử và lựa chọn hành


39/80

38

động trong mỗi tình huống, ghi nhớ các hành động hoạt động tốt nhất trong các

tình huống. Sự k ết hợ p này chính là bản chất trong RL.

Vớ i hướ ng tiế p cận thứ hai, thuật ngữ “điều khiển tối ưu” bắt đầu đượ c sử

dụng vào cuối những năm 1950 để mô tả bài toán thiết k ế một bộ điều khiển

nhằm cực tiểu hóa phép đo hành vi của một hệ thống động theo thờ i gian. Một

cách tiế p cận cho bài toán này đượ c Richard Bellman và các cộng sự phát triển

vào giữa những năm 1950 bằng cách mở r ộng lý thuyết của Hamilton và Jacobi

ở thế k ỷ 19. Cách tiế p cận này sử dụng khái niệm “tr ạng thái” của một hệ thống

động và khái niệm “hàm giá tr ị” hay “hàm phản hồi tối ưu” để định ngh ĩ a một phươ ng trình hàm hay còn gọi “phươ ng trình Bellman”. Lớ p các phươ ng pháp để

giải quyết bài toán điều khiển tối ưu bằng cách giải phươ ng trình này đượ c gọi là

quy hoạch động (Bellman 1957a). Bellman (1957b) cũng giớ i thiệu một phiên

bản bài toán điều khiển tối ưu riêng biệt gọi là quá trình ra quyết định Markov

(MDP). Ron Howard (1960) phát minh ra phươ ng pháp lặ p chiến lượ c cho MDP.

Tất cả những yếu tố này là những thành phần thiết yếu trong lý thuyết và các giải

thuật của RL hiện đại. Quy hoạch động là phươ ng pháp khả thi cho các bài toán

điều khiển tối ưu, tuy nhiên nó cũng bị hạn chế ở độ phức tạ p tính toán, các yêu

cầu tính toán tăng theo cấ p số nhân theo số các biến tr ạng thái. Phươ ng pháp này

sau đó cũng đã đượ c nghiên cứu và phát triển mở r ộng cho phù hợ p vớ i từng yêu

cầu.

Hướ ng tiế p cận thứ ba liên quan đến sự chênh lệch về thờ i gian (TD). Hướ ng

phát triển này là mớ i và duy nhất trong RL và đóng một vai trò quan tr ọng vì

chúng có khả năng giải quyết các bài toán vớ i tậ p tr ạng thái và hành động liên

tục.


40/80

39

Nhiều bài toán khác nhau có thể đượ c giải quyết bở i RL. Do RL tác tử có thể

học mà không cần ngườ i giám sát nên kiểu bài toán phù hợ p vớ i RL là các bài

toán phức tạ p, xuất hiện cách giải quyết không dễ dàng và mạch lạc. L ĩ nh vực

ứng dụng RL chủ yếu là phục vụ cho hai lớ p ngườ i dùng chính:

- Ng ườ i chơ i game: việc quyết định bướ c di chuyển tốt nhất trong trò chơ i

phụ thuộc vào một số nhân tố khác nhau, do đó số các tr ạng thái có khả năng tồn

tại trong một trò chơ i thườ ng r ất lớ n. Để bao hàm toàn bộ các tr ạng thái này sử

dụng một cách tiế p cận dựa trên các luật chuẩn đòi hỏi phải đặc tả một số lượ ng

lớ n các luật mã hoá cứng. RL sẽ giúp lượ c bỏ điều này, tác tử học đơ n giản bằngcách chơ i trò chơ i, vớ i 2 ngườ i chơ i ví dụ như trong chơ i cờ , tác tử có thể đượ c

đào tạo bằng cách chơ i vớ i các ngườ i chơ i hoặc thậm chí là các tác tử chơ i khác.

- Các bài toán đ iề u khiể n: ví dụ như lậ p chươ ng trình cho thang máy. Sẽ

không dễ dàng chỉ ra các chiến lượ c cung cấ p tốt nhất cho hầu hết các lần thang

máy phục vụ. Vớ i các bài toán điều khiển kiểu như thế này, tác tử RL có thể

đượ c đặt để học trong một môi tr ườ ng mô phỏng, cuối cùng là chúng sẽ đạt đượ c

các chiến lượ c điều khiển tốt nhất. Một số ưu điểm trong việc sử dụng RL cho

các bài toán điều khiển là tác tử có thể đào tạo lại dễ dàng để thích ứng vớ i

những thay đổi của môi tr ườ ng, và đượ c đào tạo liên tục trong khi hệ thống

online, cải thiện hiệu năng trên toàn bộ thờ i gian.


41/80

40

Chươ ng 2 CÁC THUẬT TOÁN HỌC TĂNG CƯỜ NG

Trong chươ ng này trình bày chi tiết từng thuật toán học tăng cườ ng đã vàđang đượ c sử dụng hiện nay.

2.1 PHƯƠ NG PHÁP QUY HOẠCH ĐỘNG (DP)

Thuật ngữ quy hoạch động liên quan đến tậ p các giải thuật đượ c sử dụng để

tính các chiến lượ c tối ưu vớ i mô hình về môi tr ườ ng hoàn hảo đượ c đưa ra. Các

thuật toán DP cổ điển bị giớ i hạn trong RL cả về giả thiết một mô hình hoàn hảo

về môi tr ườ ng và cả về phí tổn tính toán của nó tuy nhiên chúng vẫn đóng một

vai trò quan tr ọng về lý thuyết. DP cung cấ p một nền tảng thiết yếu để hiểu đượ c

các phươ ng pháp khác. Thực tế tất cả các phươ ng pháp khác ra đờ i đều vớ i mục

đích là đạt đượ c cùng hiệu năng như phươ ng pháp DP vớ i ít chi phí tính toán hơ n

và không cần giả thiết một mô hình hoàn hảo về môi tr ườ ng.

Để áp dụng đượ c quy hoạch động, chúng ta phải sử dụng các giả thiết sau:

- Môi tr ườ ng có thể đượ c mô hình dướ i dạng một bài toán Markov hữu hạn. Ngh ĩ a là tậ p các tr ạng thái và hành động là hữu hạn, và tính động đượ c

đưa ra là các khả năng chuyển đổi tr ạng thái.

- Mục tiêu tức thì đượ c k ỳ vọng:

Phươ ng pháp quy hoạch động sử dụng các hàm giá tr ị để tổ chức và cấu trúc

hóa phép tìm kiếm các chính sách tối ưu. Chúng ta có thể dễ dàng thu đượ c các

chính sách tối ưu mỗi khi tìm thấy các hàm giá tr ị tối ưu, V* hoặc Q*, thỏa mãn


42/80

41

phươ ng trình tối ưu Bellman. Các thuật toán DP thu đượ c chính là nhờ phép biến

đổi phươ ng trình Bellman.

Ví dụ vớ i mô hình DP cho tr ướ c chúng ta có thể tính các hàm giá tr ị tối ưu

một cách tr ực tiế p như hình vẽ minh họa sau đây:

2.2 PHƯƠ NG PHÁP MONTE CARLO (MC)

Các phươ ng pháp Monte Carlo thích hợ p cho việc học từ các kinh nghiệm

trong đó không yêu cầu nhận thức tr ướ c đó về tính động của môi tr ườ ng. Chúng

giải quyết bài toán quyết định dựa trên việc tính trung bình các giá tr ị phản hồi

mẫu.

Có hai kiểu phươ ng pháp Monte Carlo đượ c áp dụng để ướ c lượ ng Vπ(s) và

Qπ(s,a) đó là phươ ng pháp MC kiểm tra toàn bộ và phươ ng pháp MC kiểm tra

đầu tiên.

Phươ ng pháp MC kiểm tra toàn bộ ướ c lượ ng Vπ(s) bằng trung bình các phản

hồi sau tất cả các bướ c kiểm tra đối vớ i s. Qπ

(s,a) đượ c ướ c lượ ng là trung bìnhcác phản hồi sau tất cả các bướ c kiểm tra đối vớ i cặ p (s,a). Phươ ng pháp MC

kiểm tra đầu tiên tính trung bình chỉ giá tr ị phản hồi sau bướ c kiểm tra đầu tiên


43/80

42

trong phép ướ c lượ ng Vπ(s) và Qπ(s,a). Cả hai phươ ng pháp này đều hội tụ đến

Vπ(s) hoặc Qπ(s,a) như là số các bướ c thăm đến s hoặc cặ p (s,a).

Đánh giá chiế n l ượ c sử d ụng phươ ng pháp MC

Lặ p vô hạn:

(a) Tạo một đoạn mẫu sử dụng chiến lượ c đượ c ướ c lượ ng

s0, a0; s1, a1, r 1; …;st, r t

(b) Vớ i mỗi tr ạng thái s xuất hiện trong đoạn

Chú ý r ằng khi tạo từng đoạn, tất cả các tr ạng thái phải có khả năng tươ ng

đươ ng vớ i tr ạng thái bắt đầu. Nếu mô hình môi tr ườ ng không sẵn có thì sử dụng

ướ c lượ ng các giá tr ị hành động tốt hơ n là ướ c lượ ng các giá tr ị tr ạng thái. Nếu

có mô hình môi tr ườ ng thì các giá tr ị tr ạng thái đủ khả năng để quyết định chiến

lượ c. Chúng ta không thể sử dụng các ướ c lượ ng giá tr ị tr ạng thái để quyết định

chiến lượ c mà không có mô hình về môi tr ườ ng. Trong khi đó, chúng ta có thể sử dụng các ướ c lượ ng giá tr ị hành động trong việc quyết định chiến lượ c mà

không cần yêu cầu mô hình môi tr ườ ng.

Vớ i một chiến lượ c π, chúng ta sẽ chỉ quan sát các giá tr ị phản hồi đối vớ i chỉ

một hành động tại mỗi tr ạng thái. Như vậy, ướ c lượ ng Monte Carlo của các tr ạng

thái khác sẽ không cải tiến theo kinh nghiệm. Đây là một vấn đề quan tr ọng vì

mục đích của các giá tr ị hành động học là giúp cho việc lựa chọn giữa các giá tr ị

có hiệu lực trong mỗi tr ạng thái.

K ết quả là chúng ta cần ướ c lượ ng giá tr ị của tất cả các hành động từ mỗi

tr ạng thái. Để giải quyết vấn đề này, chúng ta có thể bắt đầu mỗi đoạn tại một


44/80

43

cặ p hành động - tr ạng thái, mọi cặ p như vậy sẽ có khả năng lựa chọn 0 khi bắt

đầu. Giải pháp khác là sử dụng chiến lượ c ngẫu nhiên vớ i khả năng lựa chọn tất

cả các hành động khác 0. Điều này đảm bảo r ằng tất cả các cặ p hành động –

tr ạng thái sẽ đượ c kiểm tra một số lần vô hạn trong giớ i hạn là có vô hạn các

đoạn.

Chiế n l ượ c t ố i ư u sử d ụng phươ ng pháp MC

Bắt đầu vớ i một chiến lượ c π ngẫu nhiên và Q(s,a) ngẫu nhiên

Lặ p vô hạn:

(a) Tạo một đoạn mẫu sử dụng π vớ i khả năng lựa chọn tất cả các hành độnglà khác 0, độc lậ p vớ i π tại thờ i điểm bắt đầu: s0, a0; s1, a1, r 1; …;st, r t

(b) Vớ i mỗi cặ p s, a xuất hiện trong đoạn

(c) Vớ i mỗi s trong đoạn

Tóm lại, một vấn đề chính trong khi sử dụng phươ ng pháp MC là đảm bảo r ằng

tất cả các hành động đượ c lựa chọn không giớ i hạn. Để đảm bảo điều này, chúng

ta sử dụng các chiến lượ c soft vớ i π(s,a) > 0 cho tất cả các tr ạng thái và hành

động. Khả năng thực hiện có thể đượ c chuyển dần chiến lượ c hướ ng đến chiến

lượ c tối ưu. Ví dụ, có thể áp dụng phươ ng pháp lựa chọn hành động ε-greeady và

softmax để thực hiện khả năng trên.


45/80

44

2.2.1 Phươ ng pháp MC on-policy

Trong phươ ng pháp này, chiến lượ c điều khiển tác tử sẽ đượ c cải thiện. Một

chiến lượ c soft sử dụng phươ ng pháp lựa chọn hành động ε-greeady là một

chiến lượ c ngẫu nhiên vớ i:

Chúng ta có thể thay đổi thuật toán cho chiến lượ c tối ưu vớ i giả sử r ằng phép

lựa chọn tất cả các hành động độc lậ p vớ i π tại thờ i điểm bắt đầu sử dụng cácchiến lượ c soft. Các chiến lượ c soft đảm bảo phép lựa chọn tất cả các hành động

tại tất cả các bướ c.

Bắt đầu vớ i một chiến lượ c soft bất k ỳ π và Q(s,a) bất k ỳ.

Lặ p vô hạn:

(a) Tạo ra một đoạn sử dụng π: s0, a0; s1, a1, r 1;…;sT, r T

(b) Vớ i mỗi cặ p s, a xuất hiện trong đoạn

(c) Vớ i mỗi s trong đoạn

Cho tất cả các hành động a:


46/80

45

2.2.2 Phươ ng pháp MC off-policy

Trong phươ ng pháp này, chiến lượ c đượ c sử dụng để tạo hành vi khác so vớ i

chiến lượ c đượ c ướ c lượ ng và cải tiến. Chiến lượ c đượ c sử dụng để tạo hành vi

đượ c gọi là chiến lượ c hành vi và chiến lượ c khác đượ c gọi là chiến lượ c ướ c

lượ ng.

Một đặc điểm quan tr ọng của chiến lượ c hành vi đó là chiến lượ c cần phải có

khả năng lựa chọn tất cả các hành động đượ c lựa chọn bở i chiến lượ c ướ c lượ ng

là khác 0.

2.3

PHƯƠ NG PHÁP TEMPORAL DIFFERENCE (TD)

Phươ ng pháp này đượ c sử dụng để ướ c lượ ng các hàm giá tr ị. Nếu các hàm

giá tr ị có thể tính toán mà không cần ướ c lượ ng, tác tử cần phải đợ i đến tận khi

nhận đượ c giá tr ị phản hồi cuối cùng tr ướ c khi các giá tr ị của cặ p tr ạng thái-hành

động đượ c cậ p nhật tươ ng ứng. Phươ ng pháp này đượ c biểu diễn hình thức như

sau:

vớ i st là tr ạng thái đượ c xem xét tại thờ i điểm t, r t là giá tr ị phản hồi sau thờ i gian

t và α là một hằng số.

Mặt khác vớ i phươ ng pháp TD, một ướ c lượ ng của giá tr ị phản hồi cuối cùng

đượ c tính tại mỗi tr ạng thái và giá tr ị tr ạng thái-hành động đượ c cậ p nhật cho

mọi bướ c. Biểu diễn hình thức:

vớ i r t+1 là giá tr ị phản hồi thu đượ c tại thờ i điểm t+1.


47/80

46

Phươ ng pháp TD đượ c gọi là phươ ng pháp “tự cậ p nhật”, bở i vì giá tr ị đượ c

cậ p nhật từng phần sử dụng một xấ p xỉ tồn tại mà

phương pháp học tăng cường

Documents