de cuong on tap mang noron

8/11/2019 De Cuong on Tap Mang Noron

http://slidepdf.com/reader/full/de-cuong-on-tap-mang-noron 1/17

ĐỀ CƢƠNG ÔN TẬP

MẠNG NƠ -RON NHÂN TẠO

Đề 1

1. Mạng nơ -ron nhân tạo là gì? Tại sao chúng ta nghiên cứ u mạng nơ -ron nhân tạo?

Mạng nơ -ron nhân tạo (Neural Networks – NNs) là mạng bao gồm các nơ -ron k ết nối vớ i

nhau như đượ c tìm thấy trong các bộ não sinh học. Thành phần cơ bản để cấu tạo nên mạng nơ – ronlà các nơ -ron và cách mà chúng k ết nối vớ i nhau. Do vậy, để mô hình hóa hình thái và tìm hiểu

phương thức hoạt động của mạng nơ -ron, chúng ta sẽ bắt đầu từ các nơ -ron nhân tạo.

Nơ -ron nhân tạo là những mô phỏng thô của các nơ -ron sinh học trong bộ não. Chúng có thể

là các thiết bị vật lý hay chỉ là các mô hình toán học. Theo đó, mạng nơ -ron nhân tạo (Artificial

Neural Networks – ANNs) là mạng các nơ -ron nhân tạo k ết nối với nhau và được xem như là mô phỏng thô một phần bộ não sinh học. Chúng có thể là một hệ thống các thiết bị vật lý hoặc các mô

phỏng trên máy tính.

Mạng nơ -ron nhân tạo là hệ thống máy tính song song bao gồm nhiều đơn vị xử lý đơn giản,

k ết nối vớ i nhau theo một cấu trúc nào đó để thực hiện một nhiệm vụ cụ thể. Mặc dù được đơn giảnhóa về mặt mô phỏng nhưng mạng nơ -ron nhân tạo vẫn không mất đi các tính chất đặc trưng của một

bộ não thật.

- Ưu điểm lớ n nhất của mạng nơ -ron nhân tạo: là tính hoàn toàn song song, cái mà làm cho

mạng nơ -ron nhân tạo tr ở nên hiệu quả. Thêm vào đó, mạng nơ -ron nhân tạo có thể học từ những dữ

liệu huấn luyện và khái quát những tình huống mớ i, nên nó không yêu cầu nhiều về k ỹ năng lậ p trình.

Mạng nơ -ron nhân tạo còn đặc biệt chịu lỗi, đây là khả năng thường đượ c tìm thấy trong các hệ thống

sinh học; và chịu nhiễu. Vì vậy chúng có thể đối phó vớ i tình huống mà các hệ thống symbolic thông

thườ ng sẽ gặp khó khăn. Nói tóm lại, về nguyên tắc, mạng nơ -ron nhân tạo có thể làm bất cứ điều gì

một hệ thống symbolic/logic có thể làm và thực tế nó còn có thể làm đượ c nhiều hơn thế nữa.

- Giống như các lĩnh vực trí tuệ nhân tạo nói chung, hai mục tiêu cơ bản của việc nghiên cứu

mạng nơ -ron nhân tạo là:

+ Mô hình hóa b ộ não: Mục đích khoa học của việc xây dựng các mô hình mạng nơ -ron nhân

tạo là tìm hiểu thực tế não làm việc như thế nào. Điều này có thể giúp chúng ta hiểu đượ c bản chất sự

thông minh của con ngườ i, xây dựng các chiến lượ c dạy tốt, hoặc là các hoạt động chữa tr ị hiệu quả

cho các bệnh nhân bị thương tổn về não.

+ xây d ự ng h ệ th ố ng nhân t ạo: Mục đích kỹ thuật của việc xây dựng hệt thống mạng nơ -ron

nhân tạo là nhằm đem lại hiệu quả tốt hơn đối vớ i các ứng dụng thực tế. Điều này có thể làm cho máy

móc hoạt động tốt hơ, thay thế con ngườ i những công việc nhàm chán và thậm chí có thể cải thiện

hiệu suất công việc.

2. Hãy mô tả mô hình nơ -ron nhân tạo McColloch-Pitts?(Hình vẽ, phƣơng trình tínhoutput)

Trên cơ sở cấu trúc chung của một nơ -ron sinh học, McCulloch-Pitts đã đề nghị mô hình nơ -ron nhân tạo đơn giản nhất đượ c biết đến là đơn vị logic ngưỡng như hình vẽ 2-4, bao gồm:

Một tậ p các k ết nối (synapses) mang kích hoạt từ các nơ -ron khác đến.

Một đơn vị xử lý tính tổng tất cả các tín hiệu vào và sau đó áp dụng một hàm kích hoạt

không tuyến tính (hàm chuyển hay hàm ngưỡ ng).

Một đườ ng ra truyền k ết quả ra đến các nơ -ron khác.



K ết quả ra của một nơ -ron McCulloch-Pitts có thể đượ c biểu diễn như là một hàm của n thành

phần vào:

trong đó θ là ngưỡ ng kích hoạt của nơ -ron. Chúng ta có thể dễ dàng thấy r ằng:

Lưu ý rằng nơ -ron McCulloch-Pitts là một mô hình cực k ỳ đơn giản so vớ i một nơ -ron sinh

học. Do đó một số đặc điểm đã bị đơn giản hóa như: giá trị vào/ra không phải là nhị phân,

tổng vào là không tuyến tính, ngưỡ ng mịn, tính ngẫu nhiên (stochasticity) và xử lý thông tin

có tính đến yếu tố thờ i gian.

Tuy thế, nơ -ron McCulloch-Pitts vẫn r ất mạnh về mặt tính toán. Người ta đã chỉ ra r ằng tậ p các

nơ -ron McCulloch-Pitts có thể tính toán đượ c r ất nhiều thứ

Hàm ngưỡ ng hay hàm dấu sgn(x) được định nghĩa là

Hàm logic hay hàm sigmoid Sigmoid(x) được định nghĩa là



Câu 3: Hãy giải thích bản chất của luật học Perceptron? (Hình vẽ minh họa, phƣơng trình luậthọc Perceptron). Hãy chỉ ra ƣu, khuyết điểm và phạm vi ứ ng dụng của luật học perceptron?

- Để có thể cài đặt đượ c một ứng dụng, nhiều nơ -ron sẽ đượ c k ết nối với nhau và được đánhsố. Luồng kích hoạt truyền giữa chúng đượ c thực hiện thông qua các khớ p nối có tr ọng số tương ứng

là wki, wij

- Chúng ta có thể k ết nối các nơ -ron McCulloch-Pitts lại vớ i nhau theo một cách bất k ỳ mà

chúng ta muốn. Mạng bao một lớ p vào (input) đượ c k ết nối tr ực tiế p vớ i một lớp các nơ -ron

McCulloch-Pitt như hình vẽ 3-2 đượ c gọi là mạng Perceptron một lớ p.

- Một trong những ứng dụng đơn giản nhất đầu tiên mà chúng ta có thể cài đặt là sử

dụng mạng Perceptron để thiết lậ p các cổng logic. Điều mà chúng ta cần là làm thế nào để xác

định tr ọng số k ết nối và ngưỡng nơ -ron thích hợp để k ết quả sinh ra là đúng vớ i một tậ p dữ

liệu vào.

- Để có thể hoàn thành đượ c một cổng logic như thế, chúng ta sẽ băt đầu vớ i các công

logic đơn giản như NOT, AND và OR, bở i vì chúng ta có thể thiết k ế đượ c bất cứ chức nănglogic nào từ 3 cổng logic nêu trên. Tuy nhiên, thực tế người ta thườ ng sẽ không thiết k ế ANN

phức tạp hơn Perceptron một lớp, mà người ta tìm cách xác định tr ọng số và ngưỡ ng tr ực tiế ptừ một kiến trúc Perceptron một lớp nào đó khác.

- Thực tế đã chứng minh r ằng, việc thiết k ế một ANN đơn giản là một chuyện, nhưngvấn đề là làm thế nào để chứng tỏ đượ c r ằng ANN đó thực hiện đượ c chức năng như mục tiêu

đã đề ra! Nếu dùng phương pháp thử như trên, vấn đề là sau bao lâu thì chúng ta mớ i tìm ra

đượ c lờ i giải? (ví dụ trườ ng hợ p cổng XOR) Vì vậy chúng ta nên tìm một phương pháp tínhtoán thích hợp khác để xác định các tham số, hơn là việc thử và sai.

- Chúng ta sẽ bắt đầu phương pháp tính toán vớ i mô hình mạng Perceptron cho cổng AND.

Theo mô hình này, chúng ta có 2 tr ọng số w1, w2 và ngưỡ ng . Đối vớ i mỗi mẫu huấn luyện,

chúng ta cần thỏa mãn:

out = sgn( w1in1 + w2in2 - )



- Việc huấn luyện dữ liệu dẫn đến 4 bất phương trình sau:

- Có thể dễ dàng nhìn thấy r ằng có vô hạn lờ i giải. Tương tự, có vô hạn lờ i giải cho mạng ORvà mạng NOT.

- Tr ở lại vớ i mạng Perceptron cho cổng logic XOR, với phương pháp tính toán như trên,chúng ta có đượ c 4 bất phương trình

- Rõ ràng bất phương trình 2 và 3 không bao giờ thỏa mãn đượ c bất phương trình 4 và nhưvậy không thể tìm ra đượ c lờ i giải. Chúng ta cần loại mạng phức tạp hơn, ví dụ tổ hợ p từ nhiều mạng

đơn, hoặc sử dụng hàm ngưỡ ng/kích hoạt khác. Thêm vào đó sẽ khó khăn hơn khi xác định tr ọng số

và ngưỡ ng bằng phương pháp thử.

* Ưu điể m: Mạng Perceptron là công cụ tính toán mạnh, có khả năng thực hiện “bất k ỳ” chức

năng logic nào.

* Khuy ết điể m: mạng Perceptron một lớ p vớ i hàm kích hoạt “step-function” vẫn bộc lộ những

hạn chế, ví dụ nó không thể thực hiện bài toán XOR.

- Một ứng dụng điển hình của ANNs là phân loại. Chúng ta hãy xem xét một ví dụ đơn giản

về phân loại máy bay dựa trên tr ọng tải (mass) và tốc độ (speed), vớ i các thông tin mô tả về hai loại

máy bay này (tương ứng vớ i tr ọng tải và tốc độ) như bảng sau. Câu hỏi đặt ra là làm thế nào chúng ta

có thể xây dựng đượ c một ANNs có thể phân loại đượ c 2 loại máy bay ném bom (Bomber) và tiêm

kích (Fighter)?



Câu 4: Hãy giải thích bản chất của luật học delta? (phƣơng trình luật học delta) Hãy so sánhluật học delta vớ i luật học perceptron?

Chúng ta giờ đã có giải thuật học bằng cách giảm gradient cho mạng một lớ p:

Chú ý r ằng nó vẫn bao gồm đạo hàm của hàm chuyển f(x). Đó chính là vấn đề đối vớ iPerceptron một lớ p có sử dụng hàm bước sgn(x) như là hàm ngưỡ ng của nó. Bởi vì đạo hàm là luôn

luôn 0 ngoại tr ừ tại x=0 nên nó là vô hạn.

May mắn là có một mẹo mà chúng ta có thể vượt qua đượ c tr ở ngại trên: Giả chúng ta có hàm

chuyển f(x) = x + 1/2, thì f(x)=1 khi x=1/2 và f(x)=0 khi x = -1/2. Rõ ràng những giá tr ị này cũngtuân theo qui luật của hàm dấu sgn(x) và Perceptron cũng sẽ hoạt động đượ c với hàm ngưỡ ng này.

Nói một cách khác, chúng ta có thể sử dụng thuật toán học bằng cách giảm gradient vớ i f(x) = x + 1/2

để Perceptron có thể học các tr ọng số. Trong trườ ng hợp này, f’(x)=1 và do đó phương trình cậ p nhật

tr ọng số tr ở thành:

Phương trình này có tên gọi là Luật học Delta bở i vì nó phụ thuộc trên sự khác biệt δl = targl – outl

* so sánh lu ật h ọc delta v ớ i lu ật h ọc perceptron

- Giống nhau: luật học Delta và luật học Perceptron đối vớ i Perceptron một lớ p có cùng

phương trình cậ p nhật tr ọng số.

- Khác nhau:

Các luật học Perceptron sử dụng hàm kích hoạt f(x) = sgn(x), trong khi luật Delta sử

dụng hàm tuyến tính f(x) = x + 1/2.

Hai thuật toán đượ c xuất phát từ những quan điểm lý thuyết khác nhau: luật học

Perceptron bắt nguồn từ việc xem xét làm thế nào để di chuyển siêu phẳng quyết định,

trong khi luật Delta xuất từ việc tối thiểu hóa SSE bằng cách giảm gradient.

Luật học Perceptron sẽ hội tụ khi lỗi bằng 0 và tr ọng số sẽ không thay đổi sau một số

hữu hạn các bướ c thực hiện nếu vấn đề đang xem xét là tuyến tính, còn không thì nó sẽ

bị dao động qua lại. Trong khi đó luật Delta (vớ i η đủ nhỏ) luôn luôn hội tụ về một tậ ptr ọng số mà lỗi là tối thiểu, mặc dù sự hội tụ đến những giá tr ị chính xác của x = ± 1/2

thông thườ ng phụ thuộc vào một tốc độ giảm η.

Câu 5: Hãy giải thích nguyên tắc và cơ chế học lan truyền ngƣợ c trong mạng Perceptron nhiềulớ p? (Hình vẽ minh họa, các phƣơng trình điều chỉnh trọng số)



* B ản ch ấ t c ủa m ạng lan truy ền ngượ c:

- Chúng ta đã không thể tìm đượ c tr ọng số của mạng Perceptron một lớ p khi giải bài toán

XOR. Tuy nhiên, mạng Perceptrons nhiều lớ p (MLPs) lại có khả năng giải các bài toán không tuyến

tính.

* Mô hình ANNs nhi ều l ớ p

- hoặc nếu xem xét đối vớ i mỗi nơ -ron thì

trong đó mỗi đơn vị xử lý j trong lớ p n nhận kích hoạt outi(n-1) từ các đơn vị xử lý i của lớp trước đó

(n-1) và gở i kích hoạt out j(n) cho các đơn vị xử lý của lớ p k ế tiế p (n+1).

Theo qui ướ c, lớ p vào của một ANNs là lớp 0 và khi chúng ta nói đến một ANNs N lớ p thì có

nghĩa là có N lớ p tr ọng số và N lớp đơn vị xử lý (không k ể lớp vào). Như vậy, Perceptron 2 lớ p sẽ

như sau:



Rõ ràng chúng ta có thể thêm nhiều lớ p nữa, nhưng thực tế thì 2 lớp là đủ. Chúng ta có thể sử

dụng hàm kích hoạt khác nhau cho các lớ p khác nhau, thậm chí cho cả các đơn vị xử lý khác nhau

trong cùng lớ p.

* Phương trình điều ch ỉ nh tr ọng s ố vàgi ải thích:

- Chúng ta có thể sử dụng cùng ý tưởng như đã trình bày để huấn luyện mạng N lớ p. Chúng ta

muốn điều chỉnh tr ọng số mạng wij(n) để giảm thiểu hàm tổng bình phương lỗi

và một lần nữa chúng ta có thể thực hiện điều này bằng một loạt các cậ p nhật tr ọng số bằng cách

giảm gradient

Lưu ý rằng đây mớ i chỉ là k ết quả ra out j(N) của các lớ p cuối cùng xuất hiện trong hàm lỗi.

Tuy nhiên, k ết quả ra lớ p cuối cùng lại phụ thuộc vào các lớ p tr ọng số trước đó và giải thuật học sẽ

điều chỉnh tất cả chúng. Giải thuật học tự động điều chỉnh k ết quả ra outi(n-1) của các lớ p (ẩn) trướ c

sao cho chúng tạo ra những đại diện trung gian (ẩn) thích hợ p.

Đối vớ i mạng 2 lớ p, k ết quả ra cuối cùng có thể đượ c ghi:

Chúng ta có thể sử dụng luật biến đổi đạo hàm, như đã làm đối vớ i Perceptron một lớp, để có

được đạo hàm đối vớ i 2 tậ p tr ọng số whl(1) và whl

(2):



Bây giờ chúng ta thay thế các đạo hàm trong hai phương trình cậ p nhật tr ọng số

Nếu hàm chuyển f(x) là hàm Sigmoid thì chúng ta sử dụng f’(x) = f(x).(1 - f(x)) để cho

Các phương trình này tạo thành giải thuật học lan truyền ngƣợ c

…..



Đề 2:

Câu 1: So sánh học có giám sát và học không có giám sát? Nhữ ng mạng nơ -ron nào đại diệncho 2 loại mạng này?

* So sánh h ọc có giám sát vàkhông giám sát?

+ Điểm giống nhau của hai loại mạng:

Cả hai phương pháp học đều cần phải có một tậ p huấn luyện (training data set) để hệ thống

có thể “học” và rút ra được các đặc trưng dùng cho việc gán nhãn.

+ Điểm giống nhau của hai loại mạng:

Phương pháp học có giám sát cần biết trước đầu ra chính là số nhãn lớp. Phương pháp học

không giám sát không cần biết trước đầu ra (là số cụm và nhãn) để phân cụm.

* Các lo ại m ạng c ủa h ọc có giám sát: K_mean;

1.1. Học có giám sát :

Cách 1:

Mạng đượ c huấn luyện bằng cách cung cấ p cho nó các cặ p mẫu đầu vào và các đầu ra mong

muốn (target values). Các cặp đượ c cung cấ p bở i "thầy giáo", hay bở i hệ thống trên đó mạng hoạt

động. Sự khác biệt giữa các đầu ra thực tế so với các đầu ra mong muốn đượ c thuật toán sử dụng để

thích ứng các tr ọng số trong mạng. Điều này thường được đưa ra như một bài toán xấ p xỉ hàm số -

cho dữ liệu huấn luyện bao gồm các cặ p mẫu đầu vào x, và một đích tương ứng t, mục đích là tìm rahàm f(x) thoả mãn tất cả các mẫu học đầu vào.

Hình: Mô hình học có giám sát (Supervised learning model)

Cách 2:

Là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ tập dữ liệu huấn

luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra

mong muốn. Đầu ra của một hàm có thể là một giá trị liên tục (gọi là hồi qui), hay có thể là dự đoán

một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại). Nhiệm vụ của chương trình học cógiám sát là dự đoán giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét

một số ví dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng). Để đạt được điều này,

chương trình học phải tổng quát hóa dữ liệu sẵn có để dự đoán được những tình huống chưa gặp phải

theo một cách "hợp lí".

http://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y



http://vi.wikipedia.org/wiki/T%E1%BA%ADp_hu%E1%BA%A5n_luy%E1%BB%87n



http://vi.wikipedia.org/wiki/Ph%C3%A2n_t%C3%ADch_h%E1%BB%93i_qui



http://vi.wikipedia.org/wiki/Ph%C3%A2n_lo%E1%BA%A1i_b%E1%BA%B1ng_th%E1%BB%91ng_k%C3%AA









Học có giám sát có thể tạo ra 2 loại mô hình. Phổ biến nhất, học có giám sát tạo ra một mô

hình toàn cục ( global model ) để ánh xạ đối tượng đầu vào đến đầu ra mong muốn. Tuy nhiên, trong

một số trườ ng hợ p, việc ánh xạ đượ c thực hiện dướ i dạng một tậ p các mô hình cục bộ, dựa trên các

“hàng xóm” của nó.

Để giải quyết một bài toán học có giám sát(ví dụ: để nhận dạng chữ viết tắt) ngườ i ta phải xét

nhiều bướ c khác nhau:

Xác định loại của tậ p dữ liệu huấn luyện. Trướ c khi làm bất cứ điều gì, chúng ta nên quyết

định loại dữ liệu nào sẽ đượ c sử dụng làm dùng để huấn luyện. Chẳng hạn, đó có thể là một kí tự viết

tay đơn lẻ, toàn bộ một từ viết tay, hay toàn bộ một dòng chữ viết tay.

Thu thậ p dữ liệu huấn luyện. Tậ p dữ liệu huấn luyện cần phù hợ p vớ i các hàm chức năngđượ c xây dựng. Vì vậy, cần thiết phải kiểm tra tích thích hợ p của dữ liệu đầu vào để đượ c dữ liệu đầu

ra tương ứng. Tậ p dữ liệu huấn luyện có thể đượ c thu thậ p từ nhiều nguồn khác nhau: từ việc đo đượ ctính toán, từ các tậ p dữ liệu có sẵn…

Xác định việc biễu diễn các đặc trưng đầu vào cho hàm chức năng. Sự chính xác của hàm

chức năng phụ thuộc lớ n vào cách biểu diễn các đối tượng đầu vào. Thông thường, đối tượng đầu vào

đượ c chuyển đổi thành một vec-tơ đặc trưng, chứa một số các đặc trưng nhằm mô tả cho đối tượ ngđó. Số lượng các đặc trưng không nên quá lớ n, do sự bùng nổ dữ liệu, nhưng phải đủ lớn để dự đoánchính xác đầu ra. Nếu hàm chức năng mô tả quá chi tiết về đối tượ ng, thì các dữ liệu đầu ra có thể bị

phân rã thành nhiều nhóm hay nhãn khác nhau, việc này dẫn tớ i việc khó phân biệt đượ c mối quan hệ

giữa các đối tượ ng hay khó tìm đượ c nhóm(nhãn) chiếm đa số trong tậ p dữ liệu cũng như việc dự

đoán phần tử đại diện cho nhóm, đối với các đối tượ ng gây nhiễu, chúng có thể đượ c dán nhãn, tuy

nhiễn số lượ ng nhãn quá nhiều, và số nhãn tỉ lệ nghịch vớ i số phần của mỗi nhãn. Ngượ c lại, hàm

chức năng có quá ít mô tả về đối tượ ng dễ dẫn tớ i việc dán nhãn đối tượ ng bị sai hay dễ bỏ xót các

đối tượ ng gây nhiễu. Việc xác định tương đối đúng số lượng đặc tính của phần tử sẽ giảm bớ t chi phí

khi thực hiện đánh giá kết quả sau huấn luyện cũng như kết quả gặ p bộ dữ liệu đầu vào mớ i.

Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương ứng. Ví dụ, người kĩ sưcó thể lựa chọn việc sử dụngmạng nơ -ron nhân tạo hay cây quyết định.

Hoàn thiện thiết k ế. Ngườ i thiết k ế sẽ chạy giải thuật học từ tậ p huấn luyện thu thập đượ c. Các

tham số của giải thuật học có thể được điều chỉnh bằng cách tối ưu hóa hiệu năng trên một tậ p con

(gọi là tậ p kiểm chứng -validation set) của tậ p huấn luyện, hay thông qua kiểm chứng chéo (cross-

validation). Sau khi học và điều chỉnh tham số, hiệu năng của giải thuật có thể được đo đạc trên một

tậ p kiểm tra độc lậ p vớ i tậ p huấn luyện.

1.2. H ọc không giám sát :

Cách 1:

Vớ i cách học không có giám sát, không có phản hồi từ môi trường để chỉ ra r ằng đầu ra của mạng là

đúng. Mạng sẽ phải khám phá các đặc trưng, các điều chỉnh, các mối tương quan, hay các lớ p trong

dữ liệu vào một cách tự động. Trong thực tế, đối vớ i phần lớ n các biến thể của học không có thầy, các

đích trùng với đầu vào. Nói một cách khác, học không có thầy luôn thực hiện một công việc tươ ng tự

như một mạng tự liên hợp, cô đọng thông tin từ dữ liệu vào.

Cách 2:

Tiếng Anh là unsupervised learning, là một phương pháp nhằm tìm ra một mô hình mà phù

hợ p vớ i các tậ p dữ liệu quan sát. Nó khác biệt vớ i học có giám sát ở chỗ là đầu ra đúng tương ứng

cho mỗi đầu vào là không biết trướ c. Trong học không có giám sát, đầu vào là một tậ p dữ liệu đượ cthu thậ p. Học không có giám sát thường đối xử với các đối tượng đầu vào như là một tậ p các biến

ngẫu nhiên. Sau đó, một mô hình mật độ k ết hợ p sẽ đượ c xây dựng cho tậ p dữ liệu đó.

http://vi.wikipedia.org/wiki/M%E1%BA%A1ng_n%C6%A1-ron_nh%C3%A2n_t%E1%BA%A1o







http://vi.wikipedia.org/wiki/C%C3%A2y_quy%E1%BA%BFt_%C4%91%E1%BB%8Bnh





http://vi.wikipedia.org/wiki/H%E1%BB%8Dc_c%C3%B3_gi%C3%A1m_s%C3%A1t





http://vi.wikipedia.org/wiki/Bi%E1%BA%BFn_ng%E1%BA%ABu_nhi%C3%AAn







http://vi.wikipedia.org/w/index.php?title=M%C3%B4_h%C3%ACnh_m%E1%BA%ADt_%C4%91%E1%BB%99&action=edit&redlink=1












Học không có giám sát có thể đượ c dùng k ết hợ p vớ i suy diễn Bayes( Bayesian inference) để

cho ra xác suất có điều kiện cho bất kì biến ngẫu nhiên nào khi biết trướ c các biến khác.

Học không có giám sát cũng hữu ích cho việc nén dữ liệu: về cơ bản, mọi giải thuật nén dữ

liệu hoặc là dựa vào một phân bố xác suất trên một tậ p đầu vào một cách tườ ng minh hay không

tườ ng minh.

* Nhữ ng mạng nơ -ron nào đại diện cho 2 loại mạng này?

…………….

Câu 2: Hãy cho biết nhữ ng nguyên tắc huấn luyện mạng nơ -ron để chúng vừ a học tốt vừ a kháiquá hóa tốt? (6.3)

* Trình bày nguyên t ắc hu ấ n luy ện m ạng:1. Hiểu và xác định vấn đề (bài toán) theo ngh ĩa “dữ liệu vào” và “kết quả đích”. Ví dụ, phân loại các

k ết quả theo các lớp mà thông thường đượ c biểu diễn dướ i dạng các véc-tơ nhị phân.

2. Xây dựng ANN đơn giản nhất mà bạn nghĩ rằng nó có thể giải quyết đượ c vấn đề của bạn, ví dụ

Perceptron đơn. 3. Cố gắng tìm các tr ọng số thích hợ p (bao gồm cả ngưỡng nơ -ron) sao cho mạng sinh ra k ết quả

đúng tương ứng vớ i mỗi dữ liệu vào (thuộc tậ p dữ liệu huấn luyện).

4. Hãy chắc chắn r ằng mạng hoạt động tốt vớ i dữ liệu huấn luyện và thử nghiệm khả năng khái quát

hóa của nó vớ i dữ liệu kiểm tra.

5. Nếu mạng vận hành chưa tốt, tr ở lại bướ c 3 và huấn luyện thêm.

6. Nếu mạng vẫn không vận hành tốt thì tr ở về bướ c 2 và thử vớ i một kiến trúc khác phức tạ p hơn. 7. Nếu mạng vẫn không vận hành tốt nữa thì tr ở về bướ c 1 và thử đặt lại vấn đề một cách khác.

* Gi ải thích khi nào thì hu ấ n luy ện d ừ ng:S ự h ội t ụ c ủa lu ật h ọc Perceptron

Việc thay đổi tr ọng số Δwij cần đượ c thực hiện lặp đi lặ p lại đối vớ i mỗi tr ọng số wij và đối

vớ i mỗi mẫu huấn luyện trong tậ p huấn luyện. Thông thườ ng, sau một số vòng lặ p, khi tất cả k ết quả ra là trùng vớ i k ết quả đích đối vớ i tất cả các mẫu huấn luyện, Δwij lúc đó bằng 0 và quá trình huấn

luyện sẽ dừng. Chúng ta nói quá trình huấn luyện đã hội tụ (đến một lờ i giải). Điều đó chỉ ra r ằng nếu

tồn tại một tậ p các tr ọng số đối vớ i một mạng Perceptron có thể giải quyết một bài toán cụ thể nào đó,thì chúng ta có thể nói r ằng luật học Perceptron có thể tìm thấy tậ p tr ọng số này sau một số vòng lặ phữu hạn. Có ngh ĩ a là, nếu bài toán là có thể tách tuyến tính, luật học Perceptron sẽ tìm thấy tậ p tr ọng

số sau một số vòng lặ p hữu hạn sao cho nó có thể giải bài toán một cách chính xác.

* Th ế nào h ọc t ố t vàkhái quát t ố t?Để huấn luyện một mạng và xét xem nó thực hiện tốt đến đâu, ta cần xây dựng một hàm mục

tiêu (hay hàm giá) để cung cấ p cách thức đánh giá khả năng hệ thống một cách không nhọc nhằng.

Việc chọn hàm mục tiêu là r ất quan tr ọng bở i vì hàm này thể hiện các mục tiêu thiết k ế và quyết định

thuật toán huấn luyện nào có thể đượ c áp dụng. Để phát triển một hàm mục tiêu đo đượ c chính xáccái chúng ta muốn không phải là việc dễ dàng. Một vài hàm cơ bản đượ c sử dụng r ất r ộng rãi. Một

trong số chúng là hàm tổng bình phương lỗi (sum of squares error function),

trong đó: p: số thứ tự mẫu trong tậ p huấn luyện

i : số thứ tự của đơn vị đầu rat pi và y pi : tương ứng là đầu ra mong muốn và đầu ra thực tế của mạng cho đơn vị đầu ra thứ

i trên mẫu thứ p.

Trong các ứng dụng thực tế, nếu cần thiết có thể làm phức tạ p hàm số vớ i một vài yếu tố khác

để có thể kiểm soát đượ c sự phức tạ p của mô hình.



Trong quá trình học, mạng cố gắng điều chỉnh các tham số sao cho tổng bình phương lỗi là

nhỏ nhất. Khả năng hội tụ của mạng phụ thuộc vào các tham số khởi đầu, còn khả năng tổng quát hóa

thì lại phụ thuộc r ất nhiều vào dữ liệu đầu vào. Nếu dữ liệu đầu vào quá nhiều (!) thì có thể dẫn tớ itình tr ạng luyện mạng mất r ất nhiều thờ i gian và khả năng tổng quát hóa kém, nếu quá ít dữ liệu thì

sai số sẽ tăng. Ngoài đặc trưng về dữ liệu, một đặc trưng khác trong quá trình huấn luyện mạng cần quan tâm

là nếu số lần thực hiện điều chỉnh các tham số của mạng quá ít sẽ dẫn đến tình tr ạng là khả năng tổng

quát hóa của mạng r ất kém. Bở i vậy, số chu k ỳ các mẫu đưa vào mạng cần đượ c xem xét phải lớ nhơn một ngưỡng nào đó (từ vài nghìn cho đến vài chục nghìn lần).

Để có thể xem xét, đánh giá đượ c khả năng tổng quát hóa của mạng, cần thực hiện phân chiatậ p dữ liệu thành các tậ p: huấn luyện (training set) và tậ p kiểm tra (test set). Tậ p các dữ liệu thử sẽ

không đưa vào để kiểm tra hoạt động của mạng để đảm bảo sự khách quan.

Mạng có khả năng sẽ không thể đạt được đến tr ạng thái mong muốn,

mà có thể nó sẽ bỏ qua điểm cực tr ị. Để có thể tránh điều này, không nên đặt hệ số học quá lớ n (cỡ 0.1 chẳng hạn), cũng như hệ số bước đà quá lớ n (chẳng hạn = 0.5) (do đặc trưng của thuật toán lan

truyền ngượ c sử dụng tham số bước đà). Để đảm bảo khả năng có thể đạt đến điểm cực tiểu, số các đơn vị trong

lớ p ẩn cần đủ lớ n. Tuy nhiên, nếu số các đơn vị trong lớ p ẩn vượ t quá một ngưỡng nào đó thì khả

năng tổng quát hóa của mạng sẽ kém, bở i lẽ sau khi huấn luyện mạng có xu hướ ng ghi nhớ tất cả các

mẫu đã đượ c học. Khi đó, nên xem xét đến khả năng sử dụng thêm một lớ p ẩn nữa vớ i số nơron nhỏ

(vài nơron) và giảm bớ t số nơron ở lớ p ẩn thứ nhất.* S ự tương quan giữ a h ọc t ố t vàkhái quát t ố t

Câu 3: Ngƣờ i ta dự a trên tính chất nào của mạng Hopfield để giải quyết bài toán tối ƣu hóa?Hãy cho ví dụ?

* Ứ ng dụng mạng Hopfiel tối ƣu bài toán TSP

Tính năng động của mô hình Hopfield là khác vớ i mô hình associator tuyến tính ở chỗ nó tính toán

k ết quả ra của nó một cách đệ quy theo thời gian cho đến khi hệ thống tr ở nên ổn định.

Dưới đây là một mô hình Hopfield với sáu nơ -ron, tr ong đó mỗi nút k ết nối vớ i tất cả các nút kháctrong mạng.

Hình 9-2: Mô hình Hopfield

Không giống như mô hình associator tuyến tính bao gồm hai lớp các đơn vị xử lý, vớ i một lớ p

đượ c sử dụng như lớ p vào trong khi lớp kia đóng vai trò là lớ p ra, mô hình Hopfield bao gồm một lớ pduy nhất các đơn vị xử lý mà mỗi đơn vị k ết nối vớ i tất cả các đơn vị khác trong mạng ngoại tr ừ

chính nó. Ma tr ận tr ọng số k ết nối W là vuông và đối xứng, nghĩa là, wij = w ji cho i, j = 1, 2, ..., m.

Mỗi đơn vị có một đầu vào bên ngoài mở r ộng Ii. Đầu vào mở r ộng này dẫn đến một sửa đổi trong

tính toán input j:

vớ i j = 1, 2, ..., m. Không giống như associator tuyến tính, các đơn vị trong mô hình Hopfield hoạt

động vừa là đơn vị đầu vào và vừa là đơn vị ra. Tuy vậy, cũng giống như các associator tuyến tính,

một cặ p mẫu k ết hợp đơn được lưu trữ bằng cách tính toán ma tr ận tr ọng số sau: Wk = Xk T Yk

trong đó Yk = Xk



để lưu trữ p cặ p mẫu k ết hợ p khác nhau. Bở i vì mô hình Hopfield là một mô hình bộ nhớ autoassociative, các mẫu, thay vì các cặ p mẫu k ết hợp, được lưu trữ trong bộ nhớ .

Sau khi mã hóa, mạng có thể đượ c sử dụng cho giải mã. Giải mã trong mô hình Hopfield đượ cthực hiện bằng cách tìm kiếm đệ quy một mẫu đã lưu trữ tương ứng vớ i một mẫu vào. Vớ i một mẫu

vào X, giải mã đượ c thực hiện bở i việc tính toán inputj và xác định k ết quả ra bằng các sử dụng hàmra để sinh ra mẫu X'. Mẫu X ' sau đó được đưa trở lại cho các đơn vị xử lý như là một mẫu vào để tạo

ra mẫu X''. Mô hình X'' là một lần được đưa trở lại cho các đơn vị xử lý để tạo ra mẫu X'''. Quá trình

này lặp đi lặ p lại cho đến khi mạng ổn định trên một mẫu đã lưu trữ, mà ở đó các tính toán thêmkhông làm thay đổi k ết quả ra của đơn vị xư lý.

Nếu mẫu vào X là một mẫu không đầy đủ hoặc có chứa một số biến dạng, mẫu đã lưu trữ mà

làm cho mạng ổn định sẽ là mẫu tương tự vớ i X nhất (không có biến dạng) Tính năng này đượ c gọi

sự hoàn chỉnh mẫu và đượ c ứng dụng trong xử lý ảnh.

Trong quá trình giải mã, có nhiều sơ đồ có thể đượ c sử dụng để cậ p nhật các đầu ra của đơnvị. Các sơ đồ cậ p nhật là đồng bộ (song song), không đồng bộ (tuần tự), hoặc k ết hợ p cả hai (lai).

Trong sơ đồ cậ p nhật đồng bộ, k ết quả ra của các đơn vị đượ c cậ p nhật như là một nhóm trướ ckhi đưa trở lại vào mạng. Trong khi, trong sơ đồ cậ p nhật không đồng bộ, k ết quả ra của các đơn vị đượ c cậ p nhật theo thứ tự ngẫu nhiên hoặc tuần tự và k ết quả ra sau đó được đưa trở lại mạng sau mỗi

cậ p nhật đơn vị. Với sơ đồ lai, các nhóm con của các đơn vị đượ c cậ p nhật đồng bộ trong khi các đơnvị trong từng nhóm con cậ p nhật không đồng bộ. Việc chọn sơ đồ cậ p nhật có ảnh hưởng đến sự hội

tụ của mạng.

* B ản ch

ấ t c

ủa hàm năng lượ ng:( 9.3.1 và9.3.2)

* Cho ví dụ:

Phát biểu bài toán: Một ngƣờ i bán hàng cần đi qua n thành phố chỉ duy nhất một lần và

cuối cùng quay về thành phố xuất phát vớ i khoảng cách là ngắn nhất.

Giả thiết r ằng có n thành phố và khoảng cách giữa hai thành phố i và j là dij. Chúng ta cần tìm ra

đường đi ngắn nhất giữa các thành phố. Chúng ta có thể giải quyết bài toán này bằng cách liệt kê tất

cả các phương án có thể, tính toán chi phí cho mỗi phương án và tìm ra phương án tốt nhất . Vớ i n

thành phố thì một hành trình đòi hỏi có n! phép toán nhưng thực tế thì chỉ cần n!/(2n). Vớ i 30 thành

phố thì hành trình chúng ta cần 2.65x 1032 phép toán. Tổng số phép toán sẽ tăng lên đột ngột khi

tổng số thành phố tăng lên.

Sử dụng mạng Noron sẽ cho ta các phương án để giải quyết bài toán này vớ i thờ i gian tính toán

thấp hơn so vớ i các thuật toán khác.

- Vớ i n thành phố được thăm, gọi Vij vớ i:

Nếu đi từ thành phố i -> j

Nếu ngượ c lại

0

1

ij X



- Gọi dij là khoảng cách từ thành phố i đến thành phố j. Lúc đó bài toán TSP đượ c phát biểu lại

như sau:

C ần c ự c ti ể u hóa hàm m ục tiêu tuy ế n tính sau:

(2.4)

Một chiến lược đơn giản để giải quyết bài toán này là tìm tất cả các hành trình có thể đi đượ c và

tính toán tổng khoảng cách cho mỗi hành trình đó, sau đó chọn hành trình có tổng khoảng cách nhỏ

nhất. Tuy nhiên, nếu có n thành phố thì số thành trình có thể đi đượ c là (n-1)!. Chiến lượ c này sẽ

không khả thi nếu số thành phố là quá lớ n.

Ví dụ: Vớ i 11 thành phố được thăm thì sẽ có 10! = 3628800 hành trình có thể thực hiện đượ c

(bao gồm những hành trình có cùng số thành phố nhưng hướng đi khác nhau) con số này sẽ tăng lên

6.2 tỉ nếu có 13 thành phố. Vì thế thuật toán Hopfield Tank đượ c sử dụng để giải quyết bài toán này

một cách tương đối vớ i số lần tính toán nhỏ nhất.

Một vài ứng dụng của bài toán TSP trong việc xác định mạng lưới phân phát thư, tìm ra đườ ng đi

tối ưu cho các tuyến xe buyt trườ ng học...

Câu 4: Hãy giải thích nguyên tắc, cơ chế hoạt động của mạng RBF? Hãy so sánh mạng RBF vớ imạng Perceptron 2 lớ p?

* Hình vẽ mạng RBF†

Mạng RBF đang ngày càng trở nên phổ biến với các ứng dụng khác nhau

† Hầu hết các cảm hứng cho RBF đều bắt nguồn từ các kỹ thuật phân loại mẫu

truyền thống dựa trên thống kê.

† Đặc trưng cơ bản của mạng RBF

Tách các lớpCác lớp tách

Bi ến đổi đế n

Không gian

d ijn

ji

n

i j

ij X



:

* Bản chất của mỗi lớp mạng RBF

†

Lớp vào đơn giản chỉ đóng vai trò tiếp nhận dữ liệu vào

†

Lớp ẩn thực hiện ánh xạ dữ liệu vào không tuyến tính từ không gian vào (lớp vào) đến

một không gian (thông thường) cao hơn sao cho dữ liệu vào trở nên tuyến tính.

† Lớp ra đơn giản chỉ thực hiện tính tổng có trọng số

Nếu mạng RBF được sử dụng cho xấp xỉ hàm (số thực) thì hàm ngưỡng ra được sử

dụng có thể vẫn là hàm tuyến tính.

Tuy nhiên nều sự phân loại mẫu được yêu cầu, thì hàm sigmo id hay hard-limiter sẽ

được sử dụng cho các nơ -ron lớp ra để kết quả ra là nhị phân

* Nguyên tắc và cơ chế hoạt động của mạng RBF

Điểm đặc trưng của mạng RBF là tiến trình xử lý đượ c thực hiện ở lớ p ẩn. Ý tưở ng chính là

các mẫu ở không gian vào sẽ đượ c phân cụm. Nếu tâm các cụm này đượ c biết trướ c, thì khoảng cách

đến tâm các cụm này sẽ được tính toán. Hơn nữa, vì việc đo khoảng cách này là đượ c thực hiện

không tuyến tính, nên nếu một mẫu nằm gần vớ i tâm của cụm thì khoảng cách sẽ đượ c sẽ đượ c cho

gần bằng 1. Nhưng nếu nằm xa hơn, khoảng cách sẽ có giá tr ị giảm dần.

Ý tƣở ng phân cụm của mạng RBF

Như vậy sự phân bố các mẫu trong mỗi cụm được xem là đối xứng xuyên tâm xung quanh

một tâm và do đó hàm ánh xạ (ngưỡ ng) không tuyến tính đượ c gọi một tên khác là hàm cơ sở xuyên

tâm RBF (radial-basis function).Hàm xuyên tâm đượ c sử dụng phổ biến nhất cho mạng RBF là hàm Gaussian. Phương trình

biểu diễn hàm Gaussian có dạng hình chuông như sau



Hàm Gaussi đƣợ c sử dụng cho mạng RBF

trong lớ p ẩn, các tr ọng số biểu diễn tọa độ của tâm cụm. Do vậy, khi nơ -ron nhận một mẫu vào x,

khoảng cách r đượ c tính toán bởi phương tr ình sau:

và hàm ngưở ng của nút ẩn là

trong đó biến sigma δ định nghĩa độ r ộng hay bán kính của chuông và thông thường được xác định

bở i thực nghiệm.

* So sánh mạng RBF vớ i mạng Perceptron 2 lớ p?

Việc thực hiện huấn luyện mạng RBF là nhanh hơn mạng Perceptrons đa lớ p MLP.

Lớ p ẩn của mạng RBF là dể diễn dịch hơn là của mạng MLP.

Mặc dù mạng RBF huấn luyện nhanh hơn mạng MLP, nhưng khi sử dụng, tốc độ thực

hiện của mạng RBF lại chậm hơn so vớ i mạng MLP.

Câu 5: Hãy giải thích cơ chế ánh xạ tính chất (đặc điểm) của các lớ p mẫu vào lên mạng

Kohonen 2 chiều (2D map)? Tại sao phải chọn 2D map đủ rộng khi số lớ p mẫu vào lớ n?* Hình vẽ mạng kohonen

* Bản chất cơ chế hoạt động của mạng Kohonrn:

- Mạng Kohonen hai chiều có 2 lớp đó là lớ p vào và lớ p ra Kohonen.

Lớp vào (input layer): dùng để đưa dữ liệu huấn luyện vào mạng Kohonen. Kích thướ c của

lớp vào tương ứng với kích thướ c của mỗi mẫu học.

Trong mạng Kohonen hai chiều, các neural của lớp ra đượ c sắ p xế p trên một mảng 2 chiều.

Mảng này đượ c gọi là lớ p ra Kohonen.



Tất cả các Neural của lớp vào đều đượ c nối vớ i các neural trên lớ p ra Kohonen. Mỗi liên k ết

giữa đầu vào và đầu ra của mạng Kohonen tương ứng vớ i một tr ọng số. Kích thướ c của mỗi vector

tr ọng số bằng kích thướ c của lớ p vào.

* Cơ chế ánh x ạ:

Giả sử chúng ta có bốn điểm dữ liệu (x) trong không gian 2D liên tục, và muốn ánh xạ 4 điểm

này lên không gian ra 1D gián đoạn. Các nút ra ánh xạ lên không gian vào thành các điểm tròn (o).

Trong số ngẫu nhiên ban đầu khởi động các điểm tròn tại các vị trí ngẫu nhiên trong không gian vào.

Chúng ta chọn một điểm dữ liệu để thực hiện huấn luyệ ểm ra gần nhất biểu diễn nơ -ron

chiến thắn -ron chiến thắng này sẽ di chuyển về phía điểm dữ liệu vào một khoảng nào đó và2 nơ -ron lân cận cũng di chuyển về hướ ng này vớ i một khoảng ít hơn (hướng mũi tên).

Tiế p theo, chúng ta chọn ngẫu nhiên một điểm dữ liệu khác để huấn luyệ ểm ra gần

nhất tr ở thành nơ -ron chiến thắ -ron chiến thắng này sẽ di chuyển về phía điểm dữ liệu vào

một khoảng nào đó và 2 nơ -ron lân cận cũng di chuyển về hướ ng này một khoảng ít hơn (hướng mũitên).

Chúng ta chọn ngẫu nhiên các điểm dữ liệu để huấn luyệ ỗi nơ -ron chiến thắng di

chuyển về hướng điểm dữ liệu vào một khoảng và các nơ -ron lân cận di chuyển một khoảng nhỏ hơn(hướng mũi tên). Cuối cùng toàn bộ lướ i output tự tách ra thể hiện không gian vào.

Hình 10-3: Ví dụ về tiến trình tự tổ chức

* Ph ải ch ọn 2D map đủ l ớ n khi s ố l ớ p m ẫ u vào l ớ n:

Mạng Kohonen là một mạng nơron làm việc theo lối tự tổ chức nhằm tạo ra một ánh xạ từ tậ pcác mẫu học có số chiều lớ n thành các cụm có số chiều thấp hơn. Mạng Kohonen hai chiều thườ ng

đượ c sử dụng để gom cụm văn bản vì k ết quả gom cụm đượ c thể hiện tr ực quan trên một lướ i hai

chiều. Trong mạng Kohonen hai chiều, các nơron của lớp ra đượ c sắ p xế p trên một mảng hai chiều.

Mảng này đượ c gọi là lớ p ra Kohonen. Tất cả các nơron của lớp vào đều đượ c nối vớ i các nơron trênlớ p ra Kohonen

de cuong on tap mang noron

Documents