Học bán giám sát sử dụng giải thuật lan truyền nhãn trên đồ
thịTrần Mai Vũ
1
Công trình liên quanBài báo nền:• X. Zhu and Z. Ghahramani. Learning from labeled and unlabeled data with label
propagation. Technical Report CMU-CALD-02-107, Carnegie Mellon University, Pittsburgh, 2002.
• X. Zhu, Z. Ghahramani, and J. Lafferty. Combining active learning and semi-supervised learning using Gaussian fields and harmonic functions. In ICML-2003 Workshop on the Continuum from Labeled to Unlabeled Data in Machine Learning, pages 912–912, Washington, DC, 2003a.
• X. Zhu, Z. Ghahramani, and J. Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. In Twentieth International Conference on Machine Learning, pages 912–912, Washington, DC, 2003b. AAAI Press.
• X. Zhu, J. Lafferty, and Z. Ghahramani. Semi-supervised learning: From Gaussian fields to Gaussian processes. Technical Report CMU-CS-03-175, Carnegie Mellon University, Pittsburgh, 2003c
• D. Zhou, O. Bousquet, T. N. Lal, J. Weston, and B. Scholkopf. Learning with local and global consistency. In S. Thrun, L. Saul, and B. Sch¨olkopf, editors, Advances in Neural Information Processing Systems 16, pages 321–328. MIT Press, Cambridge, MA, 2004.
• D. Zhou, J. Huang, and B. Scholkopf. Learning from labeled and unlabeled data on a directed graph. In L. De Raedt and S. Wrobel, editors, Proceedings of the Twenty-second International Conference on Machine Learning, 2005a.
• D. Zhou, B. Scholkopf, and T. Hofmann. Semi-supervised learning on directed graphs. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 18, pages 1633–1640, Cambridge, MA, 2005b. MIT Press.
2
Công trình liên quan M. Belkin, I. Matveeva, and P. Niyogi. Regression and regularization on large graphs.
In Proceedings of the Seventeenth Annual Conference on Learning Theory, 2004a. M. Belkin, I. Matveeva, and P. Niyogi. Regularization and semi-supervised learning
on large graphs. In Proceedings of the Seventeenth Annual Conference on Computational Learning Theory, pages 624–638, Banff, Canada, 2004b.
Sách: Zhu, X. (2005). Semi-supervised learning with graphs. Doctoral dissertation,
Carnegie Mellon University Xiaojin Zhu and Andrew B. Goldberg. Introduction to Semi-Supervised
Learning. Morgan & Claypool, 2009. O. Chapelle and B. Schölkopf and A. Zien, Semi-Supervised Learning, MIT Press,
2006Bài báo mô hình ứng dụng: Celikyilmaz, A. & Thint, M., & Huang, Z.(2009) A Graph-based Semi-Supervised
Learning for Question-Answering. ACL-2009, Main Conference, Singapore Jinxiu Chen, Donghong Ji, Chew L. Tan, and Zhengyu Niu. 2006. Relation extraction
using label propagation based semi-supervised learning. In Proceedings of ACL’06, pages 129–136.
3
Học bán giám sát Học bán giám sát là với cả dữ liệu có nhãn và
không nhãn Ký hiệu:- Tập có nhãn XL U YL = {(x1, y1), . . . , (xL , yL)}- Tập chưa có nhãn XU={xL+1,…,xL+U}- Nhãn thật sự của XU: YU={yL+1,…,yL+U}- Nhãn dự đoán của XU: ῩU={ẏL+1,…, ẏL+U}
4
Học bán giám sát Giả thuyết Cluster: Nếu các điểm nằm cùng
một cụm thì các điểm đấy có thể nằm cùng một lớp.
O. Chapelle and B. Schölkopf and A. Zien, Semi-Supervised Learning, MIT Press, 2006
5
Học bán giám sát
6
Học bán giám sát Giả thuyết Manifold: Dữ liệu nhiều chiều nằm
trong nhiều bản dữ liệu ít chiều.
O. Chapelle and B. Schölkopf and A. Zien, Semi-Supervised Learning, MIT Press, 2006
7
Học bán giám sát Giả thuyết Cluster/Manifold: Nếu các điểm
cùng nằm một cụm và trên một bản dữ liệu thì có thể cùng một lớp
8
Học bán giám sát
9
Học bán giám sát dựa trên đồ thị Tư tưởng chính: Xây dựng đồ thị G<V,E> từ tập
dữ liệu XL U XU Các đỉnh là các dữ liệu có nhãn và không có nhãn Cạnh giữa 2 đỉnh thể hiện sự tượng tự giữa 2 đỉnh
Các giải thuật Nhóm giải thuật dựa trên lan truyền nhãn (Szummer
and Jaakkola, 2002b; Zhu and Ghahramani, 2002;Zhou et al., 2004; Zhu et al., 2003b)
Nhóm giải thuật cải tiến sử dụng chuẩn hóa đồ thị dựa vào đồ thị Laplace (Belkin and Niyogi, 2003b; Joachims, 2003; Zhou et al., 2004; Zhu et al., 2003b; Belkin et al.,2004b; Delalleau et al., 2005)
10
Xây dựng đồ thị Đồ thị đầy đủ: đồ thị đầy đủ có các cạnh với trọng
số là độ tương đồng giữa tất cả các node Độ tương đồng sử dụng một số độ đo tương đồng
“cục bộ” như: Euclidean, Cosine,… Thường sử dụng Gaussian Kernel:
Đồ thị thưa: mỗi node chỉ có liên kết đến một số node Đồ thị kNN Đồ thị ϵNN Đồ thị trọng số tanh
11
Thuật toán gán nhãn Lan truyền nhãn [Zhu and Ghahramani, 2002]
Tư tưởng: Từ các node 1,2,…,l đã có nhãn, mỗi node bắt đầu sẽ gán chính nhãn của nó có các node láng giềng, quá trình này sẽ lặp cho đến khi hội tụ
12
Thuật toán gán nhãn
13
Thuật toán gán nhãn
14
Thuật toán gán nhãn Thuật toán hội tụ khi vector dự đoán không
thay đổi Thuật toán không làm thay đổi nhãn của các
dữ liệu đã gắn nhãn
15
Thuật toán gán nhãn Thuật toán cải tiến Zhu 02:
Gán Wii=0 thay cho Wii=1 Cho phép nhãn của dữ liệu đã gắn nhãn thay đổi ῩL≠YL
16
Thuật toán gán nhãn Thuật toán “lan truyền” nhãn [Zhou et al.,
2004] Tư tưởng: tải mỗi bước lặp node i sẽ nhận thêm
các đóng góp của láng giềng j
17
Thuật toán gán nhãn Từ truyền dẫn qua quy nạp
Phân lớp một dữ liệu mới với độ phức tạp O(n) Tư tưởng: Giả sử có ẏ1,…, ẏn đã được tính toán bằng một
trong các giải thuật trên, chúng ta tính toán ẏ của dữ liệu mới dựa vào các nhãn đã có.
Nhóm tác giả [Delalleau et al., 2005] đưa ra công thức quy nạp đơn giản với thời gian tính toán là tuyến tính.
WX là một hàm được sinh ra từ ma trận W với X=(x1,..,xn) WX : hàm kNN WX : Gaussian kernel
18
Công việc tiếp theo Các phương pháp gắn nhãn và tối ưu sử dụng
chuẩn hóa đồ thị Laplace Nghiên cứu một số mô hình cụ thể
Celikyilmaz, A. & Thint, M., & Huang, Z.(2009) A Graph-based Semi-Supervised Learning for Question-Answering. ACL-2009, Main Conference, Singapore
Jinxiu Chen, Donghong Ji, Chew L. Tan, and Zhengyu Niu. 2006. Relation extraction using label propagation based semi-supervised learning. In Proceedings of ACL’06, pages 129–136.
Thử nghiệm trên dữ liệu cụ thể
19
XIN CẢM ƠN
20