dự báo thị trường chứng khoán dựa trên khai phá dữ liệu tweeter

31
Học viên: Phạm Huyền Trang GV hướng dẫn: PGS. TS Hà Quang Thụy Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter May 8, 2022 1

Upload: royce

Post on 03-Feb-2016

65 views

Category:

Documents


0 download

DESCRIPTION

Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter. Học viên: Phạm Huyền Trang GV hướng dẫn: PGS. TS Hà Quang Thụy. Nội dung chính. Giới thiệu Các nghiên cứu liên quan Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter Kết luận Định hướng nghiên cứu. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Học viên: Phạm Huyền Trang

GV hướng dẫn: PGS. TS Hà Quang Thụy

Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

April 22, 20231

Page 2: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Nội dung chính Giới thiệu

Các nghiên cứu liên quan

Nghiên cứu của J.Bollen về Dự báo thị trường chứng khoán dựa trên Tweeter

Kết luận

Định hướng nghiên cứu

April 22, 20232

Page 3: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

INTRODUCTION

Bài toán dự báo thị trường chứng khoánBài toán dự báo thị trường chứng khoán dựa trên Tweeter

April 22, 20233

Page 4: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Nguyên lý Bước đi ngẫu nhiên (Walk random)

và giả thuyết Thị trường hiệu quả

(Efficient Market)

-Không thể dự đoán thị trường chứng khoán

Lý thuyết phân tích cổ phiếu

(Chartist theory)

- Có thể dự đoán được dựa vào quá khứ

Có thực sự dự đoán được thị trường chứng khoán?

Có thực sự dự đoán được thị trường chứng khoán?

April 22, 20234

Page 5: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Các nghiên cứu liên quan2005, Gruhl và cộng sự đã nghiên cứu cách làm thế nào để hoạt

động chat online có thể dự đoán được việc bán sách2006, Mishne và Rijke sử dụng các đánh giá của các quan điểm

được thể hiện trên blog để dự đoán việc bán phim2007, Liu và cộng sự dự đoán việc bán các sản phẩm sử dụng mô

hình phân tích ngữ nghĩa ẩn xác suất (PLSA) để trích xuất các chỉ sổ của quan điểm từ các blog.

2009, Schumaker và Chen điều tra mối quan hệ giữa các tin tức về công ty phá sản với sự thay đổi về giá cả trong thị trường

2010, Asur và Huberman chỉ ra rằng những quan điểm liên quan đến các phim được thể hiện công khai trên Tweeter thực sự có thể dự đoán được doanh thu phòng vé

Gần đây, 2011, Johan Bollen và công sự đã có nghiên cứu chỉ ra rằng có thể dự đoán thị trường chứng khoán dựa trên các Tweet của các công ty trong thị trường chứng khoán, với độ chính xác lên đến > 85%

April 22, 20235

Page 6: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Dự báo thị trường chứng khoán

April 22, 20236

Kinh tế học hành vi chỉ ra rằng: Cảm xúc có thể ảnh hưởng đến các hành vi của cá nhân và trong

việc đưa ra 1 quyết định nào đóCác quyết định tài chính được thúc đẩy bởi cảm xúc và tâm trạng

của con người Giả thuyết: Tâm trạng, cảm xúc có thể ảnh hưởng đến giá trị

chứng khoán tương đương với việc các tin tức ảnh hưởng đến thị trường chứng khoán

Bài toán dự báo thị trường chứng khoán chia thành 2 loại:Dự báo chỉ số chứng khoán sẽ tăng hay giảmDự báo chỉ số chứng khoán sẽ tăng lên bao nhiêu hoặc giảm xuống

bao nhiêu

Ý nghĩa của bài toán:Giúp các nhà đầu tư đưa ra được các quyết định đầu tư tức thời =>

đem lại lợi nhuận cao cho các nhà đầu tư

Page 7: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Dự báo thị trường chứng khoán dựa trên Tweeter

Cộng đồng sử dụng và chia sẻ trạng thái của mình trên Twitter cho biết họ đang cảm thấy như thế nào về ngày hôm đó

dẫn dắt các quyết định mua bán trên thị trường ảnh hưởng đến giá cả trong thị trường chứng khoán Có thể dự đoán được chỉ số chứng khoán dựa trên

Tweeter

April 22, 20237

Page 8: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Tại sao chọn Tweeter?

April 22, 20238

Có thể trích xuất các nội dung tweet để đánh giá được tâm trạng của công chúng trực tiếp, theo thời gian thực một cách nhanh chóng và tiết kiệm

=> Phù hợp đáp ứng cho sự biến động, tăng giảm của chỉ số chứng khoán

Tweeter là 1 trong các mạng xã hội được sử dụng phổ biến nhất trên thế giới

=> Là 1 nguồn cấp dữ liệu có quy mô rất lớn

Page 9: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Phương pháp dự báo thị trường chứng khoán dựa trên Tweeter của

Johan Bollen và cộng sự

Các bướcƯu và nhược điểm

April 22, 20239

Page 10: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Dữ liệu

Nguồn dữ liệu:9.83.498 Tweet trên trang Tweeter, được post bởi gần

2.7 triệu người dùng trong các công ty trong thị trường DJIA

Các thông tin trích xuất trong mỗi tweet gồm:Thông tin xác định tweetNgày submitKiểu submitNội dung (không quá 140 ký tự)

Thời gian: 28/2/2008 – 19/12/2008Các bước chuẩn bị dữ liệu:

Loại bỏ từ dừng, dấu chấm câuNhóm các tweet được submit trên cùng ngày vào 1 nhómChú ý:

Chỉ quan tâm những tweet chứa tâm trạng rõ ràng của tác giảApril 22, 202310

Page 11: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Các bước

Phân tích cảm xúc người dùng

Đo độ trễ cảm xúc

Dự đoán giá cổ phiếu

April 22, 202311

Page 12: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 1: Sinh chuỗi thời gian cảm xúc (OF và GPOMS)OpinionFinder:

Phân tích quan điểm ở mức câuĐo cảm xúc của người dùng: tích cực hay tiêu cựcXác định tỉ lệ tweet tích cực so với tweet tiêu cực mỗi

ngày

GPOMS:Đo cảm xúc của người dùng trên 6 chiều khác nhau:

Calm, Alert, Sure, Vital, Kind, Happy

Đo cảm xúc người dùng thành 7 chiều

April 22, 202312

Page 13: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 2: Đánh giá OF và GPOMS

April 22, 202313

Page 14: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 2: Đánh giá OF và GPOMS – hồi quy đa biến

April 22, 202314

Page 15: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

April 22, 202315

Vây, các sự kiện văn hóa, xã hội có tác động lên cảm xúc, tâm trạng của cộng đồng.

Có thể đoán được cảm xúc của cộng đồng thông qua các tweet của mỗi cá nhân trên Tweeter

Câu hỏi đặt ra: Những tâm trạng, cảm xúc đó liên quan gì đến sự thay đổi trong thị trường chứng khoán, cụ thể là chỉ số DJIA?

Page 16: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 3: Phân tích mối quan hệ nhân quả giữa tâm trạng và giá DJIA

April 22, 202316

Giả thuyết: Nếu 1 biến X gây ra Y thì những thay đổi trong X sẽ xuất hiện 1 cách hệ thống trước những thay đổi trong Y.

=> Các giá trị trễ của X biểu hiện 1 mối tương quan có ý nghĩa thống kê đối với Y

Áp dụng:Tâm trạng chung của cộng đồng trên Twitter có sự tương

đồng với thị trường chứng khoán, nhưng chúng phản ánh trước diễn biến từ 3-4 ngày chứ không phải là một kết quả trong việc tăng giảm của thị trường.

Nếu người dùng có cảm nhận tích cực về mã chứng khoán của 1 công ty thì trong 1 ngày nào đó trong tương lai, giá cổ phiếu của công ty đó sẽ tăng, và ngược lại

Page 17: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 3: Phân tích mối quan hệ nhân quả giữa tâm trạng và giá DJIA (cont.)

April 22, 202317

Page 18: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 3: Phân tích mối quan hệ nhân quả giữa tâm trạng và giá DJIA (cont.)

April 22, 202318

Ý nghĩa:Đo độ trễ cảm xúc so với chứng khoán, tức là nên đo cảm

xúc của ngày thứ bao nhiêu ( i – n) để dự đoán giá chứng khoán ngày i (tác giả chọn giá trị này là 3 ngày))

Giá trị p-values < 0.05=> Bác bỏ giả thuyết null: chuỗi tâm trạng của người dùng

không thể dự đoán được giá trị DJIA

Page 19: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 4: Dự đoán thị trường chứng khoán Sử dụng mô hình Self-organizing Fuzzy neural

Network(SOFNN) để dự đoán giá trị DJIA trên 2 tập đầu vào:Giá trị DJIA 3 ngày trướcCác hoán vị khác nhau của chuỗi cảm xúc

Để dự đoán giá trị DJIA ngày t, đầu vào cho SOFNN gồm:Các giá trị DJIACác giá trị đo tâm trạng của n ngày trước

April 22, 202319

Page 20: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 4: Dự đoán thị trường chứng khoán (cont.)

April 22, 202320

Tác giả thử 7 hoán vị của các biến đầu vào đối với mô hình SOFNN:

IOF = {DJIAt-3, 2,1 , XOF, t-3,2,1}

Trong đó:DJIA t-3,2,1: giá trị DJIA và X1,t-3,2,1: giá trị chiều 1 của

tâm trạng được đo bởi GPOMS tại thời điểm t-3, t-2, t-1I1,3; I1,4; I1,5; I1,6: kết hợp giữa giá trị DJIA trong quá khớ

với chiều 3, 4, 5 , 6 tại thời giẩm t-3, t-2, t-1

Page 21: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Bước 4: Dự đoán thị trường chứng khoán (cont.)

April 22, 202321

Kết quả:

Kết luận:Cảm xúc được đo bởi OF là không hiệu quảNgoài Calm, tác giả tìm thấy độ chính xác cao nhất với

I1Happy không có mối quan hệ nhân quả Granger tốt

nhưng khi kết hợp với Caml thì dự đoán chính xác hơn

Page 22: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Ưu và nhược điểmƯu điểm:

Độ chính xác khá cao

Nhược điểm:Chỉ dự đoán được sự tăng, giảm của thị trường chứng

khoánChưa giới hạn được vùng địa lý và ngôn ngữVới những sự kiện xảy ra đột ngột (Ví dụ Steve Job mất ,

…) thì độ trễ 3 ngày là quá lớn để dự đoán chứng khoán

April 22, 202322

Page 23: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Phương pháp đề xuất

Mô hìnhPhân lớp SVM-kNN

Dự báo thị trường chứng khoán

April 22, 202323

Page 24: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Mô hình

Page 25: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Điểm khác biệtTập từ POMS:

J.Bollen: Mở rộng dựa trên n-gram theo Google Đề xuất: Kết hợp mở rộng dựa trên n-gram theo Google

và tập các từ đồng nghĩa.

Dự đoán chỉ số DJIA: J.Bollen: dùng Mạng noron mờ tự tổ chức (SOFNN) Đề xuất: Áp dụng phương pháp phân lớp bán giám sát

SVM-kNN hoặc EM hoặc …

Page 26: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Dự đoán xu hướngInput:

n: số ngày cảm xúc trễCác chỉ số đóng DJIA của n ngày trước đóChuỗi tâm trạng theo thời gian của công chúng trong n

ngày trước đó tính theo 6 chiều.

Output: Xu hướng của chứng khoán ngày tTăng so với ngày t-1Giảm so với ngảy t-1Bằng ngày t-1

Page 27: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Dự đoán xu hướng (cont.)Vector thể hiện đặc trưng:

Vit = <dt-1, dt-2, …, dt-n, Xi, t-1 , Xi,t-2 , …, Xi,t-n>vit : vector thể hiện đặc trưng của cảm xúc theo chiều I

dt : giá trị chỉ số DJIA ngày t

Xi, t : giá trị cảm xúc chiều i trong ngày t. n: số ngày cảm xúc trễ

Gán nhãn: dựa trên chỉ số đóng DJIA mỗi ngày+1: chỉ số ngày t > ngày t-1-1: chỉ số ngày t < ngày t-10: chỉ số ngày t = ngày t-1

Page 28: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Kết luậnBáo cáo đã:

Giới thiệu về bài toán dự đoán thị trường chứng khoán dựa trên khai phá quan điểm từ dữ liệu Tweeter

Tìm hiểu về chứng minh giả thuyết “Tâm trạng có thể dự đoán được thị trường chứng khoán” của J.Bollen.

Đề xuất 1 hướng giải quyết nhằm cải tiến kết quả

Page 29: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Định hướng nghiên cứu

Cài đặt và thử nghiệm cho mô hình đã đề xuất

Nghiên cứu các mô hình bán giám sát khác và áp dụng với bài toán dự báo thị trường chứng khoán trên tweeter

Nghiên cứu hướng dự đoán chứng khoán sẽ tăng lên bao nhiêu hoặc giảm xuống bao nhiêu

April 22, 202329

Page 30: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Tài liệu tham khảo2008. Eugene F.Fama. The behavior of Stock- Market

Prices2010. X. Zhang, H. Fuehres, P.A. Gloor, Predicting

Stock Market Indicators Through Twitter I Hope It is Not as Bad as I Fear, Collaborative Innovation Networks (COINs), Savannah, GA,

2011. Johan Bollen và công sự, Twitter mood predicts the stock market

April 22, 202330

Page 31: Dự báo thị trường chứng khoán dựa trên khai phá dữ liệu Tweeter

Thank you for your listening!