data mining click fraud detection
DESCRIPTION
TRANSCRIPT
Trình bày: Nguyễn Trọng ThànhPhòng: Adtech
Các vấn đề về click fraud Data mining (DM) vs kỹ thuật lọc click fraud Ứng dụng data mining cho công nghệ Click
fraud detection. Một vài kết quả.
Xảy ra với quảng cáo tính phí theo CPC (có ít theo CPA).
Sự khác nhau giữa Click fraud & Invalid click.
Các hình thức click fraud: Tools, click bots, publishers tự clicks, đối thủ cạnh tranh click, thậm chí thuê nhân công giá rẻ để click quảng cáo.
Các hình thức click fraud luôn thay đổi Việc chặn click fraud rất khó khăn vì phải
mining trên lượng data rất lớn (500->1 tỷ rows/day và có thể tăng).
Một số report về click fraud trên thế giới.
http://techcrunch.com/2009/01/27/report-click-fraud-at-record-high/
http://searchengineland.com/report-click-fraud-rate-for-q2-2010-28-9-45838
Các yếu tố: ◦ IP, cookies, referral, domain…◦ Google có khoảng 150 yếu tố
Các rules:◦ Số click/ad tăng đột biến.◦ 1 user click nhiều hơn 1 số cho phép.◦ Click ko có referrral, ko có IP.◦ Click đến từ 1 proxy server nghi ngờ.
DW: sử dụng Inforbright là DW dạng column orient, compression ratio có thể đạt 1:40, sử dụng công nghẹ gọi là KG để mapping data.
Yếu tố mining: sử dụng 5 yếu tố chính là IP, Cookies, Domain, Timecreate, Browsers, OS.
Các rules: ◦ fraud click khi 1 visitor click nhiều hơn số lần cho
phép (bị loại bỏ hoàn toàn các click đến từ visitor này).
◦ Số click tăng đột ngột trên 1 banners
Số banners active khoảng 2k, trong đó CPC chiếm khoảng 1800 banners.
Tốc độ tính toán: 5 phút 1 lần Số click ko hợp lệ: ~10%
Câu hỏi liên quan?