mintavételezés, szűrés, kilógó esetek detektálása€¦ · egy kis kitérő: nndb...

107
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, kilógó esetek detektálása Salánki Ágnes [email protected]

Upload: others

Post on 22-May-2020

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Budapest University of Technology and EconomicsDepartment of Measurement and Information Systems

Budapest University of Technology and EconomicsFault Tolerant Systems Research Group

Mintavételezés, szűrés, kilógó esetek detektálása

Salánki Ágnes

[email protected]

Page 2: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfogalmak

Az alapfeladat ugyanaz

Az aspektus más

Page 3: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfogalmak

Az alapfeladat ugyanaz

Az aspektus más

Page 4: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

OUTLIER DETEKTÁLÁS

Page 5: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfeladat

Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539

Page 6: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfeladat

Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539

Vannak-e egyáltalán?

Page 7: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfeladat

Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539

Vannak-e egyáltalán?

Hogy néznek ki?

Page 8: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfeladat

Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539

Vannak-e egyáltalán?

Hogyan szeparálhatóak?

Hogy néznek ki?

Miért?

Page 9: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfeladat

Ábra forrása: http://www.dpchallenge.com/image.php?IMAGE_ID=636539

Vannak-e egyáltalán?

Hogyan szeparálhatóak?

Hogy néznek ki?

Miért?

Vannak-e egyáltalán?

Nagy adat: aggregálás?

Szakterület specifikus?

Hatások?

Page 10: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfeladat

Page 11: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Alapfeladat

Page 12: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Megközelítések

Távolság alapúak Sűrűség alapúak

Page 13: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Megközelítések

Távolság alapúak Sűrűség alapúak

Page 14: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Megközelítések

Távolság alapúak Sűrűség alapúak

Page 15: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Megközelítések

Távolság alapúak Sűrűség alapúak

Page 16: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

TÁVOLSÁG ALAPÚ TECHNIKÁK

Page 17: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

0

ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧

Féltér-mélység: Tukey, 1974

Page 18: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

0

2 31 54 6 7 8

ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧

Féltér-mélység: Tukey, 1974

Page 19: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

0

2 31 54 6 7 8

7 68 45 3 2 1

ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧

Féltér-mélység: Tukey, 1974

Page 20: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

0

2 31 54 6 7 8

7 68 45 3 2 1

Min.: 2 31 44 3 2 1

ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧

Féltér-mélység: Tukey, 1974

Page 21: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

0

2 31 54 6 7 8

7 68 45 3 2 1

Min.: 2 31 44 3 2 1

ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧

Féltér-mélység: Tukey, 1974

Extrém pontok

Page 22: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

0

2 31 54 6 7 8

7 68 45 3 2 1

Min.: 2 31 44 3 2 1

ℎ𝑑𝑠 𝑧 : min 𝑥𝑖: 𝑥𝑖 ≤ 𝑧 , 𝑥𝑗: 𝑥𝑗 ≥ 𝑧

Féltér-mélység: Tukey, 1974

Extrém pontok

Medián: majd a végén…

Page 23: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 24: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 25: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 26: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 27: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 28: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 29: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 30: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 31: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 32: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Befoglaló burok

Féltér-mélység: Tukey, 1974

Page 33: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DEMO

Csomag: depth

Hasznos függvények: depth, isodepth

Paraméterek: 𝑢 pont, 𝑑𝑝𝑡ℎ mélység

Befoglaló burok

Page 34: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DB

Distance Based

Outlier: szomszédok száma alacsony

Paraméterek

o 𝑟 sugarú hipergömb

o Szomszédok elvárt 𝜋 aránya

Page 35: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DB

Distance Based

Outlier: szomszédok száma alacsony

Paraméterek

o 𝑟 sugarú hipergömb

o Szomszédok elvárt 𝜋 aránya

Page 36: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DEMO

Csomag: fields

Függvény: fields.rdist.near

Paraméterek: 𝑑𝑒𝑙𝑡𝑎 sugár

DB

Page 37: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

MCD

Minimum Covariance Determinant

Alapötlet

o Keressük meg a legkompaktabb részhalmazt!

Page 38: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

MCD

Minimum Covariance Determinant

Alapötlet

o Keressük meg a legkompaktabb részhalmazt!

Page 39: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

MCD

Minimum Covariance Determinant

Alapötlet

o Keressük meg a legkompaktabb részhalmazt!

0.0014 0.00041

0.00011

Page 40: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

MCD

Minimum Covariance Determinant

Alapötlet

o Keressük meg a legkompaktabb részhalmazt!

0.0014 0.00041

0.00011

Kimerítő keresés?

choose(n = 1000, k = 900)

[1] 6.385051e+139

Page 41: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

Page 42: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Mahalanobis távolság

𝐷 𝑥,𝑀 = (𝑥 − 𝜗)𝑇𝑆−1 𝑥 − 𝜗

o 𝑆 – kovarianciamátrix

o 𝜗 – súlypont

Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

Page 43: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Mahalanobis távolság

𝐷 𝑥,𝑀 = (𝑥 − 𝜗)𝑇𝑆−1 𝑥 − 𝜗

o 𝑆 – kovarianciamátrix

o 𝜗 – súlypont

Ábra forrása: http://stats.stackexchange.com/questions/62092/bottom-to-top-explanation-of-the-mahalanobis-distance

Page 44: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

o Legközelebbi 𝑥%

Page 45: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

o Legközelebbi 𝑥%

Page 46: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

o Legközelebbi 𝑥%

X

Page 47: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

o Legközelebbi 𝑥%

X

Page 48: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

o Legközelebbi 𝑥%

X

Page 49: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

FAST-MCD

Közelítő algoritmus

Véletlenszerűen választott kezdőhalmaz

Iteratív

Legközelebbi pontok kiválasztása

oMahalanobis távolság alapján

o Legközelebbi 𝑥%

Page 50: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

BACON

Blocked Adaptive Computationally EfficientOutlier Nominators

Kiinduló halmaz félig felügyelt módban is!

Új halmaz: küszöbérték alapján

Page 51: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DEMO

Csomag: robustX

Függvény: mvBACON

Paraméterek

o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz

• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz

• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete

BACON

Page 52: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DEMO

Csomag: robustX

Függvény: mvBACON

Paraméterek

o 𝑖𝑛𝑖𝑡. 𝑠𝑒𝑙 kezdőhalmaz

• „manual” – 𝑚𝑎𝑛. 𝑠𝑒𝑙 kezdőhalmaz

• „Mahalanobis”, „dUniMedian” – 𝑚 kezdőhalmaz mérete

BACON

Page 53: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

SŰRŰSÉG ALAPÚ TECHNIKÁK

Page 54: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DB alapötlete

Hiába vagyunk a középpontban, ha

nincsenek szomszédaink

Distance-basedapproach

Page 55: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

LOF motiváció: mikor jó a DB?

𝑝2 sem, vagy 𝐶1 is?

Page 56: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

LOF

Local Outlier Factor

Alapötlet: csak a szomszédaival hasonlítsuk össze

o lokális sűrűség

Outlier kritérium

o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan

𝑟𝑑: reachability distance

Page 57: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

LOF

Local Outlier Factor

Alapötlet: csak a szomszédaival hasonlítsuk össze

o lokális sűrűség

Outlier kritérium

o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan

𝑟𝑑: reachability distance

Page 58: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

LOF

Local Outlier Factor

Alapötlet: csak a szomszédaival hasonlítsuk össze

o lokális sűrűség

Outlier kritérium

o a lokális sűrűség jóval kisebb, mint a szomszédaimnakátlagosan

𝑟𝑑: reachability distance

Page 59: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

LOF

Ha a szomszédaim

is magányosak,

nincs nagy gond

LOF: DMwR::lofactor

Local outlier factor

Page 60: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

DEMO

Csomag: DMwR (Data Mining with R)

Függvény: lofactor

Paraméterek: 𝑘 szomszédság mérete

LOF

Page 61: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

OUTLIEREK ADATFOLYAMOKBAN

Page 62: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Adatfolyamok

1. több forrásból,2. ismeretlen

sebességgel

Buffer, megengedett számítási memória

igény korlátos

Egyszer streamenként: „Lokális maximum?”

Globális kérdések: „Minden új maximumot

jelezzünk”

Ábra és a számértékes példák forrása: [1]

Page 63: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek idősorokban

IT Monitorozás

Tőzsdei elemzések

Banki csalásfelderítés

Mindkét adattípus számít

o Szenzorok: nagyrészt numerikus

• 𝐶𝑃𝑈_𝑛𝑖𝑐𝑒: 0.12, 0.13, 0.12, 0.13, …

o Naplózás: nagyrészt kategorikus

• 𝑉𝑀_𝑜𝑝𝑒𝑟𝑎𝑡𝑖𝑜𝑛𝑠: Start, Stop, Start, Snapshot, Snapshot, …

Page 64: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Hatások szerinti osztályozás

Additive outlier

o A rákövetkező elemekre teljesen hatástalan

Level Shift Outlier

o Permanens hatás

Innovational Outlier

o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet

Transient Change Outlier

o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra

Page 65: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Basic typesAdditive

Transient change

Level Shift

Innovational

Page 66: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciák között

„Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?”

Feltételezések

o Az idősorok hossza azonos

o Keressük a legkiugróbbat

Page 67: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciák között

Ötletek

o Képezzük le egy értékre az idősort

• variancia

• az első pillanat, amikor az érték elért egy küszöböt

o Elemek egy hasonlósági mátrixba

Innentől már akármelyik klasszikus klaszterezési módszer működik

Távolságfüggvény a szomszédossághoz?

Page 68: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Idősorok távolságfüggvényei

Euklideszi távolság

o X tengely menti eltolás (offset)?

Dynamic time warping

o eleve kiugró értékek alapján hasonlítunk

Length of common subsequence

Page 69: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Dinamikus idővetemítés

Az idősorok pontjait nem indexenként hasonlítjuk össze

oMotiváció pl. hangfelismerésnél

Page 70: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Dinamikus idővetemítés

Az idősorok pontjait nem indexenként hasonlítjuk össze

oMotiváció pl. hangfelismerésnél

Page 71: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Dinamikus idővetemítés számítása

1. 𝑛 × 𝑚-es 𝐷 mátrixban rögzítjük a sorok egymástól való távolságát

2. Kell: 𝑝 = 𝑝1, 𝑝2, … 𝑝𝑘 útvonal a 𝐷 1,1 és 𝐷 𝑛,𝑚között

3. Cél: minimális költség4. Szabályok:

1. Minden lépésben előre haladunk (nem távolodhatunk, tehát 𝑖, 𝑗 → 𝑖, 𝑗 esetén 𝑖 ≥𝑖, 𝑗 ≥ 𝑗)

2. Az út folytonos, mindig csak szomszédos cellákra léphetünk

Page 72: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Dinamikus idővetemítés

Sakoe-Chibasáv

Page 73: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Dinamikus idővetemítés

Sakoe-Chibasáv

Page 74: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Longest common subsequence

Nem a pontos időpont számít

Csak a sorrend

𝑥1: 𝑎𝑏𝑐𝑑𝑒𝑓𝑔

𝑥2: 𝑓𝑎𝑏𝑑𝑐𝑒𝑔

𝑛𝑙𝑐𝑠(𝑥1, 𝑥2) = 5𝑙𝑐𝑠 𝑥1, 𝑥2 : 𝑎𝑏𝑐𝑒𝑔

Page 75: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Longest common subsequence

Nem a pontos időpont számít

Csak a sorrend

Általánosítás folytonos értékekre

Page 76: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

Page 77: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

Page 78: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

Page 79: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

o Square Error regresszióból: min

Page 80: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

o Square Error regresszióból: min

Page 81: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

o Square Error regresszióból: min

o A pont törlésével a „minimum description length” a lehető legjobban lecsökken.

Eredeti: 5 különböző érték

Page 82: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

o Square Error regresszióból: min

o A pont törlésével a „minimum description length” a lehető legjobban lecsökken.

Eredeti: 5 különböző érték

-2 törlése után: 4 különböző érték is elég

Page 83: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Autokorrelációs módszerek

Autokorrelációs módszerek

o Hol térünk el nagyon a prediktált értéktől?

o Hol változik legjobban az autokorrelációs modell?

Page 84: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Egy kis kitérő: NNDB

Felügyelt: feltételezzük, hogy létezik orákulum

Milyen sorrendben kérdezzük meg tőle a pontokat, hogy a lehető leggyorsabban megtaláljuk a ritkákat?

Pl.: domain expert leellenőrzi, amit mondunk neki, de minél kevesebbet kelljen manuálisan dolgozni

Variációk egy témára

o Mennyi információnk van?

o Milyen adatunk van? (csak attribútumok? Kapcsolatok is?)

Page 85: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Kiindulási feltételek

Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

Kompaktság

o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 86: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Kiindulási feltételek

Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

Kompaktság

o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 87: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Kiindulási feltételek

Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

oMatematikája kell?

Kompaktság

o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 88: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Kiindulási feltételek

Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

oMatematikája kell?

Kompaktság

o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 89: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Kiindulási feltételek

Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

oMatematikája kell?

Kompaktság

o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 90: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Kiindulási feltételek

Simaság

o A többségi osztály eloszlásfüggvénye megfelelően sima

oMatematikája kell?

Kompaktság

o A ritka osztályba tartozó elemek egymástól vett távolsága kisebb, mint a többségtől vett távolság

Ami nem kell feltételül: szeparáltság

Ha nincs: véletlen mintavételezés

Page 91: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

NNDB

1. ∀ 𝑖-re 𝑁𝑁 = 𝑥 ∈ 𝑆, 𝑑 𝑖, 𝑥 ≤ 𝑟𝑖 , 𝑟𝑖 az adott ciklusban megengedhető maximális sugár

2. ∀𝑖 -re 𝑠𝑖 = max𝑥 ∈𝑁𝑁(𝑖)

|𝑁𝑁 𝑖 | − |𝑁𝑁 𝑥 |

3. Sejtett ritka elem: 𝑖, amire 𝑠𝑖 maximális.

4. Ha 𝑖 ritka, vége.

5. Ha nem,𝑟𝑖+1 = 𝑖 + 1 × 𝑟1,ugrás 1-re.

𝑁𝑁 = 7𝑁𝑁 = 14

Page 92: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Apriori információval – NNDB

𝑟𝑖+1 = (𝑖 + 1) × 𝑟1, na de mekkora legyen 𝑟1?

Ötlet: ha a ritkák aránya ≈ 𝑝2, akkor legyen 𝐾 =𝑝2 × 𝑆 , számítsuk ki ∀ 𝑖-re a 𝐾. legközelebbi elem távolságát: 𝑛𝑖.

Legyen 𝑟1 = min𝑖 ∈𝑆

𝑛𝑖.

Page 93: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Apriori információval – NNDB

𝑟𝑖+1 = (𝑖 + 1) × 𝑟1, na de mekkora legyen 𝑟1?

Ötlet: ha a ritkák aránya ≈ 𝑝2, akkor legyen 𝐾 =𝑝2 × 𝑆 , számítsuk ki ∀ 𝑖-re a 𝐾. legközelebbi elem távolságát: 𝑛𝑖.

Legyen 𝑟1 = min𝑖 ∈𝑆

𝑛𝑖.

Ha a ritkák tényleg nagyon közel vannak egymáshoz,

akkor beleférnek egy körbe

Page 94: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Implementációs kérdések

𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’) – milyen adatszerkezettel?

o 𝑜𝑟𝑡 𝑥 𝑘 ,𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′

Partíciós módszerek?

o Pl. fák: k-d tree, VP-tree

Page 95: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Implementációs kérdések

𝑥 ≤ 𝑟′

𝑟𝑟′ ≤ 𝑥 ≤ 𝑟′𝑥𝑥ℎ𝑐𝑐𝑖𝑖𝑤𝑤ℎ 𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’)– milyen adatszerkezettel?

Naiv

o Távolságmátrixot tárolunk

o 𝑠𝑜𝑟𝑡 𝑥 𝑘 , 𝑘 , 𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′

Partíciós módszerek?

o Pl. fák: k-d tree, VP-tree

Page 96: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Implementációs kérdések

𝑥 ≤ 𝑟′

𝑟𝑟′ ≤ 𝑥 ≤ 𝑟′𝑥𝑥ℎ𝑐𝑐𝑖𝑖𝑤𝑤ℎ 𝑘𝑁𝑁(𝑥𝑖), majd 𝑁𝑁(𝑥𝑖 , 𝑟’)– milyen adatszerkezettel?

Naiv

o Távolságmátrixot tárolunk

o 𝑠𝑜𝑟𝑡 𝑥 𝑘 , 𝑘 , 𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′

Partíciós módszerek?

o Pl. fák: k-d tree, VP-tree

o Pl. fák: k-d tree, VP-tree

Page 97: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Implementációs kérdések

1. ÉPÍTHierarchikus

adatszerkezetben a közeli ponthalmazok

Page 98: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Implementációs kérdések

1. ÉPÍTHierarchikus

adatszerkezetben a közeli ponthalmazok

≤9 (7. zóna)= 10

2.1 𝑟’ ≤ 9 (7. zóna)2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)

Page 99: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Implementációs kérdések

1. ÉPÍTHierarchikus

adatszerkezetben a közeli ponthalmazok

≤9 (7. zóna)= 10

2.2 r’ = 7 (5-8. zóna) 2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)

Page 100: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Implementációs kérdések

1. ÉPÍTHierarchikus

adatszerkezetben a közeli ponthalmazok

≤9 (7. zóna)= 10

2.2 r’ = 7 (5-8. zóna) 2.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)

Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt

Page 101: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Map-Reduce?

𝑛 elég nagy muszáj bontani

Page 102: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Map-Reduce?

𝑛 elég nagy muszáj bontani

REDUCE

MAPCsomópont milyen más csp-

ok kNN-jeit frissítheti?

Ha megvan minden jelölt: tényleges távolságszámítás

Page 103: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Map-Reduce?

𝑛 elég nagy muszáj bontani

REDUCE

MAPCsomópont milyen más csp-

ok kNN-jeit frissítheti?

Ha megvan minden jelölt: tényleges távolságszámítás

Mi van, ha már a felosztást is elosztottan akarom végezni?

Page 104: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Egy kis csalás.. Voronoi cellák

𝑼𝟏

Page 105: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Amiért jó: MapReduce

𝑛 elég nagy muszáj bontani

REDUCE2

MAP2Csomópont milyen más csp-

ok kNN-jeit frissítheti?

Ha megvan minden jelölt: tényleges távolságszámítás

Page 106: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Amiért jó: MapReduce

𝑛 elég nagy muszáj bontani

MAP1

REDUCE2

MAP2

Csomópont->tartomány hozzárendelések

Csomópont milyen más csp-ok kNN-jeit frissítheti?

Ha megvan minden jelölt: tényleges távolságszámítás

REDUCE1 Tartományok értékei

Page 107: Mintavételezés, szűrés, kilógó esetek detektálása€¦ · Egy kis kitérő: NNDB Felügyelt: feltételezzük, hogy létezik orákulum Milyen sorrendben kérdezzük meg tőle

Hivatkozásjegyzék

[1] Stream Processing, filtering: Mining of MassiveData Sets

o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf

o Coursera tárgy: https://www.coursera.org/course/mmds

[2] Outlier Detection

o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys(CSUR), 41(3):15, 2009