predykcyjne systemy ochrony danych -...
TRANSCRIPT
PREDYKCYJNE SYSTEMY OCHRONY
DANYCH
Marcin Piołun-Noyszewski, CEO
AGENDA
Systemy predykcyjne
O AiPLAT
Przedmiot analizy
Moduły platformy analitycznej
Konkretne algorytmy
Zastosowania
AISECLAB
WYBRANI KLIENCI
Raytheon Systems Ltd (Wielka Brytania)
Rolls Royce Marine (Wielka Brytania)
Staffordshire Police (Wielka Brytania)
Vulco SA (USA)
Ashland Inc (USA)
Banque Raiffeisen (Luxemburg)
Canal de Isabel II (Hiszpania)
Colliers Jardine Nowa Zelandia (Nowa Zelandia)
Legal Aid Board (Irlandia)
Ministerstvo Financii SR (Słowacja)
Departament Obrony (Australia)
Mattel Group (Holandia)
Polkomtel (Polska)
Grupa COMP (Polska)
O SYSTEMACH PREDYKCYJNYCH
ISTNIEJĄCE SYSTEMY PREDYKCYJNE
Trudne
Wymagające wiedzy specjalistycznej
Często konieczność programowania
Uniwersalne, nadmiarowe
Posiadające mnóstwo statystyk i algorytmów
Wolne i niestabilne (np. R)
Płatne i drogie (np. SPSS, Statistica, SAS)
Niedostosowane do obróbki gigabajtów danych
Niedostosowane do pracy w czasie rzeczywistym
O PROCEDURZE PREDYKCJI
PLATFORMA AIPLAT
System analizy statystycznej, nauczania maszynowego i sztucznej inteligencji
Dostosowany do potrzeb bezpieczeństwa systemów ICT
Wiele źródeł danych
Rozwiązanie multidyscyplinarne
Jeden spójny system
Ukrywanie nomenklatury statystycznej, lingwistycznej i AI
Nowoczesne technologie
Skalowalność pionowa i pozioma
Profilujący zachowania pracowników
Przewidujący i przeciwdziałający niepożądanym zachowaniom
Dofinansowany przez NCBiR
Inwestycja funduszu Gerda Tech Fund
Doświadczenie od 2001 r. a technologie z 2017 r.
PLATFORMA AIPLAT
Ponad 20 osób zaangażowanych
Programiści, architekci IT, socjolodzy, statystycy, lingwiści, psychologowie
Kilkadziesiąt silników AI i procedur statystycznych sprawdzonych
Kilkadziesiąt produktów podobnych przeanalizowanych
Wartość ponad 8 mln
Współpraca z Wojskową Akademią Techniczną
Współpraca z Instytutem Maszyn Matematycznych
Prelekcje na największych konferencjach naukowych Polskiego Towarzystwa Statystycznego
KONFERENCJE NAUKOWE I BRANŻOWE
PLATFORMA AIPLAT - PATENTY
Automatyczny dobór algorytmu przewidywania trendów
Przewidywanie na podstawie danych pochodzących z niejednorodnych
okresów
ARCHITEKTURA PLATFORMY
ŹRÓDŁA DANYCH
PRZEDMIOT ANALIZY
Dokumenty
Rekordy
Strumienie danych
Dane o systemie
Informacje o użytkowniku
SONDA ENDPOINT (WKRÓTCE)
Klawiatura
Ekran
Procesy
Okna
Tekst
Ruchy i kliknięcia z myszą
Pliki
Ruch sieciowy
Antywirus, antymalware, antyrasomware
Inne (dźwięk, urządzenia, etc.)
Tryb ukryty i jawny
Windows od XP, Linux
MODUŁY PLATFORMY ANALITYCZNEJ
THREAT DETECTION AND DEFENSE
Analiza zachowań
Profilowanie i klasyfikacja zachowań
Porównywanie ze wzorcami
Wykrywanie odstępstw
Przewidywanie zachowań i parametrów
DWA TRYBY PRACY
Analiza w czasie rzeczywistym
Analiza cykliczna
TOPOLOGIE
Różne środowiska uruchomieniowe (runtimes)
Wiele, jednocześnie działających polityk
Przetwarzane równoległe tych samych danych wejściowych (krotek)
Emitowanie danych wyjściowych i metryk
Zmiana w locie - bez konieczności zatrzymywania usług
Definicja za pomocą połączeń grafowych
COMPLEX EVENT PROCESSING
Rozproszony system obliczeniowy czasu rzeczywistego
Standard systemów CEP (pamięć, brak zapisów)
Dowolnie skalowalny horyzontalnie
Podobny do HDoop ale do strumieni w czasie
rzeczywistym
Miliony krotek w węźle na sekundę
Bazy danych szeregów czasowych
Grupowanie w locie
ANALIZA CYKLICZNA
Agregowanie i przekształcanie danych
Odniesienie do przeszłych okresów
Słowem jest procesor
Wybierane dowolnie z zapisanych metryk w RTDB
Wyzwalane zadaniami Quartz• klasa enterprise
• kontrola uruchomień
• obsługa dziesiątek tysięcy zadań
• transakcyjność
• klastrowalność
Krotkę można przeanalizować przez dowolną liczbę topologii
DATA LEAK PREVENTION
Przeciwdziałanie wyciekom informacji
Reakcja na niepożądane zachowania zanim one wystąpią
Automatyczne blokowanie dostępu
Automatyczne ograniczanie przepustowości
Informowanie przełożonych i prezentowanie alertów
DIGITAL DOCUMENT ANALYSISAND PROCESSING
OCR
Rozpoznawanie i klasyfikacja obrazów
Silnik Google Photos
2-giej generacji silnik nauczania maszynowego
Wykrywanie stempli i podpisów
Wykorzystanie wielu rdzeni kart graficznych
Dwustopniowe rozpoznawanie
BAZA DANYCH SZEREGÓW CZASOWYCH
Dedykowana do obsługi danych zbieranych w czasie
Skalowalna i klastrowalna
Natywna redukcja danych
Natywna agregacja danych
Natywne funkcje statystyczne
SYSTEM LOAD MODELING
Monitorowanie i przewidywanie parametrów systemowych
Przewidywanie sytuacji krytycznych
Powiązanie zdarzeń systemowych ze
zdarzeniami merytorycznymi
Ostrzeganie i informowanie odpowiedzialnych
RULE ENGINE
Reguły o charakterze przyczynowo skutkowym
Językiem są:• selekcje
• akcje
• reguły
Operatory logiczne
Uwzględnianie wag poszczególnych zdarzeń
Własne selekcje, akcje, reguły
Otwarte SDK
Analiza kosztu wykonania operacji
Wygodny interfejs graficzny
WIZUALIZACJE
Własne pulpity
Metryki czasowe i analiza business intelligence
Kilkadziesiąt typów wykresów
Dodawanie własnych typów
WIZUALIZACJA I PREZENTOWANIE ZDARZEŃ
Przejrzyste pulpity
Alerty
Wiele typów profesjonalnych wykresów
Tabele wizualizujące dane
Idealne narzędzie do analiz w czasie rzeczywistym
Kafle
Diagramy
Wizualizacja wartości maksymalnych, minimalnych i średnich
PRZYKŁADY PREZENTACJI ODSTĘPSTW
ZAAWANSOWANA ANALIZA TREŚCI
Własne słowniki:• polskie
• angielskie
• francuskie
Tokenizacja
Klasyfikacja
Odkrywanie znaczenia, wordnet
Sieć bayesowska
Klasyfikatory Elastic Search
Modele sztucznej inteligencji
ANTI-VIRUS, ANTI-MALWARE
Wiele silników jednocześnie
• zero-hour
• behawioralne – sandbox
• heurystyczne
• baza sygnatur
ANALIZA ZDARZEŃ (LOGI)
Pobieranie dowolnych logów systemowych/aplikacji w dowolnej ilości i formacie
Standard SIEM
Różnorodne systemy operacyjne i programy
Filtrowanie
Grupowanie
Anonimizacja
Tokenizacja logów
OBSŁUGA INCYDENTÓW I ICH ESKALACJI
Czytelny obraz stanu bieżącego
Wyróżnianie i grupowanie najważniejszych zdarzeń
Priorytetyzacja incydentów zgodnie z przyjętymi założeniami
Workflow związany z obsługą zdarzeń
ARCHIWIZACJA
Przenoszenie wybranej treści
na zewnętrzne nośniki lub do chmury:
• Microsoft
• AWS, inne
Szyfrowane lub nieszyfrowane
Dzielenie danych na pakiety określonej wielkości
Na potrzeby audytu
Na potrzeby postępowania wyjaśniającego
Jeden spójny system
PROCESORY
Logiczna jednostka przetwarzania
Zasilane na wejściach wartościami i emitujące na wyjściach wartości
Wspierane typy wartości:
• liczby, teksty, pliki binarne, skalary, wektory, mieszane
Definiowalne w różnych językach (SDK)
Uruchamialne w różnych trybach (JVM, microservices, zdalne)
KATEGORIE PROCESORÓW
• Logiczne
• Matematyczne
• Statystyczne
• konkretne statystyki i algorytmu
• R on Rails
• Lingwistyczne
• Analizy trendów i anomalii
• AI
• Klasyfikujące i klasteryzujące
• Indeksujące tekst
• Przetwarzające tekst
• Słownikowe
• Archiwizujące
• Powiadamiające
• Analizujące pliki binarne
• sprawdzanie typów,
• wyłuskiwanie danych i zagnieżdżonych obiektów
• konwertowanie do tekstu
• OCR
• Office, Open Office, PDF, RTF, TXT, MIME, Base64,
• CEP – zapamiętujące i przetwarzające w pamięci
• Inne
Ponad 100 procesorów
ALGORYTMY
• Metody grupowania:
� aglomeracyjne (hierarchiczne np. Warda)
� optymalnego podziału (k-średnich, x-średnich, k-medoidów, DBSCAN, mieszanka rozkładów Guussa, grupowanie dwustopniowe, sieci Kohonena)
• Metody predykcyjne:
� autoregresyjne: AR, ARCH, ARMA, ARIMA, GARCH, itp.
� sieci neuronowe typu wielowarstwowy perceptron i rekurencyjne
� wyrównywania wykładniczego sezonowe: prosty, addytywny Wintersa, multiplikatywny Wintersa,
� wyrównywania wykładniczego niesezonowe: prosty, Holta, Browna, wygasający
� estymacji funkcji (liniowej, kwadratowej, sześciennej, potęgowej, odwrotnej, wykładniczej itd.)
� analiza techniczna (wstęga Bollingera, CCi, MACD itp.)
• Metody klasyfikacyjne:
� Regresja logistyczna
� Sieci neuronowe (jednokierunkowe typu wielowarstwowy perceptron, rekurencyjne)
� Maszyna wektorów nośnych (funkcji liniowej, ewolucji różnicowej)
� Naiwny klasyfikator Bayesa
� Drzewa Decyzyjne (CRT, GUEST, CHAID, C4.5, C5.0)
� K-najbliższych sąsiadów
� Lasy losowe
• Metody wspierające proces klasyfikacji:
� Bagging
� Boosting
� Analiza dyskryminacyjna
• Metody asocjacyjne
� A-prori
� FP-Growth
• Metody redukcji
� Analiza czynnikowa
� Analiza korespondencji
� Skalowanie wielowymiarowe
• Metody transformacji
� Kategoryzacja
� Normalizacja
� Agregacja
MODULARNOŚĆ I SKALOWALNOŚĆ
Platforma Docker Services (model serwisów nie obrazów)
Model on-premise lub chmury prywatne, hybrydowe, publiczne, urządzenia
Dostosowane do obsługi największych klientów
Moduły Analityczne
Rozszerzenia
Mikroserwisy
Własne zmiany
CECHY SYSTEMU
Zmiany polityk i konfiguracji bez zatrzymywania
Kontrola dystrybucji i lustrzany obraz klienta
Kontrola zależności pomiędzy serwisami
Łatwa aktualizacja zakupionych komponentów
Skalowanie liczby obsługujących serwisy instancji
Korzystanie z zewnętrznych zasobów dyskowych (np. NFS) montowanych do wszystkich serwisów
Kontrola wewnętrznej spójności i wydajności
ZASTOSOWANIA AIPLATFORM
Kontrola przetwarzania i użycia danych osobowych
Analiza wniosków kredytowych
Kontrola procesów
Wykrywanie wewnętrznych fraudów
Analiza odstępstw i anomalii
Prognozowanie
Wykrywanie zacierania śladów
Archiwizacja zachowań na potrzeby dowodowe
PRZYKŁADY POLITYK
Wykrywanie nadmiernie częstych dostępów (odczytów, zapisów, usuwań) do newralgicznych plików
Wykrywanie szczególnie innych transakcji (zakupowych, sprzedażowych, magazynowych, finansowych etc.
Wykrywanie treści nie charakterystycznych dla konkretnego działu
Wykrywanie wyjątkowego zainteresowania plikami konkretnego działu
Prezentowanie anomalii dot. systemów uwierzytelnienia np. zbyt częste logowania, zbyt rzadkie, o niestandardowych
godzinach, z niestandardowych miejsc
Wykrywanie niepożądanej a wprowadzanej przez pracowników treści w kategoriach
Wykrywanie ukierunkowanego ruchu na stronach www lub intranetu - odstępstwa od standardowego zachowania
użytkowników
Wychwytywanie nietypowych zapytań do lokalnego serwera DNS na podstawie modelu działu/organizacji
W przypadku elektronicznej kontroli dostępu do pomieszczeń - wykrywanie anomalii w zachowaniu uprawnionych do
dostępu użytkowników
DZIĘKUJEMY ZA UWAGĘ