instytut informatyki - projects topics proposalsanna.lamek/zajecia/niwpd/big...data: the rise of...
TRANSCRIPT
Big data
dr inż. Anna Lamek
Katedra Badań Operacyjnych, Finansów i Zastosowań Informatyki
Agenda
• Wprowadzenie
– czym jest Big data?
• 5V
• Wady i zalety
• Istniejące zastosowania
– Wykorzystanie big data w zarządzaniu
2
Czym jest Big data?
• [Gartner 2012] „…to zbiory informacji o dużej objętości,
dużej zmienności lub dużej różnorodności, które
wymagają nowych form przetwarzania w celu
wspomagania podejmowania decyzji, odkrywania
nowych zjawisk oraz optymalizacji procesów
• [Płaszczak 2013] …gdy zbioru nie da się przetwarzać
przy użyciu trywialnych, powszechnie dostępnych metod
• Masowy napływ dużej ilości danych cyfrowych,
pochodzących z różnych źródeł (czujniki, dokumenty,
fora internetowe, etc.)
• Dane niestrukturalne (tekst, pdf, video), semistrukturalne
(pliki XML) czy prawie strukturalne (web clicks)3
Czym jest Big data?
• [Tabakow, Korczak, Franczyk, 2014]:
„…określenie stosowane dla takich
zbiorów danych, które jednocześnie
charakteryzują się dużą objętością,
różnorodnością, strumieniowym napływem
w czasie rzeczywistym, zmiennością,
złożonością […] i wymagają zastosowania
innowacyjnych technologii, narzędzi,
metod informatycznych w celu wydobycia
z nich nowej i użytecznej wiedzy”4
5źródło: datatechnocrats.com
6
7źródło: OECD, IDC Digital Universe research estimates (2014)
Źródła big data
• Dane generowane przez użytkowników portali
internetowych, w tym sieci społecznościowych
• Dane opisujące transakcje dokonywane poprzez Internet
• Dane naukowe (biologiczne, astronomiczne, pomiary
fizyczne itp.)
• Dane generowane przez roboty przeszukujące Internet
(Web mining, Web crawling)
• Dane grafowe obrazujące powiązania pomiędzy
stronami WWW
• Dane pochodzące czujników i urządzeń podłączonych
do Internetu (Internet of Things)
• …. 8
Źródło: prezentacja Krzysztof Goczyła, Politechnika Gdańska, Big data i 5V , nowe wyzwania w świecie danych
Co się dzieje w ciągu 60sek?
9
źródło: https://www.go-globe.com/, sierpień 2017
10
źródło: Wikibon 2015, Executive Summary: Big Data Vendor Revenue and Market Forecast,
2011-2026 http://wikibon.com/executive-summary-big-data-vendor-revenue-and-market-forecast-
2011-2026/ , dostęp: maj 2016r.
Wzrost zainteresowania big data
11
źródło: opracowanie własne na podstawie Google Trends, listopad 2017
12Wyszukiwanie: listopad 2017
Potencjał big data - zbieranie informacji, nowej wiedzy, by dostrzec nowe
zależności i wzorce zachowań w społeczeństwie i środowisku
13
źródło: Tools and Techniques for Analysing Big Data, Michael Ferguson, Intelligent Business Startegies, Munich, 2014
Duże zasoby danych i brak integracji
Integrująca infrastruktura zarządzania
danymi coraz bardziej potrzebna
– wielokrotne kopie danych
– niezintegrowane procesy
– różne interfejsy użytkownika
– mnogość i złożoność platform analitycznych
– duplikacja funkcjonalności
– integracja typu „spaghetti”
– różne „aplikacje” Big Data 14
Dane rozproszone=złożone zarządzanie
15
Where is all the
Customer Data?
Legacy,
packaged apps
16
Źródło: http://www.intel.pl/content/www/pl/pl/it-managers/big-data-in-polish-companies.html Raport Capgemini “Big & Fast
Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło w nim udział 576
CIO z firm zatrudniających min. 100 pracowników: 175 z Czech, 150 z Węgier, 150 z Polski i 101 ze Słowacji.
17źródło: opracowanie własne na podstawie
Information Week 2015 Analytics & BI Survey
18
Bańka filtrująca (ang. filter bubble) – sytuacja powstała w
wyniku działania określonego algorytmu, gdzie osoba
korzystająca z sieci otrzymała informacje
wyselekcjonowane, które dobrane zostały na podstawie
informacji dostępnych na temat użytkownika, np. lokalizacja
lub historia wyszukiwania[1]. Powoduje to, że użytkownik
zamknięty jest w samonapędzającym się cyklu opinii, a
szukający nie zostaje nigdy skierowany na odmienne tematy
lub punkty widzenia[2].
19
[1] Jak jesteśmy profilowani w sieci? | Cyfrowa Wyprawka. cyfrowa-wyprawka.org.
[dostęp 2016-05-02]. [zarchiwizowane z tego adresu (5 marca 2016)].
[2] Yuan Cao Zhang, Diarmuid Ó Séaghdha, Daniele Quercia, Tamas Jambor. Auralist: Introducing Serendipity into Music Recommendation. „ACM WSDM”, luty 2012 (ang.).
20Źródło: https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles
Profilowanie użytkowników,
marketing spersonalizowany
• The typical Internet user is served 1,707
banner ads per month. (Comscore)
• 25-34-year olds see 2,094 banner ads per
month. (ComScore)
• „Target case”
21
22źródło:https://www.brainpickings.org/2011/05/12/the-filter-bubble/
Korelacja zjawisk
• współwystępowanie określonych zjawisk
• 2009 – badanie zbieżności zachorowań na raka z
używaniem telefonów komórkowych
– Dane operatorów + rejestr osób chorujących na raka + rejestr
zawierający dane dot. wykształcenia i dochodów)
• praca nad oprogramowaniem medycznym dla
wcześniaków – IBM + Uniwersytet w Ontario dr Carolin
McGregor
– różne strumienie danych (1260 przesłanych informacji/sekundę,
w wielu szpitalach – ogromne ilości danych)
– wykrywa zmiany na 24 h przed infekcją; niezmieniające się
parametry, idealnie stabilne dziecko>> wskazują na poważną
infekcję
23
24
r=0,957
źródło: http://tylervigen.com/spurious-correlations
25źródło: http://tylervigen.com/spurious-correlations
r=0,666
Geolokalizacja
26
Źródło: yanosik.pl,
Google Maps, iMPK
27źródło: Targeo, Google Maps
Traffic index
28źródło: https://www.tomtom.com/en_gb/trafficindex/
TI Wrocław
29źródło: https://www.tomtom.com/en_gb/trafficindex/
Google Transparency Report
30źródło: https://transparencyreport.google.com/
Ile osób wie, że tu jesteśmy?
• Oznaczenie lokalizacji, deklaracja udziału
w wydarzeniu
• Poszukiwanie trasy dojazdu, GPS
• Używanie karty
• Tweety, wysyłanie zdjęć
• Komórka (niekoniecznie smartphone)
logująca się do stacji przekaźnikowych w
sieci GSM
31
Analiza predyktywna
32The journey to predict the future: Dr Kira Radinsky at TEDxHiriya
https://www.youtube.com/watch?v=gAifa_CVGCY
Blue Crash
• Powstrzymywanie przestępstw zanim jeszcze zostaną
dokonane
• Specjalnie stworzony algorytm analizuje zapisy z kamer,
dane różnych służb oraz dane historyczne, aby móc
wysłać patrol w dobre miejsce i o dobrej porze.
• Rezultat: od 2006 do 2010 roku zmniejszono w Memphis
przestępstwa z użyciem przemocy o 26%, a liczba
włamań malała pięciokrotnie szybciej niż średnia w kraju.
33
Trendsmap / Hashtagify
• Bardzo mocno związane z aktualnymi
wydarzeniami
• Jedno/wiele źródeł
• Trendy / Rankingi popularności
• Narzędzia do planowania
działań/sterowania?
• How To Find Great Hashtags To Market
Your Business?
34
Współczesne kluczowe narzędzia biznesowe?
35
36
źródło: Trendsmap, 19.04.2016, godz. 11:24 ;)
37
źródło: Trendsmap, 19.04.2016, godz. 11:24 ;)
38
źródło: opracowanie własne na podstawie Google Trends, 19.04.2016
39
źródło: opracowanie własne na podstawie Google Trends, 19.04.2016
Zastosowanie regresji logistycznej w ocenie
jakości informacji na przykładzie Wikipedii
40
• Ocena zmiennych opisujących jakość artykułów w
Wikipedii w wersji angielskiej
• 5 miejsce w rankingu najczęściej odwiedzanych www*
• Istnieje wiele zmiennych opisujących daną publikację,
oprócz tego w różnych wersjach językowych inne
wyróżnienia publikacji / systemy klasyfikacji (ang – FA,
GA; pol – artykuł na medal)
• Problem automatycznej oceny dużej liczby artykułów
• Cel badań: ocena jakości artykułu (czy jest dobry) przy
dużej liczbie zmiennych niezależnych
*źródło: www.alexa.com/siteinfo/wikipedia.org
41
Wybór parametrów
opisujących jakość
artykułów Wikipedii w
wersji angielskiej
Wyznaczenie
wskaźnika
wartości
informacyjnej IV
dla każdego
parametru
Interpretacja
otrzymanych
wyników wskaźnika
wartości
informacyjnej IV dla
każdego parametru
Porównanie
wpływu
parametrów
na
kompletność
artykułów
• Parametry
– referencje – liczba wszystkich referencji, które używane są w treści artykułu;
– odsłony – liczba odsłon danego artykułu za ostatnie 90 dni od momentu
ekstrakcji danych;
– liczba_obserwujących – liczba użytkowników Wikipedii, którzy są bezzwłocznie
informowani o wszelkich zmianach wprowadzonych do danego artykułu;
– obrazki – liczba obrazków, umieszczonych w artykule;
– liczba_edycji – liczba edycji artykułu od momentu powstania;
– pochodną złożoną referencje/liczba_liter – stosunek wszystkich referencji, które
używane są w treści artykułu do zmiennej liczba_liter, a więc liczby znaków,
która jest używana w kodzie źródłowym;
• Zmienna objaśniana binarna:
– 1 – „kompletne” artykuły: klasy FA i GA,
– 0 – „niekompletne” artykuły: wszystkie inne - rozwijające się (które
należy dopracować) oraz nieocenione artykuły.
• Przeanalizowano blisko 20000 artykułów (zbiór uczący
zróżnicowany, testujący zbior blisko 3 razy wiekszy) 42
Zastosowanie regresji logistycznej w ocenie
jakości informacji na przykładzie Wikipedii
• Źródło danych: Wikipedia posiada serwis API,
który zapewnia wygodny dostęp do danych i
metadanych do artykułów za pomocą protokołu
HTTP, za pośrednictwem adresu URL
• Serwis ten działa dla każdej wersji językowej i
dostępny jest pod adresem określonym wg
szablonu:
https://{język}.wikipedia.org/w/api.php?action={u
stawienia}, gdzie {język} oznacza skrót wersji
językowej, {ustawienia} - ustawienia zapytania
43
• bi – to liczba artykułów oceniona jako niekompletne (złe) biorąc pod
uwagę konkretną wartość lub przedział wartości zmiennej
objaśniającej Xi w stosunku do łącznej liczby niekompletnych
artykułów w zbiorze całkowitym X (np. ile razy artykuły zawierające
określoną liczbę (lub przedział) obrazków (zmienna obrazki) zostały
ocenione jako niekompletne w stosunku do łącznej liczby
niekompletnych artykułów)
• gi – to liczba artykułów oceniona jako kompletne (dobre) biorąc pod
uwagę konkretną wartość lub przedział wartości zmiennej
objaśniającej Xi w stosunku do łącznej liczby kompletnych
artykułów w zbiorze całkowitym X
44
Z reguły dąży się do tego, by brać pod
uwagę zmienne o wysokim współczynniku
informacyjnym, zaznaczając jednocześnie,
aby ten współczynnik nie był zbyt wysoki, bo
takie zmienne mogą zdominować model, co
wiąże się z ryzykiem osłabienia stabilności
modelu oraz pogorszenia jego precyzji
45
46
Wartość
Information
Value
Charakter zmiennej niezależnej, moc predykcyjna
< 0.02 Bezużyteczny predyktor
0.02 - 0.1 Słaby predyktor
0.1 - 0.3 Średni predyktor
0.3 - 0.5 Mocny predyktor
>0.5 Czasem traktowany jako nadal mocny predyktor, albo
podejrzany – “zbyt dobry”, aby mógł być wiarygodny,
zmienna o cechach dominujących w modelu
źródło: opracowanie własne na podstawie Finlay (2010), Mays and Lynas (2011),
Siddiqi (2006)
47
zmienna IV - Wartość informacyjna
obrazki 2,33
referencje 2,95
liczba_edycji 0,68
liczba_obserwujących 0,28
odsłony 0,05
referencje/liczba_liter 1,69
• Okazuje się, że dwie zmienne – referencje oraz obrazki, a także zmienna
złożona (bazująca także na referencjach) są zaskakująco „dobre”, innymi
słowy ich „moc” predykcyjna jest bardzo wysoka – może to budzić
podejrzenia
• Stosunkowo mniejsze „podejrzenia” tej samej natury mogą pojawić się w
stosunku do zmiennej liczba_edycji
• Zmienną liczba_obserwujących możemy zaliczyć do średnich, a odsłony do
słabych predyktorów, jeśli chodzi o wpływ na jakość artykułu w Wikipedii.
• Wykorzystanie regresji logistycznej w ocenie jakości danych może
mieć szczególne znaczenie w dobie big data, gdzie mamy do
czynienia z wieloma zmiennymi opisującymi dane zjawiska lub
zachowania (wektor zmiennych objaśniających na wejściu), które
mają wpływ na podejmowanie decyzji
• Obliczenie rzeczywistej wartości informacji pozwala na
wyeliminowanie tych zmiennych, które niewiele „wnoszą” do
opisywanego zjawiska. Dzięki temu możliwa jest redukcja szumu
informacyjnego
• Wysoka jakość zmiennych sprzyja także budowaniu modeli
prognostycznych
• Dalsze obliczenia przy użyciu narzędzi IT z uwzględnieniem
wszystkich zmiennych objaśniających
48
Podsumowanie - przewidywania
• Według Gartnera w 2020 r. informacje gromadzone
dzięki analizie danych doprowadzą do przekształcenia,
dalszej digitalizacji lub eliminacji 80% procesów
biznesowych lub produktów
• Rozwój brokeringu danych
• Analiza danych zorientowana na klienta
• IoT największym globalnym rynkiem urządzeń – w
2019 r. warty 1,5 bln USD
• Tworzenie nowych markerów behawioralnych,
podejście proaktywne
• Ewolucja modeli biznesowych i praktyk zarządzania
49
To, co unikalne…
Rzeczywisty obraz
– nie ma podstawie przypuszczeń/deklaracji/wiedzy
ekspertów,
– nie na podstawie próbki danych,
– nie na podstawie eksperymentu,
– dostęp do danych szczegółowych (real-time data)
– wiemy dla kogo tworzymy produkt/usługę
(personalizacja, dywersyfikacja), szybka identyfikacja
grup zainteresowanych, dla których ważny jest
określony content (rekomendacja)
50
Planowane badania / działania organizacyjne
• Opracowanie modeli biznesowych w oparciu o
dane przetwarzane w czasie rzeczywistym/
Monitorowanie i ewaluacja efektywności
• Koło naukowe/grupa dyskusyjna związane z
przetwarzaniem strumieni danych w
przedsiębiorstwach i podejmowaniem decyzji na
tej podstawie (Współczesna analiza biznesowa -
środowisko akademickie +biznesowe) – wymiana
doświadczeń, tutoriale, dostęp do narzędzi (trial)
51
Rynek pracy
52
źródło: opracowanie własne na podstawie indeed.com
53
źródło: opracowanie własne na podstawie indeed.com
• Koncepcja Big Data – definicje i charakterystyka. Model 5V i rozwinięcia.
• Zastosowania Big Data w różnych obszarach życia społecznego – analiza
case study.
• Wprowadzenie do eksploracji danych w Big Data. Wyzwania technologiczne
(algorytmy, metody). Wyzwania analityczne (jakość danych, preprocessing
danych).
• Wprowadzenie do Machine Learning.
• Tekst jako dane. Budowa korpusu. Descriptive Analysis
• Text Mining. Wprowadzenie do Natural Language Processing
• Visual Analysis (Tableau)
• Geospatial Analysis
• Social Media Analysis. Social Network Analysis. Clustering
• Web Analytics.
• Sentiment Analysis. Opinion Mining.
• Big Data needs Thick Data”. Netnography, Ethno-Mining. Profilowanie
• Big data: problemy, wyzwania, konsekwencje.
• Zalety i ograniczenia Big Data. Big Data a ekonomia, socjologia i prawo. 54
55
56
57
Dziękuję za uwagę
59