instytut informatyki - projects topics proposalsanna.lamek/zajecia/niwpd/big...data: the rise of...

Big data

dr inż. Anna Lamek

Katedra Badań Operacyjnych, Finansów i Zastosowań Informatyki

Agenda

• Wprowadzenie

– czym jest Big data?

• 5V

• Wady i zalety

• Istniejące zastosowania

– Wykorzystanie big data w zarządzaniu

2

Czym jest Big data?

• [Gartner 2012] „…to zbiory informacji o dużej objętości,

dużej zmienności lub dużej różnorodności, które

wymagają nowych form przetwarzania w celu

wspomagania podejmowania decyzji, odkrywania

nowych zjawisk oraz optymalizacji procesów

• [Płaszczak 2013] …gdy zbioru nie da się przetwarzać

przy użyciu trywialnych, powszechnie dostępnych metod

• Masowy napływ dużej ilości danych cyfrowych,

pochodzących z różnych źródeł (czujniki, dokumenty,

fora internetowe, etc.)

• Dane niestrukturalne (tekst, pdf, video), semistrukturalne

(pliki XML) czy prawie strukturalne (web clicks)3

Czym jest Big data?

• [Tabakow, Korczak, Franczyk, 2014]:

„…określenie stosowane dla takich

zbiorów danych, które jednocześnie

charakteryzują się dużą objętością,

różnorodnością, strumieniowym napływem

w czasie rzeczywistym, zmiennością,

złożonością […] i wymagają zastosowania

innowacyjnych technologii, narzędzi,

metod informatycznych w celu wydobycia

z nich nowej i użytecznej wiedzy”4

5źródło: datatechnocrats.com

7źródło: OECD, IDC Digital Universe research estimates (2014)

Źródła big data

• Dane generowane przez użytkowników portali

internetowych, w tym sieci społecznościowych

• Dane opisujące transakcje dokonywane poprzez Internet

• Dane naukowe (biologiczne, astronomiczne, pomiary

fizyczne itp.)

• Dane generowane przez roboty przeszukujące Internet

(Web mining, Web crawling)

• Dane grafowe obrazujące powiązania pomiędzy

stronami WWW

• Dane pochodzące czujników i urządzeń podłączonych

do Internetu (Internet of Things)

• …. 8

Źródło: prezentacja Krzysztof Goczyła, Politechnika Gdańska, Big data i 5V , nowe wyzwania w świecie danych

Co się dzieje w ciągu 60sek?

9

źródło: https://www.go-globe.com/, sierpień 2017

10

źródło: Wikibon 2015, Executive Summary: Big Data Vendor Revenue and Market Forecast,

2011-2026 http://wikibon.com/executive-summary-big-data-vendor-revenue-and-market-forecast-

2011-2026/ , dostęp: maj 2016r.

Wzrost zainteresowania big data

11

źródło: opracowanie własne na podstawie Google Trends, listopad 2017

12Wyszukiwanie: listopad 2017

Potencjał big data - zbieranie informacji, nowej wiedzy, by dostrzec nowe

zależności i wzorce zachowań w społeczeństwie i środowisku

13

źródło: Tools and Techniques for Analysing Big Data, Michael Ferguson, Intelligent Business Startegies, Munich, 2014

Duże zasoby danych i brak integracji

Integrująca infrastruktura zarządzania

danymi coraz bardziej potrzebna

– wielokrotne kopie danych

– niezintegrowane procesy

– różne interfejsy użytkownika

– mnogość i złożoność platform analitycznych

– duplikacja funkcjonalności

– integracja typu „spaghetti”

– różne „aplikacje” Big Data 14

Dane rozproszone=złożone zarządzanie

15

Where is all the

Customer Data?

Legacy,

packaged apps

16

Źródło: http://www.intel.pl/content/www/pl/pl/it-managers/big-data-in-polish-companies.html Raport Capgemini “Big & Fast

Data: The Rise of Insight-Driven Business”, Badanie zostało przeprowadzone w marcu 2015 r. Wzięło w nim udział 576

CIO z firm zatrudniających min. 100 pracowników: 175 z Czech, 150 z Węgier, 150 z Polski i 101 ze Słowacji.

http://www.intel.pl/content/www/pl/pl/it-managers/big-data-in-polish-companies.html

17źródło: opracowanie własne na podstawie

Information Week 2015 Analytics & BI Survey

Bańka filtrująca (ang. filter bubble) – sytuacja powstała w

wyniku działania określonego algorytmu, gdzie osoba

korzystająca z sieci otrzymała informacje

wyselekcjonowane, które dobrane zostały na podstawie

informacji dostępnych na temat użytkownika, np. lokalizacja

lub historia wyszukiwania[1]. Powoduje to, że użytkownik

zamknięty jest w samonapędzającym się cyklu opinii, a

szukający nie zostaje nigdy skierowany na odmienne tematy

lub punkty widzenia[2].

19

[1] Jak jesteśmy profilowani w sieci? | Cyfrowa Wyprawka. cyfrowa-wyprawka.org.

[dostęp 2016-05-02]. [zarchiwizowane z tego adresu (5 marca 2016)].

[2] Yuan Cao Zhang, Diarmuid Ó Séaghdha, Daniele Quercia, Tamas Jambor. Auralist: Introducing Serendipity into Music Recommendation. „ACM WSDM”, luty 2012 (ang.).

https://web.archive.org/web/20151118213422/http:/www.cs.ucl.ac.uk/fileadmin/UCL-CS/research/Research_Notes/RN_11_21.pdf

20Źródło: https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles

Profilowanie użytkowników,

marketing spersonalizowany

• The typical Internet user is served 1,707

banner ads per month. (Comscore)

• 25-34-year olds see 2,094 banner ads per

month. (ComScore)

• „Target case”

21

22źródło:https://www.brainpickings.org/2011/05/12/the-filter-bubble/

Korelacja zjawisk

• współwystępowanie określonych zjawisk

• 2009 – badanie zbieżności zachorowań na raka z

używaniem telefonów komórkowych

– Dane operatorów + rejestr osób chorujących na raka + rejestr

zawierający dane dot. wykształcenia i dochodów)

• praca nad oprogramowaniem medycznym dla

wcześniaków – IBM + Uniwersytet w Ontario dr Carolin

McGregor

– różne strumienie danych (1260 przesłanych informacji/sekundę,

w wielu szpitalach – ogromne ilości danych)

– wykrywa zmiany na 24 h przed infekcją; niezmieniające się

parametry, idealnie stabilne dziecko>> wskazują na poważną

infekcję

23

24

r=0,957

źródło: http://tylervigen.com/spurious-correlations

25źródło: http://tylervigen.com/spurious-correlations

r=0,666

Geolokalizacja

26

Źródło: yanosik.pl,

Google Maps, iMPK

27źródło: Targeo, Google Maps

Traffic index

28źródło: https://www.tomtom.com/en_gb/trafficindex/

TI Wrocław

29źródło: https://www.tomtom.com/en_gb/trafficindex/

Google Transparency Report

30źródło: https://transparencyreport.google.com/

Ile osób wie, że tu jesteśmy?

• Oznaczenie lokalizacji, deklaracja udziału

w wydarzeniu

• Poszukiwanie trasy dojazdu, GPS

• Używanie karty

• Tweety, wysyłanie zdjęć

• Komórka (niekoniecznie smartphone)

logująca się do stacji przekaźnikowych w

sieci GSM

31

Analiza predyktywna

32The journey to predict the future: Dr Kira Radinsky at TEDxHiriya

https://www.youtube.com/watch?v=gAifa_CVGCY

Blue Crash

• Powstrzymywanie przestępstw zanim jeszcze zostaną

dokonane

• Specjalnie stworzony algorytm analizuje zapisy z kamer,

dane różnych służb oraz dane historyczne, aby móc

wysłać patrol w dobre miejsce i o dobrej porze.

• Rezultat: od 2006 do 2010 roku zmniejszono w Memphis

przestępstwa z użyciem przemocy o 26%, a liczba

włamań malała pięciokrotnie szybciej niż średnia w kraju.

33

Trendsmap / Hashtagify

• Bardzo mocno związane z aktualnymi

wydarzeniami

• Jedno/wiele źródeł

• Trendy / Rankingi popularności

• Narzędzia do planowania

działań/sterowania?

• How To Find Great Hashtags To Market

Your Business?

34

Współczesne kluczowe narzędzia biznesowe?

35

36

źródło: Trendsmap, 19.04.2016, godz. 11:24 ;)

37

źródło: Trendsmap, 19.04.2016, godz. 11:24 ;)

38

źródło: opracowanie własne na podstawie Google Trends, 19.04.2016

39

źródło: opracowanie własne na podstawie Google Trends, 19.04.2016

Zastosowanie regresji logistycznej w ocenie

jakości informacji na przykładzie Wikipedii

40

• Ocena zmiennych opisujących jakość artykułów w

Wikipedii w wersji angielskiej

• 5 miejsce w rankingu najczęściej odwiedzanych www*

• Istnieje wiele zmiennych opisujących daną publikację,

oprócz tego w różnych wersjach językowych inne

wyróżnienia publikacji / systemy klasyfikacji (ang – FA,

GA; pol – artykuł na medal)

• Problem automatycznej oceny dużej liczby artykułów

• Cel badań: ocena jakości artykułu (czy jest dobry) przy

dużej liczbie zmiennych niezależnych

*źródło: www.alexa.com/siteinfo/wikipedia.org

http://www.alexa.com/siteinfo/wikipedia.org

41

Wybór parametrów

opisujących jakość

artykułów Wikipedii w

wersji angielskiej

Wyznaczenie

wskaźnika

wartości

informacyjnej IV

dla każdego

parametru

Interpretacja

otrzymanych

wyników wskaźnika

wartości

informacyjnej IV dla

każdego parametru

Porównanie

wpływu

parametrów

na

kompletność

artykułów

• Parametry

– referencje – liczba wszystkich referencji, które używane są w treści artykułu;

– odsłony – liczba odsłon danego artykułu za ostatnie 90 dni od momentu

ekstrakcji danych;

– liczba_obserwujących – liczba użytkowników Wikipedii, którzy są bezzwłocznie

informowani o wszelkich zmianach wprowadzonych do danego artykułu;

– obrazki – liczba obrazków, umieszczonych w artykule;

– liczba_edycji – liczba edycji artykułu od momentu powstania;

– pochodną złożoną referencje/liczba_liter – stosunek wszystkich referencji, które

używane są w treści artykułu do zmiennej liczba_liter, a więc liczby znaków,

która jest używana w kodzie źródłowym;

• Zmienna objaśniana binarna:

– 1 – „kompletne” artykuły: klasy FA i GA,

– 0 – „niekompletne” artykuły: wszystkie inne - rozwijające się (które

należy dopracować) oraz nieocenione artykuły.

• Przeanalizowano blisko 20000 artykułów (zbiór uczący

zróżnicowany, testujący zbior blisko 3 razy wiekszy) 42

Zastosowanie regresji logistycznej w ocenie

jakości informacji na przykładzie Wikipedii

• Źródło danych: Wikipedia posiada serwis API,

który zapewnia wygodny dostęp do danych i

metadanych do artykułów za pomocą protokołu

HTTP, za pośrednictwem adresu URL

• Serwis ten działa dla każdej wersji językowej i

dostępny jest pod adresem określonym wg

szablonu:

https://{język}.wikipedia.org/w/api.php?action={u

stawienia}, gdzie {język} oznacza skrót wersji

językowej, {ustawienia} - ustawienia zapytania

43

• bi – to liczba artykułów oceniona jako niekompletne (złe) biorąc pod

uwagę konkretną wartość lub przedział wartości zmiennej

objaśniającej Xi w stosunku do łącznej liczby niekompletnych

artykułów w zbiorze całkowitym X (np. ile razy artykuły zawierające

określoną liczbę (lub przedział) obrazków (zmienna obrazki) zostały

ocenione jako niekompletne w stosunku do łącznej liczby

niekompletnych artykułów)

• gi – to liczba artykułów oceniona jako kompletne (dobre) biorąc pod

uwagę konkretną wartość lub przedział wartości zmiennej

objaśniającej Xi w stosunku do łącznej liczby kompletnych

artykułów w zbiorze całkowitym X

44

Z reguły dąży się do tego, by brać pod

uwagę zmienne o wysokim współczynniku

informacyjnym, zaznaczając jednocześnie,

aby ten współczynnik nie był zbyt wysoki, bo

takie zmienne mogą zdominować model, co

wiąże się z ryzykiem osłabienia stabilności

modelu oraz pogorszenia jego precyzji

45

46

Wartość

Information

Value

Charakter zmiennej niezależnej, moc predykcyjna

< 0.02 Bezużyteczny predyktor

0.02 - 0.1 Słaby predyktor

0.1 - 0.3 Średni predyktor

0.3 - 0.5 Mocny predyktor

>0.5 Czasem traktowany jako nadal mocny predyktor, albo

podejrzany – “zbyt dobry”, aby mógł być wiarygodny,

zmienna o cechach dominujących w modelu

źródło: opracowanie własne na podstawie Finlay (2010), Mays and Lynas (2011),

Siddiqi (2006)

47

zmienna IV - Wartość informacyjna

obrazki 2,33

referencje 2,95

liczba_edycji 0,68

liczba_obserwujących 0,28

odsłony 0,05

referencje/liczba_liter 1,69

• Okazuje się, że dwie zmienne – referencje oraz obrazki, a także zmienna

złożona (bazująca także na referencjach) są zaskakująco „dobre”, innymi

słowy ich „moc” predykcyjna jest bardzo wysoka – może to budzić

podejrzenia

• Stosunkowo mniejsze „podejrzenia” tej samej natury mogą pojawić się w

stosunku do zmiennej liczba_edycji

• Zmienną liczba_obserwujących możemy zaliczyć do średnich, a odsłony do

słabych predyktorów, jeśli chodzi o wpływ na jakość artykułu w Wikipedii.

• Wykorzystanie regresji logistycznej w ocenie jakości danych może

mieć szczególne znaczenie w dobie big data, gdzie mamy do

czynienia z wieloma zmiennymi opisującymi dane zjawiska lub

zachowania (wektor zmiennych objaśniających na wejściu), które

mają wpływ na podejmowanie decyzji

• Obliczenie rzeczywistej wartości informacji pozwala na

wyeliminowanie tych zmiennych, które niewiele „wnoszą” do

opisywanego zjawiska. Dzięki temu możliwa jest redukcja szumu

informacyjnego

• Wysoka jakość zmiennych sprzyja także budowaniu modeli

prognostycznych

• Dalsze obliczenia przy użyciu narzędzi IT z uwzględnieniem

wszystkich zmiennych objaśniających

48

Podsumowanie - przewidywania

• Według Gartnera w 2020 r. informacje gromadzone

dzięki analizie danych doprowadzą do przekształcenia,

dalszej digitalizacji lub eliminacji 80% procesów

biznesowych lub produktów

• Rozwój brokeringu danych

• Analiza danych zorientowana na klienta

• IoT największym globalnym rynkiem urządzeń – w

2019 r. warty 1,5 bln USD

• Tworzenie nowych markerów behawioralnych,

podejście proaktywne

• Ewolucja modeli biznesowych i praktyk zarządzania

49

To, co unikalne…

Rzeczywisty obraz

– nie ma podstawie przypuszczeń/deklaracji/wiedzy

ekspertów,

– nie na podstawie próbki danych,

– nie na podstawie eksperymentu,

– dostęp do danych szczegółowych (real-time data)

– wiemy dla kogo tworzymy produkt/usługę

(personalizacja, dywersyfikacja), szybka identyfikacja

grup zainteresowanych, dla których ważny jest

określony content (rekomendacja)

50

Planowane badania / działania organizacyjne

• Opracowanie modeli biznesowych w oparciu o

dane przetwarzane w czasie rzeczywistym/

Monitorowanie i ewaluacja efektywności

• Koło naukowe/grupa dyskusyjna związane z

przetwarzaniem strumieni danych w

przedsiębiorstwach i podejmowaniem decyzji na

tej podstawie (Współczesna analiza biznesowa -

środowisko akademickie +biznesowe) – wymiana

doświadczeń, tutoriale, dostęp do narzędzi (trial)

51

Rynek pracy

52

źródło: opracowanie własne na podstawie indeed.com

53

źródło: opracowanie własne na podstawie indeed.com

• Koncepcja Big Data – definicje i charakterystyka. Model 5V i rozwinięcia.

• Zastosowania Big Data w różnych obszarach życia społecznego – analiza

case study.

• Wprowadzenie do eksploracji danych w Big Data. Wyzwania technologiczne

(algorytmy, metody). Wyzwania analityczne (jakość danych, preprocessing

danych).

• Wprowadzenie do Machine Learning.

• Tekst jako dane. Budowa korpusu. Descriptive Analysis

• Text Mining. Wprowadzenie do Natural Language Processing

• Visual Analysis (Tableau)

• Geospatial Analysis

• Social Media Analysis. Social Network Analysis. Clustering

• Web Analytics.

• Sentiment Analysis. Opinion Mining.

• Big Data needs Thick Data”. Netnography, Ethno-Mining. Profilowanie

• Big data: problemy, wyzwania, konsekwencje.

• Zalety i ograniczenia Big Data. Big Data a ekonomia, socjologia i prawo. 54

Tableau

58

https://www.youtube.com/watch?v=hVimVzgtD6w

https://www.youtube.com/watch?v=hVimVzgtD6w

Dziękuję za uwagę

59

instytut informatyki - projects topics proposalsanna.lamek/zajecia/niwpd/big...data: the rise of...

Documents